Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhöht die Wahrscheinlichkeit dem Benutzer präzise und seinen Ansprüchen adäquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehören zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berücksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus für die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lösungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen über Textkorpora gegeben, einzelne Preprozessing-Schritte erläutert, lokale Grammatiken von Stellenanzeigen präsentiert, Seedlisten von Fachtermini beschrieben sowie der Lernprozess erklärt.

Leseprobe

Inhaltsverzeichnis

Einführung
Jobsektoren
- Begriffsdefinition
- Klassifikation der Jobsektoren
Theoretische Grundlage
- Verfahren zur Textkategorisierung
- Lokale Grammatiken
Algorithmus zur Stellenanzeigeklassifikation
Preprozessing von Stellenanzeigen
- Korpora
- Normalisierung
- Graphenbeschreibung
Deskriptorenlisten
Präzision- Recall Werte
Fazit
Literaturverzeichnis
- Fachliteratur und Artikel
- Internetlinks
Anhang
- Zuordnung der Berufsfelder zu der Jobsektoren
- Extrahierte Deskriptoren nach den Jobsektoren

Zielsetzung und Themenschwerpunkte

Die Diplomarbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach vorgegebenen Jobsektoren. Ziel ist es, die Effizienz der Jobsuche zu verbessern, indem relevante Informationen aus Stellenanzeigen extrahiert und automatisch kategorisiert werden. Die Arbeit analysiert verschiedene Verfahren der Textklassifikation und Kontexterstellung, insbesondere die Anwendung von lokalen Grammatiken.

Automatische Stellenanzeigeklassifikation
Jobsektor-Klassifizierung
Textkategorisierung
Lokale Grammatiken
Korpuslinguistik

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Stellenanzeigeklassifikation ein und erläutert die Herausforderungen der Informationsextraktion aus unstrukturierten Texten. Es wird die Notwendigkeit eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach Jobsektoren hervorgehoben.

Das zweite Kapitel befasst sich mit der Definition und Klassifizierung von Jobsektoren. Es werden verschiedene Klassifizierungssysteme vorgestellt und die Bedeutung einer eindeutigen und universellen Klassifizierung für die Stellenanzeigeklassifikation diskutiert.

Das dritte Kapitel behandelt die theoretischen Grundlagen der Textkategorisierung. Es werden verschiedene Verfahren zur Textklassifikation vorgestellt, darunter Verfahren basierend auf statistischen Methoden, maschinellem Lernen und linguistischen Ansätzen.

Das vierte Kapitel beschreibt den Algorithmus zur Stellenanzeigeklassifikation. Es werden die einzelnen Schritte des Algorithmus erläutert, darunter die Preprocessing-Phase, die Feature-Extraktion und die Klassifikation.

Das fünfte Kapitel befasst sich mit dem Preprocessing von Stellenanzeigen. Es werden verschiedene Korpora vorgestellt, die für die Entwicklung des Algorithmus verwendet werden, und die einzelnen Preprocessing-Schritte erläutert.

Das sechste Kapitel beschreibt die Erstellung von Deskriptorenlisten, die für die Klassifizierung von Stellenanzeigen verwendet werden. Es werden verschiedene Methoden zur Extraktion von Deskriptoren aus Texten vorgestellt.

Das siebte Kapitel präsentiert die Ergebnisse der Evaluation des Algorithmus. Es werden die Präzision und der Recall des Algorithmus für verschiedene Jobsektoren berechnet und diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen die Stellenanzeigeklassifikation, Jobsektoren, Textkategorisierung, lokale Grammatiken, Korpuslinguistik, Preprocessing, Deskriptoren, Präzision und Recall. Die Arbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach vorgegebenen Jobsektoren, basierend auf der Analyse von Textkorpora und der Anwendung von lokalen Grammatiken.

Ende der Leseprobe aus 64 Seiten - nach oben

Details

Titel: Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung
Hochschule: Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung)
Veranstaltung: Computerlinguistik, Information Extraktion, Informatik
Note: 1,3
Autor: M.A. Pawel Broda (Autor:in)
Erscheinungsjahr: 2011
Seiten: 64
Katalognummer: V184482
ISBN (eBook): 9783656093046
ISBN (Buch): 9783656093336
Sprache: Deutsch
Schlagworte: computerlinguistik information extraktion lokale grammatiken textklassifikation textklassifizierung text klassifikation text klassifizierung stellenanzeigen klassifikation informatik informatik linguistik
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: M.A. Pawel Broda (Autor:in), 2011, Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung, München, GRIN Verlag, https://www.grin.com/document/184482

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung