Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhöht die Wahrscheinlichkeit dem Benutzer präzise und seinen Ansprüchen adäquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehören zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berücksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus für die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lösungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen über Textkorpora gegeben, einzelne Preprozessing-Schritte erläutert, lokale Grammatiken von Stellenanzeigen präsentiert, Seedlisten von Fachtermini beschrieben sowie der Lernprozess erklärt.
Inhaltsverzeichnis
- Einführung
- Jobsektoren
- Begriffsdefinition
- Klassifikation der Jobsektoren
- Theoretische Grundlage
- Verfahren zur Textkategorisierung
- Lokale Grammatiken
- Algorithmus zur Stellenanzeigeklassifikation
- Preprozessing von Stellenanzeigen
- Korpora
- Normalisierung
- Graphenbeschreibung
- Deskriptorenlisten
- Präzision- Recall Werte
- Fazit
- Literaturverzeichnis
- Fachliteratur und Artikel
- Internetlinks
- Anhang
- Zuordnung der Berufsfelder zu der Jobsektoren
- Extrahierte Deskriptoren nach den Jobsektoren
Zielsetzung und Themenschwerpunkte
Die Diplomarbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach vorgegebenen Jobsektoren. Ziel ist es, die Effizienz der Jobsuche zu verbessern, indem relevante Informationen aus Stellenanzeigen extrahiert und automatisch kategorisiert werden. Die Arbeit analysiert verschiedene Verfahren der Textklassifikation und Kontexterstellung, insbesondere die Anwendung von lokalen Grammatiken.
- Automatische Stellenanzeigeklassifikation
- Jobsektor-Klassifizierung
- Textkategorisierung
- Lokale Grammatiken
- Korpuslinguistik
Zusammenfassung der Kapitel
Das erste Kapitel führt in die Thematik der Stellenanzeigeklassifikation ein und erläutert die Herausforderungen der Informationsextraktion aus unstrukturierten Texten. Es wird die Notwendigkeit eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach Jobsektoren hervorgehoben.
Das zweite Kapitel befasst sich mit der Definition und Klassifizierung von Jobsektoren. Es werden verschiedene Klassifizierungssysteme vorgestellt und die Bedeutung einer eindeutigen und universellen Klassifizierung für die Stellenanzeigeklassifikation diskutiert.
Das dritte Kapitel behandelt die theoretischen Grundlagen der Textkategorisierung. Es werden verschiedene Verfahren zur Textklassifikation vorgestellt, darunter Verfahren basierend auf statistischen Methoden, maschinellem Lernen und linguistischen Ansätzen.
Das vierte Kapitel beschreibt den Algorithmus zur Stellenanzeigeklassifikation. Es werden die einzelnen Schritte des Algorithmus erläutert, darunter die Preprocessing-Phase, die Feature-Extraktion und die Klassifikation.
Das fünfte Kapitel befasst sich mit dem Preprocessing von Stellenanzeigen. Es werden verschiedene Korpora vorgestellt, die für die Entwicklung des Algorithmus verwendet werden, und die einzelnen Preprocessing-Schritte erläutert.
Das sechste Kapitel beschreibt die Erstellung von Deskriptorenlisten, die für die Klassifizierung von Stellenanzeigen verwendet werden. Es werden verschiedene Methoden zur Extraktion von Deskriptoren aus Texten vorgestellt.
Das siebte Kapitel präsentiert die Ergebnisse der Evaluation des Algorithmus. Es werden die Präzision und der Recall des Algorithmus für verschiedene Jobsektoren berechnet und diskutiert.
Schlüsselwörter
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen die Stellenanzeigeklassifikation, Jobsektoren, Textkategorisierung, lokale Grammatiken, Korpuslinguistik, Preprocessing, Deskriptoren, Präzision und Recall. Die Arbeit befasst sich mit der Entwicklung eines semiautomatischen Algorithmus zur Klassifizierung von Stellenanzeigen nach vorgegebenen Jobsektoren, basierend auf der Analyse von Textkorpora und der Anwendung von lokalen Grammatiken.
- Arbeit zitieren
- M.A. Pawel Broda (Autor:in), 2011, Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung, München, GRIN Verlag, https://www.grin.com/document/184482