Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhöht die Wahrscheinlichkeit dem Benutzer präzise und seinen Ansprüchen adäquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehören zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berücksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus für die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lösungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen über Textkorpora gegeben, einzelne Preprozessing-Schritte erläutert, lokale Grammatiken von Stellenanzeigen präsentiert, Seedlisten von Fachtermini beschrieben sowie der Lernprozess erklärt.
Inhaltsverzeichnis
1 Einführung
2 Jobsektoren
2.1 Begriffsdefinition
2.2 Klassifikation der Jobsektoren
3 Theoretische Grundlage
3.1 Verfahren zur Textkategorisierung
3.2 Lokale Grammatiken
4 Algorithmus zur Stellenanzeigeklassifikation
5 Preprozessing von Stellenanzeigen
5.1 Korpora
5.2 Normalisierung
5.3 Graphenbeschreibung
6 Deskriptorenlisten
7 Präzision- Recall Werte
8 Fazit
9 Literaturverzeichnis
9.1 Fachliteratur und Artikel
9.2 Internetlinks
10 Anhang
10.1 Zuordnung der Berufsfelder zu der Jobsektoren
10.2 Extrahierte Deskriptoren nach den Jobsektoren
1 Einführung
Neben den vielen Jobportalen, die als Datenbanken funktionieren, wo Informationen wie Branche, Jobart oder Qualifikationen manuell eingegeben werden, gibt es auch Jobsuchdienste, die das Web durchsuchen, relevante Informationen extrahieren und sie automatisch klassifizieren. Die Klassifizierung erhöht die Wahrscheinlichkeit dem Benutzer präzise und seinen Ansprüchen adäquate Informationen zu liefern. Die extrahierten Informationen zu klassifizieren ist oft ein kompliziertes Unterfangen. Die Jobanzeigen sind meistens nicht kategorisiert oder so kategorisiert, dass die Kategorie nicht ermittelt und die Anzeige nicht zugeordnet werden kann. Nicht zuletzt liegt das Problem an den Suchdiensten selbst. Viele von ihnen gehören zu den Suchdiensten der ersten Generation, die auf der Volltextsuche ohne semantisch-syntaktisch-orthografische Analyse basieren und keine Gegebenheiten der Jobwelt berücksichtigen.
Die vorliegende Arbeit greift das Problem der Information Extraktion basierten Textklassifikation auf und strebt die Erstellung des semiautomatischen Algorithmus für die Stellenanzeigenklassifikation nach vorgegebenen Jobsektoren an.
Im theoretischen Teil der Arbeit werden Jobsektoren analysiert, Verfahren der Textklassifikation, Kontexterstellung und Lexikonbootstrapping mithilfe von lokalen Grammatiken besprochen sowie ein konkreter Lösungsansatz dargestellt, der auf der semantisch-syntaktischen Analyse von Stellenanzeigen mithilfe von Korpusbearbeitungstool UNITEX basiert.
Im praktischen Teil der Arbeit wird ein Verfahren zur semiautomatischen Textklassifikation dargestellt. Es werden Informationen über Textkorpora gegeben, einzelne Preprozessing-Schritte erläutert, lokale Grammatiken von Stellenanzeigen präsentiert, Seedlisten von Fachtermini beschrieben sowie der Lernprozess erklärt.
Anschließend werden Ergebnisse im Fazit diskutiert.
2 Jobsektoren
Auf dem deutschsprachigen Markt gibt es zahlreiche Jobportale, die dem Benutzer bei der Jobsuche zur Verfügung stehen. Um den Usern die Suche zu erleichtern, kann nach dem Job in verschiedenen Branchen und Berufsfelder gesucht werden. Dank solcher Klassifizierung ist es möglich, ohne eine konkrete Berufsbezeichnung, nach den Jobangeboten in der bestimmten Branche zu suchen. Ein weiterer Vorteil ist, wenn eine Berufsbezeichnung zu allgemein ist, z.B. Mechaniker oder Manager, dann kann die Suche je nach Interesse präzisiert werden. Jedes Portal klassifiziert sowohl die Branchen als auch die Berufsfelder meistens anders. Es existieren mehrere offizielle Berufsklassifikatoren. Eine eindeutige und universelle Klassifizierung gibt es nicht. Einen interessanten Beitrag zur Klassifizierung der Berufe leistet die Richtlinie „Die Klassifizierung der Berufe des Statistischen Bundesamtes in der Fassung für den Mikrozensus – Ausgabe 1992“[1], die sich bei der Klassifizierung auf der Art der beruflichen (ausgeübten) Tätigkeit stützt. Zwei weitere Klassifizierungen, die teilweise zum Zwecke dieser Arbeit, herangezogen wurden, kommen von der Bundesanstalt für Arbeit[2].
2.1 Begriffsdefinition
In dieser Arbeit bezeichnen die Branchen, folgend als Jobsektoren genannt, Industriebereiche, in denen Unternehmen tätig sind, einzelne Abteilungen von Unternehmen oder auch Berufe; z.B. Medizintechniker. In einem Jobsektor können auch verschiedene Berufsfelder kombiniert werden. So können Jobs z.B. für Manager, Wissenschaftler oder Übersetzer in mehreren Jobsektoren präsent sein. Das Berufsfeld Übersetzung selbst gehört dem Jobsektor Sonstige Dienstleistungen, der alle Berufsfelder aus dem Dienstleistungsbereich enthält, die nicht zu Finanzdienstleistungen, Personaldienstleistungen oder weiteren Jobsektoren passen.
Im Jobsektor Sonstiges produzierendes Gewerbe werden die Berufsfelder gruppiert, welche nicht zu den sonst produzierenden Jobsektoren gehören, wie z.B. Baugewerbe/-industrie, Maschinen- und Anlagenbau, Metallindustrie oder Handwerk.
Es gibt immer wieder Berufe, die man nicht eindeutig nach den Jobsektoren identifizieren kann. In diesem Fall werden sie der Kategorie Sonstige Branchen zugeordnet.
2.2 Klassifikation der Jobsektoren
In der vorliegenden Arbeit wird die unten aufgelistete, bereits vorgegebene Klassifikation der Jobsektoren verwendet:
Abbildung in dieser Leseprobe nicht enthalten
Die vollständige Zuordnung der Berufsfelder zu den Jobsektoren wird in der vorliegenden Arbeit im Kapitel 10.1 dargestellt. Die Zuordnung erfolgte auf der Grundlage von der Berufsklassifikation der Bundesanstalt für Arbeit.[3]
3 Theoretische Grundlage
Im diesen Kapitel wird die der vorliegenden Auseinandersetzung zugrunde liegende Problematik behandelt. Zuerst wird der Begriff Textkategorisierung erläutert und anderen IR-Aufgaben gegenüber gestellt. Hierbei wird der Fokus auf die Automatisierungsmethode für das Erstellen von Wörterbüchern -- auf die Bootstrapping-Methode gelegt. Des Weiteren wird der Begriff lokalen Grammatiken erläutert und ihre Rolle in der Information Extraktion beschrieben.
3.1 Verfahren zur Textkategorisierung
Im Allgemeinen bezeichnet der Begriff Textkategorisierung die Zuordnung von Textdokumenten zu einer vorher festgelegten Menge von Kategorien[4]. Der Hauptunterschied zu den anderen IR-Aufgaben ist ein statisches Set von Kategorien, wobei die klassische Aufgabe von IR im Finden einer Information bei sich dynamisch ändernden Suchanfragen besteht. Eine der möglichen Implementationen von Textkategorisierung ist Filtern von Dokumenten nach besonderen Interessen von Menschengruppen (so wird es zum Beispiel im Newswire gemacht)[5]. So funktionieren die Jobsuchdienste, die den Usern die Stellenanzeigenklassifikation nach Berufsfelder oder Sektoren anbieten.
Die meisten traditionellen Algorithmen für Textkategorisierung basieren auf Statistik und stellen die Dokumenten als „Bag of Words“ dar, indem jedes Wort als separate Einheit betrachtet wird. Trotzdem weist eine solche Herangehensweise aufgrund der Synonymie, Polysemie, Kollokationen und Kontexten, in denen die Wörter in natürlicher Sprache vorkommen, bestimmte Restriktionen auf. Alternative Herangehensweise besteht im wissensbasierten Verfahren, das auf explizit dargestelltem Wissen basiert, sei es Regeln, semantische Netze, Patterns oder Kasusrahmen. Die meisten solcher Systemen haben einen großen Erfolg in Spezialdomänen, trotzdem ihr Erstellen braucht viel Zeit und Expertenwissen in entsprechenden Bereichen[6]. Das ist die manuelle Arbeit, die im Erstellen von Kontexten und semantischen Verbindungen zwischen Wörtern besteht.
Da die wissensbasierten Systemen präzisere und intelligentere Klassifikationen machen, wurde es versucht, das Erstellen von Kontexten und Wörterbüchern zu automatisieren. Eine der Automatisierungsmethoden für das Erstellen von Wörterbüchern ist Bootstrapping Methode[7]: Nach dem Erstellen vom detaillierten Kontext von einem Lexem, kann man anstelle dieses Lexems in demselben Kontext die Lexeme herunterladen, die dieselbe semantische Bedeutung tragen.
Riloff/Jones haben das Konzept von Mutual Bootstrapping (gegenseitiges Bootstrapping) in ihrer Arbeit "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping" dargestellt[8]. Dabei werden erst die neuen Wörter, die dieselben Eigenschaften haben, heruntergeladen und dann entsprechend den schon vorhandenen und neu hinzugefügten Wörtern Kontexte modifiziert.
Die vorliegende Arbeit befasst sich mit dem Problem der Textkategorisierung. Die Textkategorisierung erfolgt hierbei auf der Basis von relevanten Deskriptoren, die aus bestimmten Kontexten extrahiert worden sind. Die Identifizierung von Kontexten wurde mithilfe von lokalen Grammatiken durchgeführt.
3.2 Lokale Grammatiken
Lokale Grammatiken sind die empirische Herangehensweise an die Sprache, wobei man alle sprachlichen Phänomene mithilfe von endlichen Automaten beschreibt. Der Termin lokale Grammatiken wurde von Maurice Gross eingeführt. Unter lokalen Grammatiken versteht man die bestimmten „lokalen“ Phänomene, die nicht mithilfe von globalen syntaktischen Regeln beschrieben werden können.
Maurice Gross arbeitete 1975 an der Erstellung einer Lexikongrammatik[9]. Das Ziel seines Vorhabens zielte darauf ab, syntaktische Eigenschaften aller französischen Verben zu erarbeiten sowie für jedes Verb ein exaktes Satzschema aufzustellen. Auf der Grundlage einer Forschung, in der eine Gruppe von Linguisten mehr als 400 Eigenschaften von 12.000 Verben analysiert hat, kam Gross zu einem bahnbrechenden Ergebnis, dass das syntaktische Paradigma von jedem einzelnen Verb einzelartig ist. Daher plädierte er für einen neuen Grammatikformalismus, für die Theorie der lokalen Grammatiken, die mit endlichen Automaten darstellbar sind.
Nach Maurice Gross sind sie einerseits die Wiedererweckung von endlichen Markov-Automaten für die Beschreibung von der Sprache, aber diese Automaten beabsichtigen keine globale Beschreibung von der Sprache sondern strikt die lokalen Phänomena. „In this perspective, the global nature of language results from the interaction of a multiplicity of local finite-state schemes which we call finite-state local automata“.[10] In seiner Arbeit “The Construction of Local Grammars” versucht Maurice Gross eine Grammatik von der Börse-Domäne zu erstellen, weil der Domänenwortschatz und die benutzten Konstruktionen von limitierter Natur zu sein scheinen. Laut Harris[11] charakterisieren sich die Sprachdomänen (z.B. Sprache der Stellenanzeigen, Finanznachrichten oder Arztdiagnosen) durch eine limitierte Anzahl von Ambiguitäten sowie durch gewisse Regularitäten und Strukturen, die für Computerbearbeitung von Vorteil sind. Daher ist es möglich die Grammatik einer Sprachdomäne zu erstellen. In seiner Arbeit „ Language and information “ (1988) gibt er an, was eine Sprachdomäne (hier als Untersprache definiert) ausmacht: „A subset of the sentences of a language constitutes a sublanguage of that language if it is closed under some operation of the language […]”.[12] Die Stellenanzeigen zeigen auch den limitierten Wortschatz und die begrenzte Anzahl der syntaktischen Konstruktionen. Das bietet eine Möglichkeit an, die Stellenanzeige in Formalismus der lokalen Grammatik zu beschreiben.
Die lokalen Grammatiken sind häufig zum Zwecke von IE benutzt. Es wurden große Grammatiken für Named Entity Recognition erstellt. Es existieren auch Arbeiten, die die wichtigen für bestimmten Gebieten Informationen extrahieren. Der Jobsektor ist hier keine Ausnahme. Infolge der Zusammenarbeit zwischen LMU CIS und University of Alberta (USA) wurden lokale Grammatiken für französische Stellenanzeigen erarbeitet, welche für die Jobportale relevanten Informationen extrahieren.[13]
In vorliegender Arbeit wurden Grammatiken entwickelt, die relevante Informationen aus den Stellenanzeigen extrahieren können.
Beim Erstellen von lokalen Grammatiken spielt die Bootstrapping Methode eine große Rolle für Dokumentenkategorisierung. Da die Stellenanzeigen mithilfe von lokalen Grammatiken beschrieben werden können, werden in diesen Grammatiken in bestimmten Stellen relevante Lexeme vorkommen, die zur gleichen semantischen Klasse gehören und für jeden Sektor wichtig sind. Als Beispiele können hier einige semantische Klassen angebracht werden, wie z.B. semantische Klasse Geräte (Geräte, mit denen Angestellte umgehen sollen - im Kontext „Umgang mit <N>+<!DIC>”), semantische Klasse Kenntnisse (Kenntnisse, über die Angestellte verfügen sollen – im Kontext „Kentnisse von <N>+<!DIC>”), semantische Klasse Studium, Erfahrung oder Branche.
Für die Arbeit mit lokalen Grammatiken wurde das Tool UNITEX konzipiert. Es wurde an den Laboratorien d'Automatique Documentaire et Linguistique (LADL) unter Betreuung von Maurice Gross und Sébastien Paumier entwickelt. UNITEX ist eine open-source Software, die unter der LGPL Lizenz[14] benutzt wird. Sie kann von der Webseite des Instituts für Elektronik und Computer Science Gaspard-Monge[15] heruntergeladen werden.
Mit UNITEX können Texte aus mehreren Sprachen bearbeitet werden. Es verfügt über Wörterbücher für 13 Sprachen, wobei Wörterbücher für Deutsch an der LMU München im CIS Institut[16] entwickelt wurden.
4 Algorithmus zur Stellenanzeigeklassifikation
Der in dieser Arbeit implementierte Algorithmus zur Stellenanzeigenklassifikation wird auf dem Trainingskorpus von Stellenanzeigen trainiert. Seine Aufgabe besteht in der Extraktion von relevanten Deskriptoren aus den Kontexten sowie in der Identifizierung weiterer Deskriptoren in den ermittelten Kontexten von weiteren Stellenanzeigen.
90% des Korpus dient als Trainingskorpus und 10% des Korpus ist Deployment Korpus. Beide Korpora werden erst preprocessed, d.h. die Stellenanzeigen werden so konvertiert, dass UNITEX damit arbeiten kann. Danach werden mithilfe von lokalen Grammatiken wichtige Kontexte für Stellenanzeigenklassifikation beschrieben. Die Stelle, wo die relevanten Deskriptoren vorkommen, wird mit Tags <deskriptor>…</deskriptor> vermerkt. Für die Trainingsphase wurden Listen mit Seedlexemen erstellt. Jede Seedliste enthält 7-15 Wörter und Wortkollokationen, die den entsprechenden Sektor beschreiben. Für die Seedlisten wurden Wörter und Wortkollokationen ausgewählt, die eindeutig den jeweiligen Sektor beschreiben. Die meisten Seedterme sind Begriffen, welche Berufsfelder beschreiben, die zum jeweiligen Jobsektoren zugeordnet wurden. Für die Sektoren, denen keine Berufsfelder zugeordnet wurden, wurden die Berufe und wichtigen Begriffe von Berufsklassifikation der Bundesanstalt für Arbeit[17] ausgewählt. Enthält eine Stellenanzeige in der Trainingsphase zu einem Jobsektor passende Lexeme, die in der Seedliste abgespeichert wurden, wird sie dann diesem bestimmten Jobsektor zugeordnet. Es reichte, wenn eins von Seedwörtern in Stellenanzeige vorhanden war, um jeweilige Stellenanzeige zu klassifizieren. Nach Klassifikation wurden aus den Stellenanzeigen relevante Wörter und Wortkollokationen von Deskriptorenstellen extrahiert. Der Administrator wird dann gefragt, ob die extrahierten Deskriptoren den Sektor/ die Sektoren beschreiben, dem/denen die Stellenanzeige zugeordnet wurde. Falls der Administrator zustimmt, werden die Deskriptoren zur entsprechenden Liste hinzugefügt und gleich für weitere Klassifizierung dynamisch benutzt. Der Administrator kann auch die entsprechenden Deskriptoren zu Stoppwörter hinzufügen, wobei sich bei den Stoppwörtern nicht nur um die falschgeschriebenen Formen und Funktionswörter handelt, sondern auch um die Lexeme, deren Bedeutung zu allgemein ist und für die Textklassifikation in keinem Kontext relevant sind (z.B.: Manager). Weiterhin kann der Administrator einen Deskriptor ablehnen, der trotzdem bei weiteren Jobsektoren in Betracht gezogen wird.
Die Trainingsphase fand beim Trainingskorpus dreimal statt, so dass sich die Seedlisten um mehrere Deskriptoren erweitert haben.
Die erstellten Wörterbücher werden für Textkategorisierung in der Anwendungsphase benutzt. Falls der Deskriptor im Titel vorkommt, wird für ihn Score 3 vergeben, falls er im relevanten Kontext auftritt, bekommt er die Score 2. In jedem anderen Fall erhält er die Score 1. Wenn die Stellenanzeige 3 Punkte oder mehr für einen entsprechenden Sektor erhält, wird sie diesem Sektor zugeordnet. Die Bewertung der Precision und Recall dieser Klassifizierung wurde in Kapitel 7 der vorliegenden Arbeit vorgenommen. Die Algorithmusschritte werden detailliert im nächsten Kapitel erläutert.
Der dargestellte Algorithmus basiert auf Supervised Learning und der Administrator spielt eine große Rolle beim Erstellen von Deskriptorenwörterbüchern. In der Trainingsphase arbeitet der Algorithmus semiautomatisch, weil die Akzeptanz oder das Ablehnen jedes einzelnen Deskriptors durch den Administrator notwendig ist. Die Textkategorisierung selbst wurde automatisch mithilfe von erstellten Wörterbüchern und Graphen durchgeführt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 : Algorithmus
5 Preprozessing von Stellenanzeigen
5.1 Korpora
Auf der Basis von Training Korpus, das aus 1261 Stellenanzeige besteht, wurden Grammatiken für Stellenanzeigen entwickelt, welche die wichtigen für Stellenanzeigenklassifikation Jobdeskriptoren extrahieren.
Das vorhandene Korpus wurde bereits preprocessed, die HTML-Tags wurden entfernt und die Jobtitel wurden im Quadratklammern in jeder Stellenanzeige in Form [<Jobtitlel> UNK] dargestellt.
Einige Jobtitel wurden trotzdem nicht angegeben [jobtitel nicht angegeben UNK]. Die Länge der Stellenanzeigen variiert von einigen Wörtern bis mehreren Seiten. Die kurzen Stellenanzeigen, die entweder nur aus dem Jobtitel oder aus dem Jobtitel und ein paar Wörter bestehen und meistens nicht syntaktisch strukturiert sind, bringen besondere Schwierigkeiten bei der Klassifikation. Trotzdem stellen die meisten Jobanzeigen im Korpus einen syntaktisch gut strukturierten Text dar. Eine durchschnittliche Stellenanzeige beinhaltet ca. 150-200 Wörter und verfügt über eine kurze Profilbeschreibung der Jobagentur, falls sie diesen Job im Internet positioniert hat, eine kurze Profilbeschreibung von der Firma, Jobaufgaben, Profil vom Jobsuchenden und Kontaktdaten von der Firma oder Jobagentur.
Das Problem bei den Anzeigen war manchmal versehentliches Weglassen von Leerzeichen, Leerzeichen in der Mitte des Wortes oder eine kleine Anzahl von Vertippungen. Die häufigsten Fälle würden beim Normalisierungsschritt korrigiert. Trotzdem wurden nicht alle Probleme lokalisiert und behoben.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 : Beispiel von Stellenanzeige
Die 90% des Korpus wurden für Trainigsphase benutzt, die andere 10% für Anwendungsphase. Die berechneten Precision/Recall Werte beziehen sich auf die 10% des analysierten Korpus.
5.2 Normalisierung
In diesem Schritt werden Texte in Unicode 2 Format konvertiert, damit die Bearbeitung mit Unitex möglich ist. Die Jobtitel werden normalisiert. In den Stellenanzeigen sind die Jobtiteln meistens in der Form „Männliche Jobbezeichnung/ Feminine Endungen von Jobbezeichnung” (Verkäufer/in) oder “Frauenjobbezeichnung/ Männerjobbezeichnungendungen“ (Kauffrau/-mann) korrekt dargestellt. Diese Formen werden auf die erstgeschriebene Jobbezeichnungform reduziert. Auch die Pluralendungen, die nach dem Jobbezeichnung geschrieben sind, zum Beispiel –innen oder - inNen wurden gelöscht. Der Vermerk (m/w) wurde ebenso entfernt. Auch die Präpositionen, die mit dem Bruchstrich geschrieben sind, z.B. zur/zum werden zur Hauptform (in diesem Fall zu) geführt. Alle anderen Bruch- oder Bindestriche wurden gelöscht. Die Interpunktionszeichen bleiben, weil sie bei einer syntaktischen Analyse benötigt werden. Die falsch ausgestellten Leerzeichen werden in meisten Fällen korrigiert.
Nach diesen Arbeitsschritten ist ein normalisierter Text entstanden, der für die lexikalisch-syntaktische Analyse bereit ist.
5.3 Graphenbeschreibung
- Hauptgraph
Der Hauptgraph (Abb. 3) enthält sieben Untergraphen: Verkauf, Unternehmen, Haupt-Taetig., Diplom, als_Deskriptor, Abteilung und Titel. Die Eigenschaften sowie die Arbeitsweise einzelner Untergraphen werden im folgenden Kapitel detailliert erläutert.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3 : Hauptgraph
- Graph: Verkauf
Der Graph Verkauf (Abb. 4) identifiziert Waren, die ein Unternehmen einkauft oder verkauft sowie die Leistungen, die ein Unternehmen anbietet und der Jobsuchende als Mitarbeiter erbringen muss. Er berücksichtigt dabei immer den rechten Kontext von Einkauf/Verkauf gefolgt von dem obligatorischen Präposition von (bzw. v als Abkürzung), einem fakultativen Artikel sowie Adjektiv und einem oder mehreren potenzialen Deskriptoren. Er findet z.B. folgende Dienstleistungen und Waren im Korpus, nach denen sich die Jobsektoren oder Berufsfelder identifizieren lassen:
Abbildung in dieser Leseprobe nicht enthalten
So liefert der Graph Verkauf ziemlich eindeutige Deskriptoren wie Marktforschungsprodukte, Modeartikel, Reiseprodukte, Druckerzeugnisse oder Kosmetikprodukte, obwohl hierbei auch erklärungsbedürftigen als ein Deskriptor erkannt worden ist. Dies liegt aber daran, dass dieses Adjektiv nicht im Wörterbuch als solches eingetragen ist und hier durch das <MOT> -Erkennungsmuster identifiziert wird.
[...]
[1] Vgl.: http://www.gesis.org/download/fileadmin/missy/erhebung/Panel/1996-1999/KldB92_MZ_1_.pdf (12.12.2010)
[2] Vgl. http://www.mpib-berlin.mpg.de/de/forschung/bag/projekte/lebensverlaufsstudie/pdf/LV_ost_panel/Nonresponse_Dokumentationshandbuch%20Kap62%20Berufsklassifikation%20der%20Bundesanstalt%20f%FCr%20Arbeit.pdf (28.11.2010) und http://www.gesis.org/fileadmin/upload/dienstleistung/methoden/spezielle_dienste/inhaltsanalyse_berufsklass/isco88_1_.pdf?download=true (30.11.2010)
[3] Vgl. http://www.mpib-berlin.mpg.de/de/forschung/bag/projekte/lebensverlaufsstudie/pdf/LV_ost_panel/Nonresponse_Dokumentationshandbuch%20Kap62%20Berufsklassifikation%20der%20Bundesanstalt%20f%FCr%20Arbeit.pdf (28.11.2010)
[4] Vgl. Riloff, Lehnert (1994), S. : 296-333
[5] Vgl. Belkin, Croft (1992), S.: 29-38.
[6] Vgl. Ebenda
[7] Vgl. Gross (1999), S. : 228-250. Sieh auch: Gross, Maurice: The Construction of Local Grammars. In Finite-State Language Processing, E. Roche & Y. Schabès (eds.), Language, Speech and Communication, Cambridge 1997, S.: 329-354
[8] Vgl. Riloff, Jones (1999), S.: 474-479
[9] Vgl. Gross (1975): “Methodes en sintaxe”
[10] Vgl. Gross (1994): “The Construction of Local Grammars“
[11] Vgl. Harris (1988), S. : 33 ; Sieh auch : http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.105.2430&rep=rep1&type=pdf (03.01.2011)
[12] Ebenda
[13] Vgl. Bsiri, Geierhos, Ringlstetter (2008), S.: 201-213. Mehr zu diesem Thema: Bulwahn, Lukas: „Interdisziplinäres Projekt: Entwicklung einer lokalen Grammatik für Nominalphrasen“. CIS LMU München, 2008.
[14] Die „GNU Lesser General Public License“ (LGPL) ist eine von der Free Software Gründung entwickelte Lizenz für freie Software. Unter dieser Lizenz darf man die Software für einen beliebigen Zweck nutzen, die Software vervielfältigen und weitergeben, die Software nach eigenen Bedürfnissen ändern und die geänderten Versionen weitergeben.
[15] Vgl. http://www-igm.univ-mlv.fr/~unitex/index.php?page=3
[16] Centrum für Information und Sprachwissenschaft an der LMU München: www.cis.uni-muenchen.de
[17] Vgl. http://www.mpib-berlin.mpg.de/de/forschung/bag/projekte/lebensverlaufsstudie/pdf/LV_ost_panel/Nonresponse_Dokumentationshandbuch%20Kap62%20Berufsklassifikation%20der%20Bundesanstalt%20f%FCr%20Arbeit.pdf (28.11.2010)
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.