Das Einkaufen im Internet hat sich neben dem stationären Handel in den letzten Jahren zu einer tragenden Säule der Wirtschaft entwickelt. Die Menge der im Internet umgesetzten Waren hängt jedoch nicht zuletzt davon ab, ob der Verbraucher einen Anbieter und bei diesem das für ihn passende Produkt findet. Ohne eine umfassende Klassifikation von Produkten und eine ausgereifte Suchtechnologie ist das jedoch kaum möglich. Großer manueller Aufwand dafür ist natürlich sehr kostspielig. Eine Möglichkeit dem zu begegnen, ist die Entwicklung von Werkzeugen, die durch umfassende Konfigurierbarkeit helfen, große Mengen von Produkt- und Angebotsdaten weitestgehend automatisch zu analysieren und klassifizieren bzw. parametrisieren.
Die Arbeit stellt einen Ansatz vor, der in einem kommerziellen Umfeld eingesetzt wird. Im Bereich des elektronischen Handels findet er Anwendung, um Prozesse der automatischen Verarbeitung von deutschsprachigen Produkt- und Angebotsdaten zu unterstützen, die letztlich das Ziel haben, die zentrale Problematik des Online-Shoppings – das Suchen und Finden von Produkten – zu optimieren.
Die Idee ist dabei, linguistische Informationen – insbesondere lexikalische Daten und syntaktische Strukturen – aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren. Die dafür relevanten Informationen werden mittels Informationsextraktion gewonnen und bearbeitet. Dabei werden bestimmte wiederkehrende und aussagekräftige Muster erkannt und formalisiert, so daß durch Abstraktion auf einen Zusammenhang zwischen der Struktur des Angebotstextes und der Art und Zusammensetzung des konkreten Verkaufsobjektes geschlossen werden kann.
Die Arbeit besteht aus zwei Teilen: einem theoretischen, linguistisch-analytischen Abschnitt, in dem das Phänomen der sogenannten Relatoren zunächst ganz allgemein anhand des vorliegenden Korpus (Produkt- bzw. Angebotsinformationen aus dem Online-Handel) analysiert wird, und einem praktisch-anwendungsorientierten Abschnitt, in dem die Erkenntnisse der linguistischen Untersuchung konkret für eine ausgewählte Produktkategorie – Telekommunikationsprodukte – und mit einem Zweck – Erkennen einer Set-Relation – umgesetzt werden.
Inhaltsverzeichnis
- 0. EINFÜHRUNG
- I. THEORETISCHER HINTERGRUND
- 1. MERKMALE DES KORPUS
- 2. RELATA, RELATOREN UND RELATIONEN
- 3. DIE RELATOREN
- 3.1 Präpositionen
- 3.1.1 MIT
- 3.1.2 FÜR
- 3.1.3 OHNE
- 3.1.4 IN
- 3.1.5 ZU
- 3.1.6 AUS
- 3.1.7 VON
- 3.1.8 GEGEN
- 3.1.9 AUF
- 3.2 Präpositionalphrasen
- 3.2.1 Präposition - Adjektiv
- 3.2.2 Präposition – Substantiv
- 3.2.3 Präposition – Verb
- 3.2.4 Präposition - sonstige Wortarten
- 3.3 Konjunktionen
- 3.3.1 UND
- 3.3.2 ODER
- 3.4 Verben
- 3.5 Weitere wortbasierte Relatoren
- 3.6 Symbole
- 3.7 Beobachtungen und Probleme
- 4. KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA
- 4.1 Relatorenklasse: MIT
- 4.1.1 Paradigmatische Realisierung
- 4.1.2 Syntagmatische Realisierung
- 4.1.3 Typologie des Nachfeldes
- 4.1.3.1 Konkreta
- 4.1.3.2 Abstrakta
- 4.2 Relatorenklasse: FÜR
- 4.2.1 Paradigmatische Realisierung
- 4.2.2 Syntagmatische Realisierung
- 4.2.3 Typologie des Nachfeldes
- 4.2.3.1 Konkreta
- 4.2.3.2 Abstrakta
- 4.3 Relatorenklasse: OHNE
- 4.3.1 Paradigmatische Realisierung
- 4.3.2 Syntagmatische Realisierung
- 4.3.3 Typologie des Nachfeldes
- 4.3.3.1 Konkreta
- 4.3.3.2 Abstrakta
- 5. ZUSAMMENFASSUNG UND AUSBLICK
- II. EINE BEISPIELANWENDUNG
- 1. DER HINTERGRUND
- 1.1 Einbettung in die Prozeßarchitektur
- 1.2 Ansätze für die Konstruktion von IE-Komponenten
- 2. DAS WERKZEUG
- 3. DIE RESSOURCEN
- 3.1 Das Korpus
- 3.1.1 Kennzeichen
- 3.1.2 Vorverarbeitung
- 3.1.2.1 Normalisierung
- 3.1.2.2 Tokenisierung
- 3.1.2.3 Lexikalisches Parsing
- 3.2 Die Lexika
- 3.3 Graphen
- 4. HEURISTIK
- 4.1 Erstellung der Lexika
- 4.1.1 Arbeitsschritte
- 4.1.2 Übersicht über die Lexikondateien
- 4.1.2.1 Lexika der Relatoren
- 4.1.2.2 Lexika der generischen Konkreta
- 4.1.2.3 Lexika der Eigennamen (Marken- und Modellnamen)
- 4.1.2.4 Lexika der Attribute
- 4.1.2.5 Lexika der Vertrags- und Anbieterdaten
- 4.1.2.6 Sonstige Lexika
- 4.2 Erstellen der Lokalen Grammatiken
- 4.2.1 Abstrahieren von Schemata
- 4.2.2 Der Hauptgraph main.grf
- 4.2.3 Die Subgraphen auf der zweiten Ebene
- 4.2.3.1 Angebote mit Telefon – Relator - Vertragsbestandteil
- 4.2.3.2 Angebote mit Telefon - Relator - Vertragsbestandteil – weiteres Element
- 4.2.4 Die Subgraphen auf der dritten Ebene
- 4.3 Anwenden der Grammatiken auf das Korpus
- 4.4 Nachbearbeitung des annotierten Korpus
- 5. EVALUATION UND ZUSAMMENFASSUNG
- 5.1 Evaluation
- 5.1.1 Vollständigkeit
- 5.1.2 Präzision
- 5.1.3 Wahrheitsmatrix
- 5.1.4 Bewertung
- 5.2 Zusammenfassung
- Analyse der sprachlichen Struktur von Angebotsbeschreibungen
- Entwicklung eines linguistischen Ansatzes zur automatischen Klassifizierung von Produkten
- Anwendung des Ansatzes auf eine ausgewählte Produktkategorie (Telekommunikationsprodukte)
- Einsatz von Rekursiven Transitionsnetzwerken zur Verarbeitung der linguistischen Daten
- Evaluation der entwickelten Methode und ihrer Ergebnisse
Zielsetzung und Themenschwerpunkte
Diese Arbeit befasst sich mit der automatischen Klassifizierung und Informationsextraktion von Angebotsbeschreibungen für Online-Einkaufsportale. Ziel ist es, linguistische Informationen aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren.
Zusammenfassung der Kapitel
Die Arbeit ist in zwei Teile gegliedert: Im ersten Teil wird der theoretische Hintergrund der Untersuchung erläutert. Hier werden die Merkmale des Korpus, die relevanten Relatoren und deren Funktionen sowie die Typologie der Relata analysiert. Im zweiten Teil wird ein praktischer Ansatz vorgestellt, der die Erkenntnisse aus der linguistischen Untersuchung auf die Klassifizierung von Telekommunikationsprodukten anwendet.
Schlüsselwörter
Die Arbeit beschäftigt sich mit folgenden Themenbereichen: Computerlinguistik, Informationsextraktion, Angebotsbeschreibungen, Online-Einkaufsportale, Rekursive Transitionsnetzwerke, linguistische Analyse, automatische Klassifizierung, Produktinformationen, Telekommunikationsprodukte.
- Arbeit zitieren
- Anja Klein (Autor:in), 2007, Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke, München, GRIN Verlag, https://www.grin.com/document/81077