Das Einkaufen im Internet hat sich neben dem stationären Handel in den letzten Jahren zu einer tragenden Säule der Wirtschaft entwickelt. Die Menge der im Internet umgesetzten Waren hängt jedoch nicht zuletzt davon ab, ob der Verbraucher einen Anbieter und bei diesem das für ihn passende Produkt findet. Ohne eine umfassende Klassifikation von Produkten und eine ausgereifte Suchtechnologie ist das jedoch kaum möglich. Großer manueller Aufwand dafür ist natürlich sehr kostspielig. Eine Möglichkeit dem zu begegnen, ist die Entwicklung von Werkzeugen, die durch umfassende Konfigurierbarkeit helfen, große Mengen von Produkt- und Angebotsdaten weitestgehend automatisch zu analysieren und klassifizieren bzw. parametrisieren.
Die Arbeit stellt einen Ansatz vor, der in einem kommerziellen Umfeld eingesetzt wird. Im Bereich des elektronischen Handels findet er Anwendung, um Prozesse der automatischen Verarbeitung von deutschsprachigen Produkt- und Angebotsdaten zu unterstützen, die letztlich das Ziel haben, die zentrale Problematik des Online-Shoppings – das Suchen und Finden von Produkten – zu optimieren.
Die Idee ist dabei, linguistische Informationen – insbesondere lexikalische Daten und syntaktische Strukturen – aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren. Die dafür relevanten Informationen werden mittels Informationsextraktion gewonnen und bearbeitet. Dabei werden bestimmte wiederkehrende und aussagekräftige Muster erkannt und formalisiert, so daß durch Abstraktion auf einen Zusammenhang zwischen der Struktur des Angebotstextes und der Art und Zusammensetzung des konkreten Verkaufsobjektes geschlossen werden kann.
Die Arbeit besteht aus zwei Teilen: einem theoretischen, linguistisch-analytischen Abschnitt, in dem das Phänomen der sogenannten Relatoren zunächst ganz allgemein anhand des vorliegenden Korpus (Produkt- bzw. Angebotsinformationen aus dem Online-Handel) analysiert wird, und einem praktisch-anwendungsorientierten Abschnitt, in dem die Erkenntnisse der linguistischen Untersuchung konkret für eine ausgewählte Produktkategorie – Telekommunikationsprodukte – und mit einem Zweck – Erkennen einer Set-Relation – umgesetzt werden.
Inhaltsverzeichnis
0. EINFÜHRUNG
I. THEORETISCHER HINTERGRUND
1. MERKMALE DES KORPUS
2. RELATA, RELATOREN UND RELATIONEN
3. DIE RELATOREN
3.1 Präpositionen
3.1.1 MIT
3.1.2 FÜR
3.1.3 OHNE
3.1.4 IN
3.1.5 ZU
3.1.6 AUS
3.1.7 VON
3.1.8 GEGEN
3.1.9 AUF
3.2 Präpositionalphrasen
3.2.1 Präposition – Adjektiv
3.2.2 Präposition – Substantiv
3.2.3 Präposition – Verb
3.2.4 Präposition – sonstige Wortarten
3.3 Konjunktionen
3.3.1 UND
3.3.2 ODER
3.4 Verben
3.5 Weitere wortbasierte Relatoren
3.6 Symbole
3.7 Beobachtungen und Probleme
4. KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA
4.1 Relatorenklasse: MIT
4.1.1 Paradigmatische Realisierung
4.1.2 Syntagmatische Realisierung
4.1.3 Typologie des Nachfeldes
4.1.3.1 Konkreta
4.1.3.2 Abstrakta
4.2 Relatorenklasse: FÜR
4.2.1 Paradigmatische Realisierung
4.2.2 Syntagmatische Realisierung
4.2.3 Typologie des Nachfeldes
4.2.3.1 Konkreta
4.2.3.2 Abstrakta
4.3 Relatorenklasse: OHNE
4.3.1 Paradigmatische Realisierung
4.3.2 Syntagmatische Realisierung
4.3.3 Typologie des Nachfeldes
4.3.3.1 Konkreta
4.3.3.2 Abstrakta
5. ZUSAMMENFASSUNG UND AUSBLICK
II. EINE BEISPIELANWENDUNG
1. DER HINTERGRUND
1.1 Einbettung in die Prozeßarchitektur
1.2 Ansätze für die Konstruktion von IE-Komponenten
2. DAS WERKZEUG
3. DIE RESSOURCEN
3.1 Das Korpus
3.1.1 Kennzeichen
3.1.2 Vorverarbeitung
3.1.2.1 Normalisierung
3.1.2.2 Tokenisierung
3.1.2.3 Lexikalisches Parsing
3.2 Die Lexika
3.3 Graphen
4. HEURISTIK
4.1 Erstellung der Lexika
4.1.1 Arbeitsschritte
4.1.2 Übersicht über die Lexikondateien
4.1.2.1 Lexika der Relatoren
4.1.2.2 Lexika der generischen Konkreta
4.1.2.3 Lexika der Eigennamen (Marken- und Modellnamen)
4.1.2.4 Lexika der Attribute
4.1.2.5 Lexika der Vertrags- und Anbieterdaten
4.1.2.6 Sonstige Lexika
4.2 Erstellen der Lokalen Grammatiken
4.2.1 Abstrahieren von Schemata
4.2.2 Der Hauptgraph main.grf
4.2.3 Die Subgraphen auf der zweiten Ebene
4.2.3.1 Angebote mit Telefon – Relator – Vertragsbestandteil
4.2.3.2 Angebote mit Telefon – Relator – Vertragsbestandteil – weiteres Element
4.2.4 Die Subgraphen auf der dritten Ebene
4.3 Anwenden der Grammatiken auf das Korpus
4.4 Nachbearbeitung des annotierten Korpus
5. EVALUATION UND ZUSAMMENFASSUNG
5.1 Evaluation
5.1.1 Vollständigkeit
5.1.2 Präzision
5.1.3 Wahrheitsmatrix
5.1.4 Bewertung
5.2 Zusammenfassung
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, deutschsprachige Angebotsbeschreibungen von Online-Shopping-Portalen durch eine linguistisch-strukturelle Analyse zu erschließen. Dabei steht die Optimierung der Produktsuche durch Informationsextraktion im Vordergrund, indem wiederkehrende Muster und Relationen innerhalb der oft unstrukturierten Angebotstexte mittels rekursiver Transitionsnetzwerke formalisiert und extrahiert werden.
- Linguistische Analyse von Angebotsbeschreibungen im E-Commerce
- Identifikation und Klassifikation von Relatoren (z.B. MIT, FÜR, OHNE)
- Entwicklung lokaler Grammatiken zur Informationsextraktion
- Implementierung mittels der Softwareplattform Unitex
- Evaluation der Extraktionsleistung anhand von Recall und Precision
Auszug aus dem Buch
3.1 Merkmale des Korpus
Das Korpus, das die Grundlage dieser Untersuchung bildet, zeichnet sich durch eine Reihe von prägnanten Merkmalen aus, die es zum einen zwar deutlich von üblichen Korpora unterscheiden und eine besondere Behandlung erfordern, zum anderen aber auch eine interessante Analyse ermöglichen.
Das Korpus setzt sich aus kurzen Angebotsbeschreibungen zusammen, die Händler aus den Eckdaten der Produkte verfassen und die dann auf Shopping-Portalen erscheinen. Thematisch handelt es sich um Angebote aus allen Produktbereichen, von Computern über Haushaltsgeräte bis hin zu Kleidung. Für die Untersuchung der Zusammensetzung und der Struktur der Angebote wird jedoch von vornherein die Kategorie Medien ausgeschlossen, da dort das Vorkommen von Eigennamen und festen Titeln die Untersuchungsergebnisse verzerren würde.
Auffälligstes Merkmal des Korpus ist, daß es sich nicht um Fließtext handelt. Die einzelnen Angebotsbeschreibungen bestehen vielmehr aus einer Aneinanderreihung von Produktinformationen zu Textfragmenten und weisen nur eine rudimentäre Grammatik auf. Dies mag vielerlei Gründe haben, insbesondere natürlich die Platzbegrenzung auf den Einkaufsportalen, die die Händler zwingt, möglichst viele Informationen zu einem Angebot mit sehr wenig Text zu vermitteln.
Der Text ist folglich stark segmentiert, als Analyseeinheit dienen voneinander unabhängige Angebote, die jeweils nur eine Zeile umfassen. Es kommen zudem lediglich bestimmte offene und geschlossene Wortarten vor. Dies sind vor allem bedeutungstragende Wortarten, wobei der Stil ausgeprägt nominal ist, d.h. den größten Anteil haben Nomen (Substantive, Adjektive). Verben kommen hingegen nur sporadisch vor. Von den funktionstragenden Wortarten treten fast ausschließlich Präpositionen auf. Darüber hinaus enthält das Korpus viele Sonderzeichen.
Zusammenfassung der Kapitel
EINFÜHRUNG: Diese Einleitung erläutert die Relevanz der automatischen Verarbeitung von Produktdaten für den Online-Handel und führt in das Ziel der Arbeit, die Informationsextraktion mittels linguistischer Analyse, ein.
THEORETISCHER HINTERGRUND: Hier werden die spezifischen Merkmale des zugrundeliegenden Korpus analysiert und die zentralen Konzepte von Relata und Relatoren als strukturelle Ankerpunkte der Texte definiert.
DIE RELATOREN: Dieses Kapitel bietet eine detaillierte linguistische Kategorisierung der im Korpus auftretenden Relatoren, wobei insbesondere Präpositionen, Konjunktionen und andere wortbasierte Markierungen untersucht werden.
KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA: Hier erfolgt eine tiefergehende Systematisierung der wichtigsten Relatorenklassen (MIT, FÜR, OHNE) hinsichtlich ihrer syntagmatischen Realisierung und der semantischen Typologie ihrer Nachfelder.
ZUSAMMENFASSUNG UND AUSBLICK: Das Kapitel fasst die gewonnenen Erkenntnisse über die Struktur von Angebotsbeschreibungen zusammen und diskutiert das Potenzial zur Verbesserung der Produktsuche.
EINE BEISPIELANWENDUNG: Dieser Teil beschreibt die praktische Umsetzung der linguistischen Analyse mithilfe der Software Unitex, von der Korpusvorverarbeitung über die Erstellung von Lexika bis zur Entwicklung lokaler Grammatiken.
EVALUATION UND ZUSAMMENFASSUNG: Dieses abschließende Kapitel bewertet die Leistungsfähigkeit des entwickelten IE-Systems anhand der Metriken Vollständigkeit und Präzision und zieht ein Fazit zur praktischen Anwendbarkeit des Ansatzes.
Schlüsselwörter
Computerlinguistik, Informationsextraktion, Online-Einkaufsportale, Angebotsbeschreibungen, Relatoren, Lokale Grammatiken, Unitex, Syntaktische Analyse, Korpuslinguistik, Set-Relation, Produktklassifizierung, Knowledge Engineering, Sprachverarbeitung, Information Retrieval, Datensegmentierung
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der automatischen Verarbeitung und Strukturierung von Angebotsbeschreibungen aus Online-Einkaufsportalen durch computerlinguistische Methoden.
Welche zentralen Themenfelder werden behandelt?
Die zentralen Felder sind die Analyse der syntaktischen Struktur von Angebotstexten, die Identifikation von Relatoren zur Verknüpfung von Produkteigenschaften und die praktische Informationsextraktion.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, durch die Analyse linguistischer Muster zu erreichen, dass Produkte in Online-Portalen präziser klassifiziert und Suchanfragen effektiver bearbeitet werden können.
Welche wissenschaftliche Methode kommt zum Einsatz?
Es wird ein Knowledge Engineering Ansatz verfolgt, der mittels lokaler Grammatiken und rekursiver Transitionsnetzwerke innerhalb der Plattform Unitex umgesetzt wird.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil analysiert die morphologischen und syntaktischen Eigenschaften von Relatoren wie "MIT", "FÜR" und "OHNE" und beschreibt die konkrete Entwicklung von Lexika und Graphen zur automatischen Annotation.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind Informationsextraktion, Relatoren, Lokale Grammatiken, Unitex und die linguistische Modellierung von E-Commerce-Daten.
Wie geht die Arbeit mit dem Problem der Platzbegrenzung in den Angeboten um?
Die Arbeit erkennt an, dass die Händler aus Platzgründen eine rudimentäre, stark nominale Grammatik nutzen, und passt die Analysemethoden (z.B. Verzicht auf klassische Satzsegmentierung) an diese spezifische Korpusbeschaffenheit an.
Welche Rolle spielen die "Relatoren" für die Extraktion?
Relatoren dienen als Ankerpunkte im Angebotstext, die zwischen Hauptprodukt und zusätzlichen Attributen (wie Zubehör, Verträgen oder Eigenschaften) vermitteln und somit die semantische Relation im Text explizit machen.
Warum wird die Plattform Unitex für dieses Projekt genutzt?
Unitex wurde gewählt, weil es eine modulare, graphbasierte Modellierung von Grammatiken erlaubt und sich durch seine Erweiterbarkeit für domänenspezifische Anwendungen besonders eignet.
Wie werden die Ergebnisse der Arbeit bewertet?
Die Evaluation erfolgt quantitativ durch die Berechnung von Recall (Vollständigkeit) und Precision (Präzision) anhand eines repräsentativen Teilkorpus, wobei eine hohe Präzision von 96,7 % erreicht wurde.
- Quote paper
- Anja Klein (Author), 2007, Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke, Munich, GRIN Verlag, https://www.grin.com/document/81077