Die Forschung wurde im Formalismus der lokalen Grammatiken durchgeführt und untersucht die Implementierung dieser Theorie für die Information Extraktion aus dem EBAY Content (auf dem Beispiel von Schmuck-Domäne des deutschen EBAY).
Der auf dem Formalismus von lokalen Grammatiken aufgebaute IE-Mechanismus zeigt sehr hohe Präzision und Recall. Außerdem analysieren die lokalen Grammatiken synonymische Konstruktionen und die verfügbaren Wörterbücher enthalten verschiedene morphologische und fehlerhafte Wortformen sowie große Anzahl an Komposita. Darüber hinaus verfügen die lokalen endlichen Automaten über eine sehr gute Portabilität. Das System ist auf den Modulen aufgebaut und sie können in den bestimmten Abschnitten durch andere Module ersetzt werden.
Auf solche Art und Weise aufgebaute semantische Spezialsuchmaschinen für jede EBAY-Domäne können ganz schnell die Queries analysieren und dazu die passenden Items auffinden. Das dargestellte Verfahren wird es ermöglichen, den Bedarf von EBAY Kunden zu analysieren, bessere Navigation durch die zahlreichen Angeboten zu schaffen und die gezielten Werbungsmöglichkeiten zu bieten.
Inhaltsverzeichnis
1 Einführung
2 Darstellung des Forschungsgebiets
2.1 Lokale Grammatiken
2.2 Spezialsuchmaschinen
2.3 Arbeitsziel
3 Übersicht der Spezialsuchmaschinen von Schmuck-Domäne
3.1 ICE
3.2 Stylight
4 Übersicht der EBAY Suche in Schmuck Domäne
4.1 Beschreibung der Schmuck Domäne
4.2 Items
4.3 Queries
4.4 Evaluierung der Suchqualität bei EBAY
5 Arbeitsverfahren
5.1 Preprocessing
5.2 Lexikonstruktur der Domäne
5.3 Flektion und Wortbildung
5.4 Graphenbeschreibung
6 Auswertung der Ergebnisse
7 Fazit
8 Literaturverzeichnis
Zielsetzung und Themen
Die vorliegende Arbeit untersucht die Information Extraktion aus dem E-Commerce-Content von eBay in der Schmuck-Domäne mittels lokaler Grammatiken, um die Suchqualität trotz fehlerhafter und unstrukturierter Nutzeranfragen zu verbessern.
- Entwicklung lokaler Grammatiken und Lexika für die Schmuck-Domäne
- Analyse von Nutzer-Suchanfragen (Queries) und Artikelbeschreibungen (Items)
- Evaluierung der bestehenden eBay-Suchfunktionalität
- Implementierung linguistischer Ressourcen mittels des Tools UNITEX
- Optimierung der Suchergebnisse durch morphologische und syntaktische Analysen
Auszug aus dem Buch
2.1 Lokale Grammatiken
Der Termin „lokale Grammatiken“ wurde von Maurice Gross eingeführt. Dabei meinte er die Beschreibung der bestimmten „lokalen“ grammatischen Phänomene, die nicht mithilfe von globalen syntaktischen Regeln beschrieben werden können.
1975 hat sich Maurice Gross mit der Erstellung einer Lexikongrammatik beschäftigt. Das Ziel seiner Arbeit war, für jedes Verb der französischen Sprache ein genaues Satzschema aufzustellen und syntaktische Eigenschaften aller Verben zu erstellen. Eine Gruppe von Linguisten hat mehr als 400 Eigenschaften von 12.000 Verben genauer betrachtet. Auf Basis dieser Arbeit ist Maurice Gross zum revolutionären Ergebnis gekommen, dass keine 2 Verben die gleichen syntaktischen Eigenschaften haben. Daher hat er den neuen Grammatikformalismus vorgeschlagen – die Theorie der lokalen Grammatiken. Die lokalen Grammatiken sind in Form von endlichen Automaten dargestellt: „It could be viewed as an attempt to revive the Markovian model, but this would be wrong, because previous Markovian models were aimed at giving a global description of a language, whereas the model we advocate, and which we call it finite-state for short, is of a strictly local nature. In this perspective, the global nature of language results from the interaction of a multiplicity of local finite-state schemes which we call finite-state local automata“.
Zusammenfassung der Kapitel
1 Einführung: Die Einleitung definiert das Ziel der Arbeit, lokale Grammatiken zur Verbesserung der Schmucksuche bei eBay zu erstellen und erläutert die Herausforderungen durch Web 2.0-Content.
2 Darstellung des Forschungsgebiets: Es wird die Theorie der lokalen Grammatiken nach Maurice Gross eingeführt und das Konzept von Spezialsuchmaschinen im Vergleich zu Universalsuchmaschinen erläutert.
3 Übersicht der Spezialsuchmaschinen von Schmuck-Domäne: Dieses Kapitel präsentiert die Funktionsweisen und Ansätze der Suchmaschinen ICE und Stylight im Hinblick auf ihre Eignung für Schmuck-Domänen.
4 Übersicht der EBAY Suche in Schmuck Domäne: Hier werden die Struktur der eBay-Schmuckkategorie, die Eigenheiten der Artikel- und Query-Beschreibungen sowie die Defizite der derzeitigen eBay-Suche analysiert.
5 Arbeitsverfahren: Die Beschreibung des systematischen Aufbaus lokaler Grammatiken, vom Preprocessing der Daten über den Lexikonaufbau bis zur Graphenmodellierung und flektionsmorphologischen Behandlung.
6 Auswertung der Ergebnisse: Dieses Kapitel liefert eine quantitative Evaluierung der entwickelten Grammatiken anhand der Qualitätsmaße Recall, Präzision und F-Mittel.
7 Fazit: Die Arbeit resümiert die Überlegenheit des auf lokalen Grammatiken basierenden IE-Mechanismus gegenüber der klassischen String-Suche und diskutiert die Portabilität und Zukunftsperspektiven.
Schlüsselwörter
Information Extraktion, lokale Grammatiken, eBay, Schmuck-Domäne, UNITEX, Spezialsuchmaschinen, Information Retrieval, Linguistische Ressourcen, Korpusbearbeitung, Wortbildung, Flektion, Suchqualität, Semantische Labels, Finite-State Automaten, Sprachverarbeitung
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der Optimierung der Suchfunktion auf eBay im Bereich der Schmuck-Domäne durch den Einsatz linguistischer Methoden, speziell der Theorie der lokalen Grammatiken.
Welche zentralen Themenfelder werden behandelt?
Zu den zentralen Feldern gehören die Information Extraktion aus unstrukturierten Web-Daten, die Modellierung linguistischer Automaten, die Analyse von E-Commerce-Suchanfragen und die Evaluation von Retrieval-Systemen.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist die Erstellung von lokalen Grammatiken und Lexika, die es ermöglichen, eBay-Artikel und Nutzeranfragen präziser zu interpretieren und so die Suchqualität deutlich zu steigern.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit nutzt den Formalismus der lokalen Grammatiken und das Tool UNITEX, um endliche Automaten zur linguistischen Annotation und Analyse von Textkorpora zu entwickeln.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil umfasst eine Bestandsaufnahme der Schmuck-Domäne bei eBay, die methodische Erstellung der Grammatik-Kaskaden sowie die anschließende quantitative Evaluierung der Extraktionsergebnisse.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind Information Extraktion, lokale Grammatiken, eBay, UNITEX und Spezialsuchmaschinen.
Warum ist eine einfache String-Suche bei eBay oft unzureichend?
Die String-Suche scheitert häufig an orthographischen Fehlern, nicht standardisierten Komposita, Tippfehlern und der mangelnden Berücksichtigung semantischer Zusammenhänge, die bei nutzergenerierten Inhalten üblich sind.
Welche Rolle spielt die "Refinement-Box" in der Suchqualität?
Sie dient als Filterwerkzeug, um Suchergebnisse nach spezifischen Merkmalen (wie Material oder Edelsteinen) einzugrenzen, wobei die Arbeit kritisch beleuchtet, wie diese Merkmale auf eBay generiert werden.
Was macht den Ansatz der "lokalen Grammatiken" so portabel?
Das System ist modular aufgebaut, wodurch die einzelnen Graphen oder Wörterbücher leicht angepasst, erweitert oder durch andere Module ersetzt werden können, ohne das gesamte System neu zu konzipieren.
Welche Rolle spielen die Sprachressourcen vom CIS?
Die am CIS (Centrum für Informations- und Sprachverarbeitung) entwickelten Wörterbücher und Flektionsprogramme bilden die fundamentale Basis, auf der die spezifischen Grammatiken für die Schmuck-Domäne aufbauen konnten.
- Quote paper
- Olga Morozova (Author), 2009, Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken, Munich, GRIN Verlag, https://www.grin.com/document/140334