Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken


Masterarbeit, 2009

78 Seiten, Note: 2


Leseprobe


INHALTSVERZEICHNIS

1 Einführung

2 Darstellung des Forschungsgebiets
2.1 Lokale Grammatiken
2.2 Spezialsuchmaschinen
2.3 Arbeitsziel

3 Übersicht der Spezialsuchmaschinen von Schmuck-Domäne
3.1 ICE
3.2 Stylight

4 Übersicht der EBAY Suche in Schmuck Domäne
4.1 Beschreibung der Schmuck Domäne
4.2 Items
4.3 Queries
4.4 Evaluierung der Suchqualität bei EBAY

5 Arbeitsverfahren
5.1 Preprocessing
5.2 Lexikonstruktur der Domäne
5.3 Flektion und Wortbildung
5.4 Graphenbeschreibung

6 Auswertung der Ergebnisse

7 Fazit

8 Literaturverzeichnis

ANNEX A: Graphen und Konkordanzen

DANKSAGUNG

Vor allem danke ich meinem Betreuer, Herrn Prof. Dr. Franz Guenthner, der mir die Gelegenheit gegeben hat, am Centrum für Informations- und Sprachverarbeitung zu studieren und bei dem ich viele Seminare besucht und viel neues Wissen erworben habe.

Des Weiteren danke ich den DAAD für die gegebene finanzielle Freiheit und die Möglichkeit, in Deutschland Aufbaustudium zu absolvieren.

Ich möchte mich auch bei allen Lehrkräften, die am CIS unterrichten, bedanken, insbesondere bei: Herrn Professor Dr. Klaus U. Schulz, Herrn Dr. Max Hadersbeck, Frau Michaela Geierhos, Herrn Dr. Gerhard Rolletschek, Herrn Dr. phil. Habil. Sebastian Nagel, Herrn Dr. Jörg Schuster und Herrn Dr. Hans Leiß.

1 Einführung

Diese Arbeit ist der Information Extraktion mithilfe von lokalen Grammatiken gewidmet und verfolgt als Ziel die Erstellung der lokalen Grammatiken für die Suche in der Schmuck-Domäne von deutschem EBAY1.

Die Zunahme der von Webbenutzern manuell geschriebenen Texte im Web bildet zurzeit eine große Herausforderung für Information Retrieval. Die Webbenutzer schaffen LiveJournals, verwalten eine riesige Menge von Blogs, beschreiben die zum Verkauf eingestellten Waren bei Online-Shops, kommentieren die Einträge von anderen Web User in Facebook, YouTube und vergleichbaren Web 2.0 Diensten. Diese von Usern konzipierten Texte charakterisieren sich durch eine große Anzahl von Tippfehlern, Rechtsschreibungsfehlern, Verwenden einer informellen Sprache, Jargon­Wörter und Redewendungen. Die klassische String-basierte Suche kann solche fehlerhafte Einträge nicht finden. Der Einsatz der lokalen Grammatiken ermöglicht es, solche Einträge und Suchanfragen zu analysieren und in unifizierte Form zu überschreiben, ohne die Benutzer dazu zu zwingen, die korrekten Sprachformen zu verwenden. Das wird in bestimmten Web 2.0 Diensten (z. B. Online-Shops) die Suchaufgabe erleichtern und wird es ermöglichen, die gesuchten Informationen (im Fall von Online-Shops: Artikeln mit allen angegeben Parametern) zu finden.

Die vorliegende Forschung entstand im Rahmen des CIS-Projekts, das sich als Ziel setzt, spezielle Suchmaschinen mithilfe von lokalen Grammatiken für jede EBAY- Domäne zu erstellen und dabei die verbesserte Suche für EBAY zu schaffen. Die lokalen Grammatiken wurden mithilfe von Korpusbearbeitung-Tool „UNITEX“ erstellt und beschreiben die Schmuck-Domäne bei deutschem EBAY.

Das konkrete Ziel der Arbeit ist erstens die EBAY-Suche in der Schmuck-Domäne zu evaluieren und zu analysieren und zweitens die lokalen Grammatiken, die auf dem Korpus von Items und Queries der Schmuck- Domäne basieren, zu erstellen und sie danach zu bewerten.

Die vorliegende Arbeit ist folgendermaßen strukturiert.

Das zweite Kapitel eröffnet die Diskussion zum Thema „lokale Grammatiken“ und „spezielle Suchmaschinen“ und bestimmt konkret das Ziel der Arbeit sowie ihr Platz im interdisziplinären Projekt. Im dritten Kapitel werden Beispiele von speziellen

Suchmaschinen in der Schmuck-Domäne präsentiert. Dabei wird auf die Haupteigenschaften von Schmuck-Domäne und auf die grundlegenden semantischen Klassen und Klassifizierungen innerhalb von dieser Domäne hingewiesen. Der vierte Abschnitt beschreibt die Struktur und den Inhalt der Schmuck-Domäne bei der EBAY sowie die charakteristischen Eigenschaften der Artikelbeschreibungen und Suchanfragen. In demselben Abschnitt wird die EBAY-Suche (u. a. Refinement-Boxe) evaluiert sowie mögliche Lösungen zur Verbesserung der EBAY-Suche im Bereich der Schmuck-Domäne vorgeschlagen. Das fünfte Kapitel stellt die Beschreibung des Arbeitsverfahrens zum Aufbau der lokalen Grammatiken dar. In diesem Kapitel sind die einzelnen Schritte der Arbeit beschrieben: Preprocessing (Kapitel 5.1), Lexikon-Aufbau (Kapitel 5.2), Flektions- und Wortbildungsprogramme (Kapitel 5.3) und Graphen (Kapitel 5.4). Das 6. Kapitel liefert die Evaluierung der erstellten lokalen Grammatiken. Zum Schluss werden die Ergebnisse der Arbeit im Fazit zusammengefasst und die Implementierung der lokalen Grammatiken für EBAY-Suche diskutiert. Im Anhang werden Beispiele der erstellten Graphen und Konkordanzen präsentiert.

2 Darstellung des Forschungsgebiets

2.1 Lokale Grammatiken

Der Termin „lokale Grammatiken“ wurde von Maurice Gross eingeführt. Dabei meinte er die Beschreibung der bestimmten „lokalen“ grammatischen Phänomene, die nicht mithilfe von globalen syntaktischen Regeln beschrieben werden können.

1975 hat sich Maurice Gross mit der Erstellung einer Lexikongrammatik beschäftigt2. Das Ziel seiner Arbeit war, für jedes Verb der französischen Sprache ein genaues Satzschema aufzustellen und syntaktische Eigenschaften aller Verben zu erstellen. Eine Gruppe von Linguisten hat mehr als 400 Eigenschaften von 12.000 Verben genauer betrachtet. Auf Basis dieser Arbeit ist Maurice Gross zum revolutionären Ergebnis gekommen, dass keine 2 Verben die gleichen syntaktischen Eigenschaften haben. Daher hat er den neuen Grammatikformalismus vorgeschlagen - die Theorie der lokalen Grammatiken. Die lokalen Grammatiken sind in Form von endlichen Automaten dargestellt:

„It could be viewed as an attempt to revive the Markovian model, but this would be wrong, because previous Markovian models were aimed at giving a global description of a language, whereas the model we advocate, and which we call it finite-state for short, is of a strictly local nature. In this perspective, the global nature of language results from the interaction of a multiplicity of local finite-state schemes which we call finite-state local automata“.3

Für die Entwicklung der lokalen Grammatiken wurde das Tool UNITEX an der Laboratoire d'Automatique Documentaire et Linguistique (LADL) unter Betreuung von Maurice Gross entwickelt. Den meisten Beitrag zur Entwicklung dieses Tools hat Sébastien Paumier geleistet. UNITEX ist eine open-source Software. Die Software ist von der Seite des Instituts für Elektronik und Computer Science Gaspard-Monge4 herunterzuladen und unter LGPL Lizenz5 zu benutzen.

UNITEX kann die Texte aus mehreren Sprachen bearbeiten, dafür sind schon die Wörterbücher für 13 Sprachen entwickelt: für Französisch, Englisch, Deutsch, Finnisch, Georgisch, antikes und modernes Griechisch, Russisch, Thailändisch, Italienisch, Norwegisch, Portugiesisch und Spanisch. Für die deutsche Sprache wurden die Wörterbücher am CIS6 entwickelt.

UNITEX wurde zu Zwecken der Information Extraktion und Information Retrieval, zur Korpusbearbeitung (Lemmatisierungen, Parsing usw.) und Korpusannotationen in Rahmen mehrerer Projekte verwendet.7

2.2 Spezialsuchmaschinen

Nach thematischen Gesichtspunkten lassen sich die Suchmaschinen in 3 Hauptgruppen unterteilen: Universalsuchmaschinen, Spezialsuchmaschinen und

Archivsuchmaschinen. Während Archivsuchmaschinen gefundene Webseiten auf eigenen Rechnern abspeichern, um die dauerhaft verfügbar zu machen, stellen die Universalsuchmaschinen und Spezialsuchmaschinen sich zum Ziel, ein Abbild des aktuellen Webs zu liefern.

„Universalsuchmaschinen kennen keine thematischen, geographischen oder sprachlichen Grenzen. Ihr Ziel ist es - soweit möglich - das gesamte WWW zu erfassen. Spezialsuchmaschinen hingegen beschränken sich bewusst auf eine geographische Region, auf einen Sprachraum oder ein einzelnes Thema bzw. Themengebiet“8.

Es gibt sehr große Menge an Spezialsuchmaschine für verschiedene Themengebiete und in verschiedenen Sprachen. In einem Themengebiet, auf das sie sich spezialisieren, liefern solche Suchmaschinen üblicherweise bessere Ergebnisse als Universalsuchmaschinen. Die Spezialsuchmaschinen sind auf vielen zu ihrem Gebiet relevanten Portalen implementiert oder für diese Portale speziell entwickelt.

Da die Spezialsuchmaschinen sich gezielt auf ein bestimmtes Thema beschränken, lassen sich die für dieses Gebiet gewissen Inhaltsbereiche und Schwerpunkte charakterisieren. Diese Inhalte sind in Grammatiken und Lexika konzipierbar. Deshalb eignet sich der Formalismus der lokalen Grammatiken zum Erstellen der Spezialsuchmaschinen hervorragend.

Unten wurden die Beispiele von einigen auf lokalen Grammatiken basierten Spezialsuchmaschinen aufgelistet:

- GlossaNet9 ist eine Spezialsuchmaschine, die 1999 von Cédrick Fairon an der LADL unter wissenschaftlicher Betreuung von Maurice Gross entwickelt wurde. Das System ist jetzt von CENTAL (Centre de traitement automatique du langage) an der Universität von Louvain (UCL, Belgien) betrieben. Die GlossaNet durchsucht über 80 Tageszeitungen nach Informationen. Die Suchmaschine führt die Suche nach ihrer Suchanfrage jeden Tag durch und präsentiert aktuelle Ergebnisse. Dabei ist GlossaNet mehr als einfache Spezialsuchmaschine, das ist auch ein linguistischer Konkordanzer, der nach linguistischen Schemata recherchieren kann. GlossaNet ist die erste Suchmaschine, die in Rahmen des Formalismus von lokalen Grammatiken und mithilfe vom UNITEX-Tool entwickelt wurde.

- JOBANOVA10 ist eine Spezialsuchmaschine, die sich auf die Suche nach Arbeitsstellen in Deutschland, Italien, Frankreich, in der Schweiz und in den Staaten beschränkt. Zurzeit enthält sie demzufolge 5 Spezialsuchmaschinen für jede von oben erwähnten Sprachen (Stand: August 2009). Die JOBANOVA wurde unter der Betreuung von Professor Dr. Guenthner entwickelt. Bewerber können in Sekundenbruchteilen die Stellenangebote auf JOBANOVA nach allen bedeutungsgleichen, aber ganz unterschiedlich geschriebenen Berufsbezeichnern gleichzeitig durchsuchen. Neben den hier vorgestellten Neuerungen am wichtigsten sind die schreibweisentolerante Suche und das Vorschlagsfenster, das dem Benutzer schon während der Eingabe alle dazu passenden Angebote in einer Zusammenfassung zeigt, selbst wenn die Eingabe nicht ganz korrekt ist.

- TrustYou11 ist eine Qualitätssuchmaschine. Basierend auf Millionen von Bewertungen hilft sie eine gute Entscheidung zu treffen. Dabei wird das Internet nach Qualitätsinformationen, also Bewertungen, Meinungen und Aussagen von Nutzern über Hotels, Hostels und Restaurants durchsucht. Man bekommt dann Bewertungen, die nach verschiedenen Informationstypen und nach Stimmung (positiv, negativ, neutral usw.) strukturiert sind. Die TrustYou basiert auf den

lokalen Grammatiken. Die „beschreiben alle unterschiedlichen Varianten, in der eine semantische Einheit - zum Beispiel Aussagen zur Sauberkeit eines Hotelzimmers - ausgedrückt werden können. Indem sie gleichzeitig Syntax und Semantik beachten, faktorisieren lokale Grammatiken die überaus große Menge aller verschiedenen möglichen Konstruktionen und ermöglichen eine bisher unerreichte Detailgenauigkeit der Beschreibung“12. Die Technologie der Suche setzt dabei auf Forschungsergebnisse des Centrums für Informations- und Sprachverarbeitung der LMU München (CIS)13.

2.3 Arbeitsziel

Die vorliegende Forschung wurde im Formalismus der lokalen Grammatiken durchgeführt und untersucht die Implementierung dieser Theorie für die Information Extraktion aus dem EBAY Content. Die lokalen Grammatiken wurden mithilfe von UNITEX erstellt. Die am CIS für die deutsche Sprache entwickelten Ressourcen (Wörterbücher, Flektionsprogramme, etc.) wurden im Rahmen dieser Arbeit verwendet. Das Ziel der Arbeit ist, auf Basis von EBAY Items (Titeln von Artikeln) und EBAY Queries (Suchanfragen in der Schmuckdomäne) die Lexika und lokale Grammatiken für Schmuck-Domäne zu entwickeln. Auf Grundlage von diesen Ressourcen könnte man eine spezielle Suchmaschine für die EBAY-Domäne vom Schmuck erstellen.

Es wurde eine Reihe von gleichartigen lokalen Grammatiken und Lexika für die andere EBAY-Domäne im Rahmen des Seminars „Spezielle Suchmaschinen“ im Sommer Semester 2009 am CIS erstellt. Dabei wurde ein Arbeitsverfahren entwickelt. Dieses Arbeitsverfahren zum Erstellen der Grammatiken wurde im Kapitel 5 detailliert beschrieben. Zuerst ist eine Evaluierung der Schmuck-Domäne und EBAY Schmuck­Domäne präsentiert, auf die danach das Erstellen der lokalen Grammatiken beruht.

3 Übersicht der Spezialsuchmaschinen von Schmuck­Domäne

In diesem Kapitel werden zwei auf verschiedenen Verfahren basierte Spezialsuchmaschinen der Schmuck-Domäne dargestellt.[14]

3.1 ICE

Das 1999 gegründete englische Internet-Portal www.ice.com wurde als Quelle von Feinjuwelen zu günstigen Preisen und guten Konditionen anerkannt. Trotzdem wurden die erwarteten Verkaufszahlen wegen des Benutzens eines String-basierten Suchverfahrens nicht erreicht. Die Implementierung einer neuen Suchmaschine von CELEBROS (Suchkonzept QwiserTM Salesperson) hat die Verkaufszahlen in 5 Tagen um 45,1% erhöht. In der Case Studie15 sind die Herausforderungen der Suche in der Schmuck-Domäne und die Lösungen von CELEBROS dargestellt.

Die erste Herausforderung bezüglich dieser Domäne besteht darin, dass Schmuck nicht zu täglich gekauften Produkten gehört und der Käufer vielmals die Hilfe eines erfahrenen Händlers braucht. Zur zweiten Herausforderung gehört die Vielfalt von Käufern. Dabei lassen sich drei Haupttypen von Kunden des Schmuck-Onlineshops unterscheiden: Die ersten wissen Bescheid, was sie wollen, die zweiten wollen sich einfach umschauen und die letzten brauchen die Hilfe beim Auswählen. Hierbei entstehen die folgenden Probleme beim Suchen. Wenn eine Suchanfrage zu allgemein war, bekommt der Kunde zu viel Suchergebnisse und kann sie nicht erfolgreich filtern. Wenn die Suchanfrage aber zu konkret war, kriegt der Kunde überhaupt keine Ergebnisse. Außerdem enthält jede Suchanfrage viele wichtige Informationen, die den wirklichen Bedarf der Kunden beschreiben. Die dritte Herausforderung wäre, diese Information effizient umzusetzen.

Die Technologie von CELEBROS, die diesen Herausforderungen entspricht, sieht wie folgt aus. Die Refinement-Boxes dienen als Hilfspersonal, die den Kunden hilft, die passenden Produkte zu finden (sieh die Beschreibung der Refinement-Boxes unten). Wenn der Kunde zu allgemeine Suchanfrage angegeben hat, dann bekommt er viele Refinement-Boxes links und alle passenden und NUR passenden Suchergebnisse (darunter Synonyme) rechts. Wenn der Kunde aber zu spezifische Suchanfrage oder

Suchanfrage mit Tippfehlern angibt, erhält er trotzdem die passenden Ergebnisse rechts, weil die Suchmaschine Tippfehler auch analysiert oder Synonyme zum Suchbegriff ausgibt. Wenn die Suchmaschine dennoch nicht die Artikeln mit allen angegeben Parametern findet, dann liefert sie die Suchergebnisse mit einigen von diesen Parametern, die danach gegebenenfalls auch mithilfe von Refinement-Boxes präzisiert werden können. Außerdem analysiert die CELEBROS Suchmaschine die von Kunden angegebenen Suchanfragen.

Was kann die Suchmaschine von CELEBROS in Wirklichkeit (Eigenanalyse): Morphologie: Die Suchmaschine liefert die gleiche Anzahl von Ergebnissen, wenn man die Wörter in Suchanfrage in Singular oder in Plural angibt. Zwar hat die englische Sprache ziemlich arme Morphologie, trotzdem ist die Deklination von Nomina bei der Suche berücksichtigt.

Stopp-Wörter: Für Suchanfragen wie „ring with sapphire“ und „ring sapphire“ und „ring in sapphire“ „ring w/sapphire“ usw. liefert die Suchmaschine die gleiche Anzahl von Ergebnissen, was bedeutet, dass die Präpositionen als Stopp-Wörter betrachtet werden.

Interpunktionszeichen werden auch bei der Suche nicht berücksichtigt: dabei spielen +- ”” keine Meta-Rolle in Suchanfragen.

Tippfehler-Analyse: Die Suchmaschine versteht viele Tippfehler-Variante. Zum Beispiel für „sapphire“ versteht sie „saphpire“, „satire“, „sapfire“, „sapphife“, „sapphide“, „saphhice“ usw. Dabei werden nicht nur die Fehler, die beim Drucken des danebenliegenden Buchstabens bewirkt werden, korrigiert, sondern auch die häufigen orthographischen Fehler wie „safire“ erkannt. Wenn die Wörter versehentlich zusammengeschrieben sind, dann versteht die Suchmaschine auch die Abwesenheit des Leerzeichens.

Synonyma-Analyse: Die Suchmaschine liefert genau gleiche Anzahl der Ergebnisse für „lady ring‘ und „women ring“ oder für „pink gold‘ und „rose gold‘. Aber die Suchmaschine versteht nicht „585 gold', deshalb findet sie nicht das Synonym zum „14K gold'.

Disambiguierung: Die Suchmaschine kann zwischen „cross form“ und „cross pendant' zwar nicht unterscheiden, aber liefert zu „cross pendant' nur die Ergebnisse, die „cross“ und „pendant“ enthalten, und zu „cross form“ nur die Ergebnisse, die auch beide Wörtern enthalten. Wenn man aber einfach „cross“ angibt, kriegt man dann alle Ergebnisse, die das Token „cross“ enthalten. Trotzdem kann man mithilfe von

Refinement-Boxes, z.B. Refinement-Box „Schmuckart“ („Categories“) das gemeinte Konzept ausfiltern.

Wortordnung: Die Wortordnung in der Suchanfrage spielt bei CELEBROS- Suchmaschine keine Rolle. Man kann auch nicht mithilfe von speziellen Zeichen bewirken, dass die Suchmaschine die Wortfolge berücksichtigt. Aus diesem Grund wird man zu Suchanfrage „14 inch“ mehrere „14K go/d“-Artikeln erhalten, in denen das Lexem „inch“ auch vorkommt. Das ist eine Schwäche dieser Suchmaschine, trotzdem kann solche Nicht-Berücksichtigung der Wortfolge damit verbunden sein, dass die Größe-Parametern bei Schmucksuche eher irrelevant sind. Auch gibt es bei CELEBROS keine Refinement-Boxe die die Artikeln nach Größe bzw. Gewicht filtern können.

Refinement-Boxes: Wenn Die Suchergebnisse auf eine Seite reinpassen, dann gibt es auf der linken Seite fast keine Filterungsvorschläge. Wenn es aber viel Ergebnisse gibt, dann kann man die Suchergebnisse je nach der Suchanfrage nach folgenden Parametern präzisieren: Steine, Steinformen, Metall, Goldfarben, Unterkategorien, Goldkarat, Preis, Anlässe, Zielgruppe (Frau, Mann, Kind oder Unisex), Motiven (geometrische Formen, Natur, Tierkreiszeichen, Herzen, etc.). Eine interessante Variante der Marketing Refinement-Box ist die Box „Geburtstag-Steine“ - die Edelsteine werden nach dem Geburtsmonat zugeordnet.

Was die Refinement-Boxes angeht, ist auch folgendes wichtig: Wenn eine Suchanfrage den Begriff „Gold“ enthält, dann kann man sie nach weiteren Parametern wie z.B.: „Goldfarbe“ oder „Karat“ präzisieren. Der Parameter „Material“ kommt in diesem Fall nicht mehr vor, weil es eindeutig ist, dass es sich um Gold handelt. Das gleiche betrifft auch „Silber“. Gibt man „Silber“ an, dann kann die Suchanfrage nur nach relevanten Silberparametern gefiltert werden.[16]

3.2 Stylight

Eine Stylight-Suchmaschine verfolgt ein ganz anderes Suchkonzept. Bei dieser Suchmaschine kann man nicht nur die Suchanfrage angeben, sondern sich auch die gesuchten Items in visuellem Interface anschauen oder verwandte Produkte finden. Man kann auch die Suchanfrage nach Kategorien, Preis, Marke, Farbe, Größe oder Preis links verfeinern. Das visuelle Interface hilft die Menschen, die einfach sich umschauen wollen, die Produkte auszuwählen. Dabei soll man nicht unbedingt die

Fachtermini wissen, um etwas zu finden (z. B.: Den Unterschied zwischen Kreolen, Ohrsteckern und Ohrhängern oder zwischen Armreif und Armband kennen). Man braucht auch kein Fachwissen, was die Steine anbelangt. Zum Kauf wird man durch visuelle Stimuli angetrieben.

Diese Suchmaschine verfügt auch über eine Suchmaske. Trotzdem arbeitet die Textsuche auf dieser Seite ganz schlecht. Vermutlich gibt es zu wenig Information über Produkten, deshalb kann man das gesuchte Produkt überhaupt nicht über Eingabemaske finden.

4 Übersicht der EBAY Suche in Schmuck Domäne

4.1 Beschreibung der Schmuck Domäne

Auf den deutschen EBAY-Seiten werden täglich ca. 37 Millionen Artikeln dargestellt. Unter der Kategorie „Uhren und Schmuck“ sind jeden Tag ca. 1 Million Items zu finden. Es werden tagtäglich auch Millionen von neuen Artikeln hinzugefügt und Millionen von anderen verschwinden, In der deutschen EBAY Schmuck-Kategorie werden jeden Tag ca. 500.000-800.000 Artikeln ausgestellt.17 Die Schmuck-Domäne ist wie folgt strukturiert (s. Abbildung 1).

Wie man der Abbildung 1 entnehmen kann, ist die Struktur der Schmuck-Domäne bei EBAY ganz chaotisch und unlogisch. Demzufolge entstehen die Inkonsistenzen beim Platzieren des Artikels. Das Einstellen eines Artikels geht folgendermaßen vor:

Erst gibt der Verkäufer beim Platzieren des Artikels einen Titel (Artikelbeschreibung, weiterhin „Item“ genannt), der nicht mehr als 55 Zeichen enthalten soll. Es gibt auch die Richtlinien und Tipps von EBAY, wie zum Beispiel „Vermeiden Sie dabei Gefühlwörter wie „toll“ oder „super“ - kein Käufer sucht nach solchen Begriffen“ oder EBAY verbietet den übermäßigen Gebrauch von Suchwörtern. Trotzdem verletzen mehrere Verkäufer die EBAY Regeln.

Nach dem Eingeben des Items wählt der Verkäufer eine passende Kategorie. Er darf jeden seinen Artikel in 2 Kategorien platzieren. Beim Eingeben des Titels wird EBAY die passenden Kategorien vorschlagen, man darf aber auch selbst die Kategorien auswählen. Beim Platzieren von Schmuckartikeln wählt man erst eine globale Kategorie (sieh Abb.1) und dann wählt man weitere Unterkategorien.

Dann besteht die Möglichkeit, die Fotos hochzuladen. Im nächsten Schritt können (müssen aber nicht und man tut das üblicherweise auch nicht so oft) Eigenschaften des Artikels bestimmt werden. Eben diese eingetragenen Eigenschaften tauchen nachher bei der Suche in den Refinement-Boxes auf.

Für den Schmuck bietet EBAY die folgenden Eigenschaften zum Ausfüllen an: Artikelzustand (neu, gebraucht), Produktart, Unterkategorie, Material, dominierender Stein, Geschlecht (Damen, Kinder, Mann, Unisex), Marke, Farbe.

Für jede Eigenschaft in den Kästchen soll ein passender Wert oder die Kategorie „Sonstige“ ausgewählt und dann selbst die Eigenschaft definiert werden. Je nach der ausgewählten Kategorie gibt es noch zusätzliche Eigenschaften zum Eingeben, wie zum Beispiel: Hauptstein & Perlen, Schliff, Diamantfarbe etc.

Die meisten der 800.000 Schmuck-Artikel, die tagtäglich bei EBAY angeboten werden, sind ziemlich billig (ca. 500.000 sind unter 20 EURO und nur ca. 8000 kosten über 1000 Euro). Im Gegensatz zu www.ice.com, wo der Feinschmuck verkauft wird, bietet EBAY viele preiswerte Artikeln an: Chinesischen Schmuck, Kinderschmuck, Schmuck aus verschiedenen Kunststoffen und unedlen Materialen, verschiedene Nippsachen und Ersatzteile.

4.2 Items

Bei der Item-Beschreibung versuchen die Verkäufer ziemlich oft alle 55 Zeichen zu verwenden, um den angebotenen Artikel mit möglichst vielen Informationen detailliert darzustellen.

Wegen dieses Zeichen-Limits enthalten viele Items Abkürzungen. Viele Abbreviationen stimmen aber nicht mit den Abkürzungsregeln überein (zum Beispiel „dk“ für „dunkel“, „h“ für „helľ, „m“ für „mit, „f‘ für „für', „fa“ für „Farben“ usw.).

Man verwendet viele Komposita, was die Aufgabe von Information Extraktion erschwert. Die Komposita werden meistens aus 2 Wortstammen gebildet, manchmal werden aber auch drei Wurzeln zusammengeschrieben. In der Tabelle 1 sind die semantischen Kategorien dargestellt, die bei den Schmuckarten-Komposita kombiniert sind. Hier ist die Anzahl der verschiedenen Lemmata angegeben. Am öftesten bildet die Schmuckart zusammen mit der Form ein Kompositum. Oft werden Steinbezeichnungen und Schmuckarten oder Materialbezeichnungen und Schmuckarten zusammengeschrieben. Aus der Kategorie „Steinnamen“ werden am häufigsten Diamanten, Brillanten und Perlen und aus der Kategorie „Materialen“ Gold, Silber und Holz zusammen mit der Schmuckart kombiniert.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 : Typen der Komposita für Bezeichnung der Schmuckarten

Auch englische Wörter sind ziemlich oft verwendet. Trotz des Zeichenlimits gibt es aber in vielen Items wiederholte Informationen. Man versucht mit übermäßigem Gebrauch der gleichen Wörter, den Artikelrang zu erhöhen. Solche überflüssige Information wird mithilfe von verschiedenen morphologischen Wortformen und mit Verwendung von Synonyma, Hyponymen und Hyperonymen erreicht:

ohrringe ohrhänger ohrschmuck ohrringe ohrstecker stecker ohrschmuck ohrringe hänger ohrringe ohrring

Diese Eigenschaft von Items hilft sehr bei der Information Extraktion, wenn die Komposita nicht zu erkennen sind. Dann wird man trotzdem die Schmuckart wegen einer Menge von überflüssigen Informationen bestimmen. Auch gibt man ziemlich oft deutsche Schmuckartbezeichnungen zusammen mit der englischen Übersetzung:

modeschmuck ohrringe fashion earrings modeschmuck brosche fashion brooch

Viele Items enthalten die gleiche Information über die gleichen Artikeln, aber die Verkäufer fügen am Anfang bzw. am Ende irgendwelche Nummer, Buchstabe oder Buchstaben mit Zahlen hinzu, damit EBAY sie nicht löscht:

1 6mm stahl dehnungsring hole expander ohr piercing pl01

1 6mm stahl dehnungsring hole expander ohr piercing pl03

Normalerweise sind die Items nicht in Phrasen gebunden, sondern man listet die wichtigsten Eigenschaften als Nomina oder Adjektive auf. Manchmal aber sind die Wörter in Wortgruppen mithilfe von morphologischer Übereinstimmung vereinigt:

goldene Ohrringe ring mit Saphiren

Oft benutzt man allegorische Bezeichnungen für einige Eigenschaften, was die Suche bei der EBAY erschwert:

schmuckset für kleine prinzessinen in der farbe des meer s

Man versucht auch die Unterbegriffe, Fachbegriffe und sehr konkrete Eigenschaften seines Artikels aufzulisten. Zum Beispiel bezeichnet man die Farben oft mit Farbtonen:

hell blau minz grün apricotfarbe

Für die Materiale gibt man oft die Unterarten an:

sterling silber blattgold

Die Items enthalten sehr große Anzahl von Tipp- und Rechtschreibungsfehlem. Es gibt sogar die Webseiten, die sich dafür spezialisieren, die fehlerhafte Einträge bei EBAY zu finden (zum Beispiel BaySearch18 ). EBAY-Auktionen, deren Titel oder Beschreibung Tippfehlern enthalten, werden in der normalen Suche meist nicht gefunden. Aus diesem Grund erhalten diese Angebote keine oder nur wenige Gebote und werden deshalb oft zu sehr günstigen Preisen verkauft. Die Tippfehlersuche BaySearch macht sich diesen Umstand zunutze und kann solche Auktionen zielsicher und ohne großen Aufwand aufspüren.

4.3 Queries

In diesem Kapitel wird die Analyse von Queries (am Beispiel von Ohrringe-Queries) durchgeführt.

Am häufigsten werden ganz allgemeine Queries angegeben. Hier sind 2 häufigste Queries für Ohrringe (links ist die Anzahl des Vorkommens angegeben):

1139960 ohrringe 75524 ohrring

Die meisten Suchanfragen enthalten 1-3 Wörter, die oft nicht morphologisch verbunden sind. Sie sind entweder als separate Nomina oder als Adjektive angegeben. Ab und zu werden sie mit Plus-Zeichen verbunden. Manchmal handelt sich um eine Wortgruppe, die Präpositionen, Konjunktionen und morphologischer Übereinstimmung enthält:

251 ohrringe mit stein 246 ohrringe in silber 242 kette und ohrringe

227 einzelner ohrring

Die Queries, die unter 5 Mal vorkommen, enthalten mehrere Wörter (vermutlich suchen Verkäufer dabei nach ihren eigenen Artikeln):

1 anhänger modeschmuck türkisches auge ohrring brosche 40

1 antik jugendstil biedermeier ohrringe 333 gold erbstück

Am häufigsten gibt man Schmuckart und Markenbezeichnung oder Schmuckart und Material, Schmuckart und Gold- oder Silberkarat, Schmuckart und Formbezeichnung, Schmuckart und Steinnamen, Schmuckart und Zielgruppe (Mann, Frau, Kind, Unisex), Schmuckart und Stil, Schmuckart und Farbe, Schmuckart und Zubehör oder Schmuckart und andere Schmuckart an. Diese Kategorien werden als semantische Labels in entwickelten Wörterbüchern verwendet.

In Queries gibt man viele Komposita an, die EBAY nicht erkennt und keine Ergebnisse dafür liefert.

Gold und Silber sind meistens nur als Probe angegeben, die Wörter „Gold“ und „Silber“ sind ausgelassen.

Viele Suchanfragen enthalten die subjektive Bewertung des Schmuckstücks:

220 sexy ohrringe

99 schöne ohrringe 85 coole ohrringe

492 ausgefallene ohrringe 224 bunte ohrringe 115 edle ohrringe 96 ohrringe edel

oder die relative Bezeichnung von Größe (wobei die Items viel öfters einen absoluten Wert der Größe enthalten):

2266 große ohrringe 419 grosse ohrringe 54 ohrringe klein

100 kleine ohrringe 19 breite ohrringe

Einige Queries enthalten falsche Fachtermini: 300 hängeohrringe

Ziemlich oft sind die Queries ambigue, weil die Abhängigkeit zwischen Wörtern nicht explizit ausgedrückt wird:

170 Stecker ohrringe („Stecker für Ohrringe" oder „Ohrstecker"?)

oder weil die einzelnen Suchbegriffe in Queries ambigue sind:

406 ohrring türkis (Stein oder Farbe?)

96 ohrringe ringe (Schmuckart oder Form?)

10 ohrringe apricot (Form oder Farbe?)

Auch die Queries enthalten so wie die Items eine große Anzahl sowohl von Rechtschreibfehlern als auch von Tippfehlern.

[...]


1 [20] http://schmuck.shop.ebav.de/

2 [8]Gross, Maurice: "Méthodes en sintaxe"

3 [11] Gross, Maurice: "The Construction of Local Grammars"

4 [25] http://www-igm.univ-mlv.fr/~unitex/index.php?paee=3

5 Die „GNU Lesser General Public License" (LGPL) ist eine von der Free Software Gründung entwickelte Lizenz für freie Software. Unter dieser Lizenz darf man die Software für einen beliebigen Zweck nutzen, die Software vervielfältigen und weitergeben, die Software nach eigenen Bedürfnissen ändern und die geänderten Versionen weitergeben.

6 Centrum für Information und Sprachwissenschaft an der LMU München: www.cis.uni-muenchen.de

7Einige Projekte und Arbeiten sind auf diese Seite aufgelistet: http://www-iem.univ- mlv.fr/~unitex/index.php?paee=12

8 [15] Lewandowski, Dirk:„Web Information Retrieval", s. 24

9 [23] http://elossa.fltr.ucl.ac.be/

10 [14] http://www.iobanova.com/

11 [24] http://www.trustvou.com/

12[24] http://www.trustvou.com/news/semantische-technologie

13www.cis.uni-muenchen.de

14[7] http://www.ice.com/

15[4] http://www.celebros.com/pdf/CaseStudv-lce.com.pdf

16[6] http://www.stvlight.de/Women/Accessoires-c210/Schmuck-sc21003/v1/

17Die Daten sind EBAY Seiten entnommen (Stand: August 2009): http://listings.ebav.de/

18 [22] www.bavsearch.de

Ende der Leseprobe aus 78 Seiten

Details

Titel
Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken
Hochschule
Ludwig-Maximilians-Universität München  (CIS)
Note
2
Autor
Jahr
2009
Seiten
78
Katalognummer
V140334
ISBN (eBook)
9783640497423
ISBN (Buch)
9783640497607
Dateigröße
1571 KB
Sprache
Deutsch
Schlagworte
information extraction, EBAY, lokale grammatiken, local grammar
Arbeit zitieren
Olga Morozova (Autor:in), 2009, Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken, München, GRIN Verlag, https://www.grin.com/document/140334

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden