„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
DANKSAGUNG
Vor allem danke ich meinem Betreuer, Herrn Prof. Dr. Franz Guenthner, der mir die
Gelegenheit gegeben hat, am Centrum für Informations- und Sprachverarbeitung zu
studieren und bei dem ich viele Seminare besucht und viel neues Wissen erworben
habe.
Des Weiteren danke ich den DAAD für die gegebene finanzielle Freiheit und die
M öglichkeit, in Deutschland Aufbaustudium zu absolvieren.
Ich möchte mich auch bei allen Lehrkräften, die am CIS unterrichten, bedanken,
insbesondere bei: Herrn Professor Dr. Klaus .U Schulz, Herrn Dr. Max Hadersbeck,
Frau Michaela Geierhos, Herrn Dr. Gerhard Rolletschek, Herrn Dr. phil. Habil.
Sebastian Nagel, Herrn Dr. Jörg Schuster und Herrn Dr. Hans Leiß.
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
INHALTSVERZEICHNIS
1 Einführung 5
2 Darstellung des Forschungsgebiets 7
2.1 Lokale Grammatiken 7
2.2 Spezialsuchmaschinen 8
2.3 Arbeitsziel 10
3 Übersicht der Spezialsuchmaschinen von Schmuck-Domäne 11
3.1 ICE 11
3.2 Stylight 13
4 Übersicht der EBAY Suche in Schmuck Domäne 15
4.1 Beschreibung der Schmuck Domäne 15
4.2 Items 17
4.3 Queries 19
4.4 Evaluierung der Suchqualität bei EBAY 22
5 Arbeitsverfahren 27
5.1 Preprocessing 27
5.2 Lexikonstruktur der Domäne 28
5.3 Flektion und Wortbildung 34
5.4 Graphenbeschreibung 36
6 Auswertung der Ergebnisse 43
7 Fazit 45
8 Literaturverzeichnis 46
ANNEX A: Graphen und Konkordanzen 49
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
ò
Diese Arbeit ist der Information Extraktion mithilfe von lokalen Grammatiken gewidmet
und verfolgt als Ziel die Erstellung der lokalen Grammatiken für die Suche in der
Schmuck -Domäne von deutschem EBAY 1
Die Zunahme der von Webbenutzern manuell geschriebenen Texte im Web bildet
zurzeit eine große Herausforderung für Information Retrieval. Die Webbenutzer
schaffen LiveJournals, verwalten eine riesige Menge von Blogs, beschreiben die zum
Verkauf eingestellten Waren bei Online-Shops, kommentieren die Einträge von anderen
Web User in Facebook, YouTube und vergleichbaren Web 2.0 Diensten. Diese von
Usern konzipierten Texte charakterisieren sich durch eine große Anzahl von
Tippfehlern , Rechtsschreibungsfehlern, Verwenden einer informellen Sprache, Jargon-
W örter und Redewendungen. Die klassische String-basierte Suche kann solche
fehlerhafte Einträge nicht finden. Der Einsatz der lokalen Grammatiken ermöglicht es,
solche Einträge und Suchanfragen zu analysieren und in unifizierte Form zu
überschreiben, ohne die Benutzer dazu zu zwingen, die korrekten Sprachformen zu
verwenden. Das wird in bestimmten Web 2.0 Diensten (z. B. Online-Shops) die
Suchaufgabe erleichtern und wird es ermöglichen, die gesuchten Informationen (im Fall
von Online-Shops: Artikeln mit allen angegeben Parametern) zu finden.
Die vorliegende Forschung entstand im Rahmen des CIS-Projekts, das sich als Ziel
setzt , spezielle Suchmaschinen mithilfe von lokalen Grammatiken für jede EBAY-
Dom äne zu erstellen und dabei die verbesserte Suche für EBAY zu schaffen. Die
lokalen Grammatiken wurden mithilfe von Korpusbearbeitung-Tool „UNITEX“ erstellt
und beschreiben die Schmuck-Domäne bei deutschem EBAY.
Das konkrete Ziel der Arbeit ist erstens die EBAY-Suche in der Schmuck-Domäne zu
evaluieren und zu analysieren und zweitens die lokalen Grammatiken, die auf dem
Korpus von Items und Queries der Schmuck- Domäne basieren, zu erstellen und sie
danach zu bewerten.
Die vorliegende Arbeit ist folgendermaßen strukturiert.
Das zweite Kapitel eröffnet die Diskussion zum Thema „lokale Grammatiken“ und
„spezielle Suchmaschinen“ und bestimmt konkret das Ziel der Arbeit sowie ihr Platz im
interdisziplinären Projekt Im dritten Kapitel werden Beispiele von speziellen
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Suchmaschinen in der Schmuck-Domäne präsentiert. Dabei wird auf die
Haupteigenschaften von Schmuck-Domäne und auf die grundlegenden semantischen
Klassen und Klassifizierungen innerhalb von dieser Domäne hingewiesen. Der vierte
Abschnitt beschreibt die Struktur und den Inhalt der Schmuck-Domäne bei der EBAY
sowie die charakteristischen Eigenschaften der Artikelbeschreibungen und
Suchanfragen. In demselben Abschnitt wird die EBAY-Suche (u. a. Refinement-Boxe)
evaluiert sowie mögliche Lösungen zur Verbesserung der EBAY-Suche im Bereich der
Schmuck -Domäne vorgeschlagen. Das fünfte Kapitel stellt die Beschreibung des
Arbeitsverfahrens zum Aufbau der lokalen Grammatiken dar. In diesem Kapitel sind die
einzelnen Schritte der Arbeit beschrieben: Preprocessing (Kapitel 5.1), Lexikon-Aufbau
(Kapitel 5.2), Flektions- und Wortbildungsprogramme (Kapitel 5.3) und Graphen (Kapitel
5.4). Das 6. Kapitel liefert die Evaluierung der erstellten lokalen Grammatiken. Zum
Schluss werden die Ergebnisse der Arbeit im Fazit zusammengefasst und die
Implementierung der lokalen Grammatiken für EBAY-Suche diskutiert. Im Anhang
werden Beispiele der erstellten Graphen und Konkordanzen präsentiert
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Der Termin „lokale Grammatiken“ wurde von Maurice Gross eingeführt. Dabei meinte er
die Beschreibung der bestimmten „lokalen“ grammatischen Phänomene, die nicht
mithilfe von globalen syntaktischen Regeln beschrieben werden können.
1975 hat sich Maurice Gross mit der Erstellung einer Lexikongrammatik beschäftigt 2
Das Ziel seiner Arbeit war, für jedes Verb der französischen Sprache ein genaues
Satzschema aufzustellen und syntaktische Eigenschaften aller Verben zu erstellen.
Eine Gruppe von Linguisten hat mehr als 400 Eigenschaften von 12.000 Verben
genauer betrachtet. Auf Basis dieser Arbeit ist Maurice Gross zum revolutionären
Ergebnis gekommen, dass keine 2 Verben die gleichen syntaktischen Eigenschaften
haben. Daher hat er den neuen Grammatikformalismus vorgeschlagen - die Theorie
der lokalen Grammatiken. Die lokalen Grammatiken sind in Form von endlichen
Automaten dargestellt:
„It could be viewed as an attempt to revive the Markovian model, but this would be
wrong , because previous Markovian models were aimed at giving a global description of
a language, whereas the model we advocate, and which we call it finite-state for short,
is of a strictly local nature. In this perspective, the global nature of language results from
the interaction of a multiplicity of local finite-state schemes which we call finite-state
local automata“ 3
F ür die Entwicklung der lokalen Grammatiken wurde das Tool UNITEX an der
Laboratoire d'Automatique Documentaire et Linguistique (LADL) unter Betreuung von
Maurice Gross entwickelt. Den meisten Beitrag zur Entwicklung dieses Tools hat
S ébastien Paumier geleistet. UNITEX ist eine open-source Software. Die Software ist
von der Seite des Instituts für Elektronik und Computer Science Gaspard-Monge 4
herunterzuladen und unter LGPL Lizenz 5 zu benutzen.
2 'DD
3 'Dd '
'Eh 'W 'W '
h
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
UNITEX kann die Texte aus mehreren Sprachen bearbeiten, dafür sind schon die
W örterbücher für 13 Sprachen entwickelt: für Französisch, Englisch, Deutsch, Finnisch,
Georgisch , antikes und modernes Griechisch, Russisch, Thailändisch, Italienisch,
Norwegisch , Portugiesisch und Spanisch. Für die deutsche Sprache wurden die
W örterbücher am CIS 6 entwickelt.
UNITEX wurde zu Zwecken der Information Extraktion und Information Retrieval, zur
Korpusbearbeitung (Lemmatisierungen, Parsing usw.) und Korpusannotationen in
Rahmen mehrerer Projekte verwendet. 7
Nach thematischen Gesichtspunkten lassen sich die Suchmaschinen in 3
Hauptgruppen unterteilen: Universalsuchmaschinen, Spezialsuchmaschinen und
Archivsuchmaschinen. Während Archivsuchmaschinen gefundene Webseiten auf
eigenen Rechnern abspeichern, um die dauerhaft verfügbar zu machen, stellen die
Universalsuchmaschinen und Spezialsuchmaschinen sich zum Ziel, ein Abbild des
aktuellen Webs zu liefern.
„Universalsuchmaschinen kennen keine thematischen, geographischen oder
sprachlichen Grenzen. Ihr Ziel ist es - soweit möglich - das gesamte WWW zu erfassen.
Spezialsuchmaschinen hingegen beschränken sich bewusst auf eine geographische
Region , auf einen Sprachraum oder ein einzelnes Thema bzw. Themengebiet“ 8
Es gibt sehr große Menge an Spezialsuchmaschine für verschiedene Themengebiete
und in verschiedenen Sprachen. In einem Themengebiet, auf das sie sich
spezialisieren , liefern solche Suchmaschinen üblicherweise bessere Ergebnisse als
Universalsuchmaschinen. Die Spezialsuchmaschinen sind auf vielen zu ihrem Gebiet
relevanten Portalen implementiert oder für diese Portale speziell entwickelt.
Da die Spezialsuchmaschinen sich gezielt auf ein bestimmtes Thema beschränken,
lassen sich die für dieses Gebiet gewissen Inhaltsbereiche und Schwerpunkte
charakterisieren. Diese Inhalte sind in Grammatiken und Lexika konzipierbar. Deshalb
eignet sich der Formalismus der lokalen Grammatiken zum Erstellen der
Spezialsuchmaschinen hervorragend.
/ DhD
W
t /Z
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Unten wurden die Beispiele von einigen auf lokalen Grammatiken basierten
Spezialsuchmaschinen aufgelistet:
GlossaNet 9 ist eine Spezialsuchmaschine, die 1999 von Cédrick Fairon an der
LADL unter wissenschaftlicher Betreuung von Maurice Gross entwickelt wurde.
Das System ist jetzt von CENTAL (Centre de traitement automatique du langage)
an der Universität von Louvain (UCL, Belgien) betrieben. Die GlossaNet
durchsucht über 80 Tageszeitungen nach Informationen. Die Suchmaschine führt
die Suche nach ihrer Suchanfrage jeden Tag durch und präsentiert aktuelle
Ergebnisse. Dabei ist GlossaNet mehr als einfache Spezialsuchmaschine, das ist
auch ein linguistischer Konkordanzer, der nach linguistischen Schemata
recherchieren kann. GlossaNet ist die erste Suchmaschine, die in Rahmen des
Formalismus von lokalen Grammatiken und mithilfe vom UNITEX-Tool entwickelt
wurde.
JOBANOVA 10 ist eine Spezialsuchmaschine, die sich auf die Suche nach
Arbeitsstellen in Deutschland, Italien, Frankreich, in der Schweiz und in den
Staaten beschränkt. Zurzeit enthält sie demzufolge 5 Spezialsuchmaschinen für
jede von oben erwähnten Sprachen (Stand: August 2009) Die JOBANOVA
wurde unter der Betreuung von Professor Dr. Guenthner entwickelt. Bewerber
k önnen in Sekundenbruchteilen die Stellenangebote auf JOBANOVA nach allen
bedeutungsgleichen , aber ganz unterschiedlich geschriebenen
Berufsbezeichnern gleichzeitig durchsuchen. Neben den hier vorgestellten
Neuerungen am wichtigsten sind die schreibweisentolerante Suche und das
Vorschlagsfenster, das dem Benutzer schon während der Eingabe alle dazu
passenden Angebote in einer Zusammenfassung zeigt, selbst wenn die Eingabe
nicht ganz korrekt ist.
TrustYou 11 ist eine Qualitätssuchmaschine. Basierend auf Millionen von
Bewertungen hilft sie eine gute Entscheidung zu treffen. Dabei wird das Internet
nach Qualitätsinformationen, also Bewertungen, Meinungen und Aussagen von
Nutzern über Hotels, Hostels und Restaurants durchsucht. Man bekommt dann
Bewertungen , die nach verschiedenen Informationstypen und nach Stimmung
(positiv, negativ, neutral usw ) strukturiert sind Die TrustYou basiert auf den
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
lokalen Grammatiken. Die „beschreiben alle unterschiedlichen Varianten, in der
eine semantische Einheit - zum Beispiel Aussagen zur Sauberkeit eines
Hotelzimmers - ausgedrückt werden können. Indem sie gleichzeitig Syntax und
Semantik beachten, faktorisieren lokale Grammatiken die überaus große Menge
aller verschiedenen möglichen Konstruktionen und ermöglichen eine bisher
unerreichte Detailgenauigkeit der Beschreibung“ 12 Die Technologie der Suche
setzt dabei auf Forschungsergebnisse des Centrums für Informations- und
Sprachverarbeitung der LMU München (CIS) 13
Die vorliegende Forschung wurde im Formalismus der lokalen Grammatiken
durchgef ührt und untersucht die Implementierung dieser Theorie für die Information
Extraktion aus dem EBAY Content. Die lokalen Grammatiken wurden mithilfe von
UNITEX erstellt. Die am CIS für die deutsche Sprache entwickelten Ressourcen
(Wörterbücher, Flektionsprogramme, etc.) wurden im Rahmen dieser Arbeit verwendet.
Das Ziel der Arbeit ist, auf Basis von EBAY Items (Titeln von Artikeln) und EBAY
Queries (Suchanfragen in der Schmuckdomäne) die Lexika und lokale Grammatiken für
Schmuck -Domäne zu entwickeln. Auf Grundlage von diesen Ressourcen könnte man
eine spezielle Suchmaschine für die EBAY-Domäne vom Schmuck erstellen.
Es wurde eine Reihe von gleichartigen lokalen Grammatiken und Lexika für die andere
EBAY -Domäne im Rahmen des Seminars „Spezielle Suchmaschinen“ im Sommer
Semester 2009 am CIS erstellt. Dabei wurde ein Arbeitsverfahren entwickelt. Dieses
Arbeitsverfahren zum Erstellen der Grammatiken wurde im Kapitel 5 detailliert
beschrieben. Zuerst ist eine Evaluierung der Schmuck-Domäne und EBAY Schmuck-
Dom äne präsentiert, auf die danach das Erstellen der lokalen Grammatiken beruht
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
o
In diesem Kapitel werden zwei auf verschiedenen Verfahren basierte
Spezialsuchmaschinen der Schmuck-Domäne dargestellt.
Das 1999 gegründete englische Internet-Portal www.ice.com wurde als Quelle von
Feinjuwelen zu günstigen Preisen und guten Konditionen anerkannt. Trotzdem wurden
die erwarteten Verkaufszahlen wegen des Benutzens eines String-basierten
Suchverfahrens nicht erreicht. Die Implementierung einer neuen Suchmaschine von
CELEBROS (Suchkonzept Qwiser TM Salesperson) hat die Verkaufszahlen in 5 Tagen
um 45,1 erhöht. In der Case Studie 15 sind die Herausforderungen der Suche in der
Schmuck -Domäne und die Lösungen von CELEBROS dargestellt.
Die erste Herausforderung bezüglich dieser Domäne besteht darin, dass Schmuck nicht
zu täglich gekauften Produkten gehört und der Käufer vielmals die Hilfe eines
erfahrenen Händlers braucht. Zur zweiten Herausforderung gehört die Vielfalt von
K äufern. Dabei lassen sich drei Haupttypen von Kunden des Schmuck-Onlineshops
unterscheiden : Die ersten wissen Bescheid, was sie wollen, die zweiten wollen sich
einfach umschauen und die letzten brauchen die Hilfe beim Auswählen. Hierbei
entstehen die folgenden Probleme beim Suchen. Wenn eine Suchanfrage zu allgemein
war , bekommt der Kunde zu viel Suchergebnisse und kann sie nicht erfolgreich filtern.
Wenn die Suchanfrage aber zu konkret war, kriegt der Kunde überhaupt keine
Ergebnisse. Außerdem enthält jede Suchanfrage viele wichtige Informationen, die den
wirklichen Bedarf der Kunden beschreiben. Die dritte Herausforderung wäre, diese
Information effizient umzusetzen.
Die Technologie von CELEBROS, die diesen Herausforderungen entspricht, sieht wie
folgt aus. Die Refinement-Boxes dienen als Hilfspersonal, die den Kunden hilft, die
passenden Produkte zu finden (sieh die Beschreibung der Refinement-Boxes unten)
Wenn der Kunde zu allgemeine Suchanfrage angegeben hat, dann bekommt er viele
Refinement -Boxes links und alle passenden und NUR passenden Suchergebnisse
(darunter Synonyme) rechts. Wenn der Kunde aber zu spezifische Suchanfrage oder
/
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Suchanfrage mit Tippfehlern angibt, erhält er trotzdem die passenden Ergebnisse
rechts , weil die Suchmaschine Tippfehler auch analysiert oder Synonyme zum
Suchbegriff ausgibt. Wenn die Suchmaschine dennoch nicht die Artikeln mit allen
angegeben Parametern findet, dann liefert sie die Suchergebnisse mit einigen von
diesen Parametern, die danach gegebenenfalls auch mithilfe von Refinement-Boxes
pr äzisiert werden können. Außerdem analysiert die CELEBROS Suchmaschine die von
Kunden angegebenen Suchanfragen.
Was kann die Suchmaschine von CELEBROS in Wirklichkeit (Eigenanalyse):
Morphologie : Die Suchmaschine liefert die gleiche Anzahl von Ergebnissen, wenn man
die Wörter in Suchanfrage in Singular oder in Plural angibt. Zwar hat die englische
Sprache ziemlich arme Morphologie, trotzdem ist die Deklination von Nomina bei der
Suche berücksichtigt.
Stopp -Wörter: Für Suchanfragen wie „ring with sapphire“ und „ring sapphire“ und „ring
in sapphire“ „ring w/sapphire“ usw. liefert die Suchmaschine die gleiche Anzahl von
Ergebnissen , was bedeutet, dass die Präpositionen als Stopp-Wörter betrachtet
werden.
Interpunktionszeichen werden auch bei der Suche nicht berücksichtigt: dabei spielen -
keine Meta-Rolle in Suchanfragen.
Tippfehler -Analyse: Die Suchmaschine versteht viele Tippfehler-Variante. Zum Beispiel
f ür „sapphire“ versteht sie „saphpire“, „safire“, „sapfire“, „sapphife“, „sapphide“,
„saphhice“ usw. Dabei werden nicht nur die Fehler, die beim Drucken des
danebenliegenden Buchstabens bewirkt werden, korrigiert, sondern auch die häufigen
orthographischen Fehler wie „safire“ erkannt. Wenn die Wörter versehentlich
zusammengeschrieben sind, dann versteht die Suchmaschine auch die Abwesenheit
des Leerzeichens.
Synonyma -Analyse: Die Suchmaschine liefert genau gleiche Anzahl der Ergebnisse für
„lady ring“ und „women ring“ oder für „pink gold“ und „rose gold“ Aber die
Suchmaschine versteht nicht „585 gold“, deshalb findet sie nicht das Synonym zum
„14K gold“
Disambiguierung : Die Suchmaschine kann zwischen „cross form“ und „cross pendant“
zwar nicht unterscheiden, aber liefert zu „cross pendant“ nur die Ergebnisse, die „cross“
und „pendant“ enthalten, und zu „cross form“ nur die Ergebnisse, die auch beide
W örtern enthalten. Wenn man aber einfach „cross“ angibt, kriegt man dann alle
Ergebnisse , die das Token „cross“ enthalten Trotzdem kann man mithilfe von
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Refinement -Boxes, z.B. Refinement-Box „Schmuckart“ („Categories“) das gemeinte
Konzept ausfiltern.
Wortordnung : Die Wortordnung in der Suchanfrage spielt bei CELEBROS-
Suchmaschine keine Rolle. Man kann auch nicht mithilfe von speziellen Zeichen
bewirken , dass die Suchmaschine die Wortfolge berücksichtigt. Aus diesem Grund wird
man zu Suchanfrage „14 inch“ mehrere „14K gold“-Artikeln erhalten, in denen das
Lexem „inch“ auch vorkommt. Das ist eine Schwäche dieser Suchmaschine, trotzdem
kann solche Nicht-Berücksichtigung der Wortfolge damit verbunden sein, dass die
Gr öße-Parametern bei Schmucksuche eher irrelevant sind. Auch gibt es bei
CELEBROS keine Refinement-Boxe die die Artikeln nach Größe bzw. Gewicht filtern
k önnen.
Refinement -Boxes: Wenn Die Suchergebnisse auf eine Seite reinpassen, dann gibt es
auf der linken Seite fast keine Filterungsvorschläge. Wenn es aber viel Ergebnisse gibt,
dann kann man die Suchergebnisse je nach der Suchanfrage nach folgenden
Parametern präzisieren: Steine, Steinformen, Metall, Goldfarben, Unterkategorien,
Goldkarat , Preis, Anlässe, Zielgruppe (Frau, Mann, Kind oder Unisex), Motiven
(geometrische Formen, Natur, Tierkreiszeichen, Herzen, etc.) Eine interessante
Variante der Marketing Refinement-Box ist die Box „Geburtstag-Steine“ - die Edelsteine
werden nach dem Geburtsmonat zugeordnet.
Was die Refinement-Boxes angeht, ist auch folgendes wichtig: Wenn eine Suchanfrage
den Begriff „Gold“ enthält, dann kann man sie nach weiteren Parametern wie z.B.:
„Goldfarbe“ oder „Karat“ präzisieren. Der Parameter „Material“ kommt in diesem Fall
nicht mehr vor, weil es eindeutig ist, dass es sich um Gold handelt. Das gleiche betrifft
auch „Silber“ Gibt man „Silber“ an, dann kann die Suchanfrage nur nach relevanten
Silberparametern gefiltert werden.
16
Eine Stylight-Suchmaschine verfolgt ein ganz anderes Suchkonzept. Bei dieser
Suchmaschine kann man nicht nur die Suchanfrage angeben, sondern sich auch die
gesuchten Items in visuellem Interface anschauen oder verwandte Produkte finden.
Man kann auch die Suchanfrage nach Kategorien, Preis, Marke, Farbe, Größe oder
Preis links verfeinern. Das visuelle Interface hilft die Menschen, die einfach sich
umschauen wollen, die Produkte auszuwählen. Dabei soll man nicht unbedingt die
t
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Fachtermini wissen, um etwas zu finden (z. B.: Den Unterschied zwischen Kreolen,
Ohrsteckern und Ohrhängern oder zwischen Armreif und Armband kennen) Man
braucht auch kein Fachwissen, was die Steine anbelangt. Zum Kauf wird man durch
visuelle Stimuli angetrieben.
Diese Suchmaschine verfügt auch über eine Suchmaske. Trotzdem arbeitet die
Textsuche auf dieser Seite ganz schlecht. Vermutlich gibt es zu wenig Information über
Produkten , deshalb kann man das gesuchte Produkt überhaupt nicht über
Eingabemaske finden.
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
o
Auf den deutschen EBAY-Seiten werden täglich ca. 37 Millionen Artikeln dargestellt.
Unter der Kategorie „Uhren und Schmuck“ sind jeden Tag ca. 1 Million Items zu finden.
Es werden tagtäglich auch Millionen von neuen Artikeln hinzugefügt und Millionen von
anderen verschwinden, In der deutschen EBAY Schmuck-Kategorie werden jeden Tag
ca. 500.000-800.000 Artikeln ausgestellt. 17
Die Schmuck-Domäne ist wie folgt strukturiert (s. Abbildung 1)
Abbildung 1: Kategorien in der Schmuck-Domäne von EBAY (Stand: August 2009)
z
„Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken“
Wie man der Abbildung 1 entnehmen kann, ist die Struktur der Schmuck-Domäne bei
EBAY ganz chaotisch und unlogisch. Demzufolge entstehen die Inkonsistenzen beim
Platzieren des Artikels. Das Einstellen eines Artikels geht folgendermaßen vor:
Erst gibt der Verkäufer beim Platzieren des Artikels einen Titel (Artikelbeschreibung,
weiterhin „Item“ genannt), der nicht mehr als 55 Zeichen enthalten soll. Es gibt auch die
Richtlinien und Tipps von EBAY, wie zum Beispiel „Vermeiden Sie dabei Gefühlwörter
wie „toll“ oder „super“ - kein Käufer sucht nach solchen Begriffen“ oder EBAY verbietet
den übermäßigen Gebrauch von Suchwörtern. Trotzdem verletzen mehrere Verkäufer
die EBAY Regeln.
Nach dem Eingeben des Items wählt der Verkäufer eine passende Kategorie. Er darf
jeden seinen Artikel in 2 Kategorien platzieren. Beim Eingeben des Titels wird EBAY die
passenden Kategorien vorschlagen, man darf aber auch selbst die Kategorien
ausw ählen. Beim Platzieren von Schmuckartikeln wählt man erst eine globale Kategorie
(sieh Abb.1) und dann wählt man weitere Unterkategorien.
Dann besteht die Möglichkeit, die Fotos hochzuladen. Im nächsten Schritt können
(müssen aber nicht und man tut das üblicherweise auch nicht so oft) Eigenschaften des
Artikels bestimmt werden. Eben diese eingetragenen Eigenschaften tauchen nachher
bei der Suche in den Refinement-Boxes auf.
F ür den Schmuck bietet EBAY die folgenden Eigenschaften zum Ausfüllen an:
Artikelzustand (neu, gebraucht), Produktart, Unterkategorie, Material, dominierender
Stein , Geschlecht (Damen, Kinder, Mann, Unisex), Marke, Farbe.
F ür jede Eigenschaft in den Kästchen soll ein passender Wert oder die Kategorie
„Sonstige“ ausgewählt und dann selbst die Eigenschaft definiert werden. Je nach der
ausgew ählten Kategorie gibt es noch zusätzliche Eigenschaften zum Eingeben, wie
zum Beispiel: Hauptstein Perlen, Schliff, Diamantfarbe etc.
Die meisten der 800.000 Schmuck-Artikel, die tagtäglich bei EBAY angeboten werden,
sind ziemlich billig (ca. 500.000 sind unter 20 EURO und nur ca. 8000 kosten über 1000
Euro) Im Gegensatz zu www.ice.com, wo der Feinschmuck verkauft wird, bietet EBAY
viele preiswerte Artikeln an: Chinesischen Schmuck, Kinderschmuck, Schmuck aus
verschiedenen Kunststoffen und unedlen Materialen, verschiedene Nippsachen und
Ersatzteile
Arbeit zitieren:
Olga Morozova, 2009, Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Olga Morozova's Text Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken ist nun auf dem Buchmarkt erhältlich
Olga Morozova hat den Text Information Extraktion aus dem EBAY-Content mithilfe von lokalen Grammatiken veröffentlicht
Olga Morozova hat einen neuen Text hochgeladen
Information Extraction: Algorithms and Prospects in a Retrieval Contex...
Marie-Francine Moens
Multimedia Information Extraction and Digital Heritage Preservation
Usha Mujoo Munshi, Bidyut Baran Chaudhuri
Information Extraction: Algorithms and Prospects in a Retrieval Contex...
Marie-Francine Moens
Knowledge-Driven Multimedia Information Extraction and Ontology Evolut...
Bridging the Semantic Gap
Georgios Paliouras, Constantine D. Spyropoulos, George Tsatsaronis
Grammars, Grammarians and Grammar-Writing in Eighteenth-Century Englan...
Ingrid Tieken-Boon van Ostade
Exploring Grammar in Context. Upper-intermediate and Advanced
Grammar Reference and Practice...
0 Kommentare