Please wait
Please install the Adobe Flash Player if no e-book is displayed.
Examination Thesis, 2007, 58 Pages
Author: Anja Klein
Subject: Computer Science - Internet, New Technologies
Details
Tags: Eine, Analyse, Angebotsbeschreibungen, Online-Einkaufsportale, Klassifizierung, Informationsextraktion, Rekursiver, Transitionsnetzwerke
Year: 2007
Pages: 58
Grade: 1,0
Bibliography: ~ 6 Entries
Language: German
ISBN (E-book): 978-3-638-83770-5
File size: 741 KB
Examensarbeit für den Aufbaustudiengang Computerlinguistik
Other users also were interested in the following titles:
Abstract
Das Einkaufen im Internet hat sich neben dem stationären Handel in den letzten Jahren zu einer tragenden Säule der Wirtschaft entwickelt. Die Menge der im Internet umgesetzten Waren hängt jedoch nicht zuletzt davon ab, ob der Verbraucher einen Anbieter und bei diesem das für ihn passende Produkt findet. Ohne eine umfassende Klassifikation von Produkten und eine ausgereifte Suchtechnologie ist das jedoch kaum möglich. Großer manueller Aufwand dafür ist natürlich sehr kostspielig. Eine Möglichkeit dem zu begegnen, ist die Entwicklung von Werkzeugen, die durch umfassende Konfigurierbarkeit helfen, große Mengen von Produkt- und Angebotsdaten weitestgehend automatisch zu analysieren und klassifizieren bzw. parametrisieren. Die Arbeit stellt einen Ansatz vor, der in einem kommerziellen Umfeld eingesetzt wird. Im Bereich des elektronischen Handels findet er Anwendung, um Prozesse der automatischen Verarbeitung von deutschsprachigen Produkt- und Angebotsdaten zu unterstützen, die letztlich das Ziel haben, die zentrale Problematik des Online-Shoppings – das Suchen und Finden von Produkten – zu optimieren. Die Idee ist dabei, linguistische Informationen – insbesondere lexikalische Daten und syntaktische Strukturen – aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren. Die dafür relevanten Informationen werden mittels Informationsextraktion gewonnen und bearbeitet. Dabei werden bestimmte wiederkehrende und aussagekräftige Muster erkannt und formalisiert, so daß durch Abstraktion auf einen Zusammenhang zwischen der Struktur des Angebotstextes und der Art und Zusammensetzung des konkreten Verkaufsobjektes geschlossen werden kann. Die Arbeit besteht aus zwei Teilen: einem theoretischen, linguistisch-analytischen Abschnitt, in dem das Phänomen der sogenannten Relatoren zunächst ganz allgemein anhand des vorliegenden Korpus (Produkt- bzw. Angebotsinformationen aus dem Online-Handel) analysiert wird, und einem praktisch-anwendungsorientierten Abschnitt, in dem die Erkenntnisse der linguistischen Untersuchung konkret für eine ausgewählte Produktkategorie – Telekommunikationsprodukte – und mit einem Zweck – Erkennen einer Set-Relation – umgesetzt werden.
Excerpt (computer-generated)
Ludwig - Maximilians - Universität München
Centrum für Informations - und Sprachverarbeitung (CIS)
Abschlußarbeit
im Aufbaustudiengang Computerlinguistik
Eine linguistisch - strukturelle Analyse
von Angebotsbeschreibungen für Online - Einkaufsportale
zur automatischen Klassifizierung und
Informationsextraktion mittels Rekursiver
Transitionsnetzwerke
vorgelegt von: Anja Klein
Inhaltsverzeichnis
0. Einführung ... 1
I. Theoretischer Hintergrund ... 2
1. Merkmale des Korpus ... 2
2. Relata, Relatoren und Relationen ... 3
3. Die Relatoren ... 4
3.1 Präpositionen ... 4
3.1.1 MIT ... 4
3.1.2 FÜR ... 5
3.1.3 OHNE ... 5
3.1.4 IN ... 6
3.1.5 ZU ... 6
3.1.6 AUS ... 7
3.1.7 VON ... 7
3.1.8 GEGEN ... 8
3.1.9 AUF ... 8
3.2 Präpositionalphrasen ... 8
3.2.1 Präposition – Adjektiv ... 9
3.2.2 Präposition – Substantiv ... 9
3.2.3 Präposition – Verb ... 10
3.2.4 Präposition – sonstige Wortarten ... 10
3.3 Konjunktionen ... 11
3.3.1 UND ... 11
3.3.2 ODER ... 11
3.4 Verben ... 12
3.5 Weitere wortbasierte Relatoren ... 12
3.6 Symbole ... 13
3.7 Beobachtungen und Probleme ... 13
4. Klassen von Relatoren und Typologie der Relata ... 14
4.1 Relatorenklasse: MIT ... 15
4.1.1 Paradigmatische Realisierung ... 15
4.1.2 Syntagmatische Realisierung ... 15
4.1.3 Typologie des Nachfeldes ... 16
4.1.3.1 Konkreta ... 16
4.1.3.2 Abstrakta ... 17
4.2 Relatorenklasse: FÜR ... 18
4.2.1 Paradigmatische Realisierung ... 18
4.2.2 Syntagmatische Realisierung ... 19
4.2.3 Typologie des Nachfeldes ... 21
4.2.3.1 Konkreta ... 21
4.2.3.2 Abstrakta ... 22
4.3 Relatorenklasse: OHNE ... 23
4.3.1 Paradigmatische Realisierung ... 23
4.3.2 Syntagmatische Realisierung ... 23
4.3.3 Typologie des Nachfeldes ... 24
4.3.3.1 Konkreta ... 24
4.3.3.2 Abstrakta ... 25
5. Zusammenfassung und Ausblick ... 27
II. Eine Beispielanwendung ... 28
1. Der Hintergrund ... 28
1.1 Einbettung in die Prozeßarchitektur ... 28
1.2 Ansätze für die Konstruktion von IE-Komponenten ... 28
2. Das Werkzeug ... 30
3. Die Ressourcen ... 31
3.1 Das Korpus ... 31
3.1.1 Kennzeichen ... 31
3.1.2 Vorverarbeitung ... 32
3.1.2.1 Normalisierung ... 32
3.1.2.2 Tokenisierung ... 33
3.1.2.3 Lexikalisches Parsing ... 33
3.2 Die Lexika ... 34
3.3 Graphen ... 36
4. Heuristik ... 38
4.1 Erstellung der Lexika ... 38
4.1.1 Arbeitsschritte ... 38
4.1.2 Übersicht über die Lexikondateien ... 39
4.1.2.1 Lexika der Relatoren ... 40
4.1.2.2 Lexika der generischen Konkreta ... 41
4.1.2.3 Lexika der Eigennamen (Marken- und Modellnamen) ... 42
4.1.2.4 Lexika der Attribute ... 42
4.1.2.5 Lexika der Vertrags- und Anbieterdaten ... 43
4.1.2.6 Sonstige Lexika ... 43
4.2 Erstellen der Lokalen Grammatiken ... 44
4.2.1 Abstrahieren von Schemata ... 44
4.2.2 Der Hauptgraph main.grf ... 44
4.2.3 Die Subgraphen auf der zweiten Ebene ... 45
4.2.3.1 Angebote mit Telefon – Relator – Vertragsbestandteil ... 46
4.2.3.2 Angebote mit Telefon – Relator – Vertragsbestandteil – weiteres Element ... 46
4.2.4 Die Subgraphen auf der dritten Ebene ... 47
4.3 Anwenden der Grammatiken auf das Korpus ... 48
4.4 Nachbearbeitung des annotierten Korpus ... 49
5. Evaluation und Zusammenfassung ... 50
5.1 Evaluation ... 50
5.1.1 Vollständigkeit ... 50
5.1.2 Präzision ... 50
5.1.3 Wahrheitsmatrix ... 50
5.1.4 Bewertung ... 51
5.2 Zusammenfassung ... 52
Tabellenverzeichnis ... 53
Abbildungsverzeichnis ... 54
Literaturverzeichnis ... 55
0. Einführung
Das Einkaufen im Internet hat sich neben dem stationären Handel in den letzten Jahren zu einer tragenden Säule der Wirtschaft entwickelt. Die Menge der im Internet umgesetzten Waren hängt jedoch nicht zuletzt davon ab, ob der Verbraucher einen Anbieter und bei diesem das für ihn passende Produkt findet. Ohne eine umfassende Klassifikation von Produkten und eine ausgereifte Suchtechnologie ist das jedoch kaum möglich. Großer manueller Aufwand dafür ist natürlich sehr kostspielig. Es sollten daher Werkzeuge entwickelt werden, die durch umfassende Konfigurierbarkeit und Flexibilität beim Einsatz helfen, große Mengen von Produkt‐ und Angebotsdaten weitestgehend automatisch zu analysieren und klassifizieren bzw. parametrisieren.
Die vorliegende Untersuchung stellt einen Ansatz vor, der in einem solchen kommerziellen Umfeld entstanden ist und eingesetzt wird. Im Bereich des elektronischen Handels findet er Anwendung, um Prozesse der automatischen Verarbeitung von deutschsprachigen Produktund Angebotsdaten zu unterstützen, die letztlich das Ziel haben, die zentrale Problematik des Online‐Shoppings – das Suchen und Finden von Produkten – zu optimieren. Die Idee ist dabei, linguistische Informationen – insbesondere lexikalische Daten und syntaktische Strukturen – aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren. Die dafür relevanten Informationen werden mittels Informationsextraktion (IE) gewonnen und bearbeitet.
„Das Ziel der IE ist die Konstruktion von Systemen, die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei gleichzeitigem „Überlesen“ irrelevanter Information. IR‐Systeme versuchen keine umfassende Analyse des gesamten Inhaltes aller Textdokumente, sondern sollen nur die Textpassagen analysieren bzw. „verstehen“, die relevante Information beinhalten. Was als relevant gilt, wird dabei durch vordefinierte domänenspezifische Lexikoneinträge oder Regeln dem System fest vorgegeben.“ 1
Es geht hier also vorrangig darum, bestimmte wiederkehrende und aussagekräftige Muster zu erkennen, zu formalisieren und durch Abstraktion auf einen Zusammenhang zwischen der Struktur des Angebotstextes und der Art und Zusammensetzung des konkreten Verkaufsobjektes zu schließen.
Die Arbeit besteht daher aus zwei Teilen: einem theoretischen, linguistisch‐analytischen Abschnitt, in dem das Phänomen der sogenannten Relatoren zunächst ganz allgemein anhand des vorliegenden Korpus (Produkt‐ bzw. Angebotsinformationen aus dem Online‐Handel) analysiert wird, und einem praktisch‐anwendungsorientierten Abschnitt, in dem die Erkenntnisse der linguistischen Untersuchung konkret für eine ausgewählte Produktkategorie – Telekommunikationsprodukte – und mit einem Zweck – Erkennen einer Set‐Relation – umgesetzt werden.
I. Theoretischer Hintergrund
1. Merkmale des Korpus
Das Korpus, das die Grundlage dieser Untersuchung bildet, zeichnet sich durch eine Reihe von prägnanten Merkmalen aus, die es zum einen zwar deutlich von üblichen Korpora unterscheiden und eine besondere Behandlung erfordern, zum anderen aber auch eine interessante Analyse ermöglichen.
Das Korpus setzt sich aus kurzen Angebotsbeschreibungen zusammen, die Händler aus den Eckdaten der Produkte verfassen und die dann auf Shopping-Portalen erscheinen. Thematisch handelt es sich um Angebote aus allen Produktbereichen, von Computern über Haushaltsgeräte bis hin zu Kleidung. Für die Untersuchung der Zusammensetzung und der Struktur der Angebote wird jedoch von vornherein die Kategorie Medien ausgeschlossen, da dort das Vorkommen von Eigennamen und festen Titeln die Untersuchungsergebnisse verzerren würde.
Auffälligstes Merkmal des Korpus ist, daß es sich nicht um Fließtext handelt. Die einzelnen Angebotsbeschreibungen bestehen vielmehr aus einer Aneinanderreihung von Produkt¬informationen zu Textfragmenten und weisen nur eine rudimentäre Grammatik auf. Dies mag vielerlei Gründe haben, insbesondere natürlich die Platzbegrenzung auf den Einkaufs¬portalen, die die Händler zwingt, möglichst viele Informationen zu einem Angebot mit sehr wenig Text zu vermitteln.
Der Text ist folglich stark segmentiert, als Analyseeinheit dienen voneinander unabhängige Angebote, die jeweils nur eine Zeile umfassen. Es kommen zudem lediglich bestimmte offene und geschlossene Wortarten vor. Dies sind vor allem bedeutungstragende Wortarten, wobei der Stil ausgeprägt nominal ist, d.h. den größten Anteil haben Nomen (Substantive, Adjektive). Verben kommen hingegen nur sporadisch vor. Von den funktionstragenden Wortarten treten fast ausschließlich Präpositionen auf. Darüber hinaus enthält das Korpus viele Sonderzeichen.
Insgesamt betrachtet ist das Korpus zwar einerseits sehr heterogen, z.B. in der Verwendung von Interpunktionszeichen, da die Angebote von sehr vielen verschiedenen Händlern stammen und es in bezug auf Wortwahl, Aufbau und Interpunktion keine vorgegebenen Standards gibt. Andererseits sind die Angebotstexte eines einzelnen Händlers sowohl in ihrer Struktur und in der Reihenfolge der Anordnung der einzelnen Bestandteile als auch in der Verwendung von Interpunktionszeichen meist recht homogen.
[...]
1 Carstensen, Kai‐Uwe et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, Heidelberg 2001: S. 448.
Comments
No comments yet
Other users also were interested in the following titles:
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Author: Marco FeindlerPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2008 Download as PDF-file for 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Author: Zoran ZivkovicPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Author: Claudia NickelPresentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Author: Maik PhilippPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Author: Mark RichterPresentations, Models, Tutorials, Instructions, 2008
This text can be quoted and accessed from this url: