Inhaltsverzeichnis
0. EINFÜHRUNG 1
I THEORETISCHER HINTERGRUND 2
1. MERKMALE DES KORPUS 2
2. RELATA RELATOREN UND RELATIONEN 3
3. DIE RELATOREN 4
3.1 Präpositionen 4
3.1.1 MIT 4
3.1.2 FÜR 5
3.1.3 OHNE 5
3.1.4 IN 6
3.1.5 ZU 6
3.1.6 AUS 7
3.1.7 VON 7
3.1.8 GEGEN 8
3.1.9 AUF 8
3.2 Präpositionalphrasen 8
3.2.1 Präposition Adjektiv 9
3.2.2 Präposition Substantiv 9
3.2.3 Präposition Verb 10
3.2.4 Präposition sonstige Wortarten 10
3.3 Konjunktionen 11
3.3.1 UND 11
3.3.2 ODER 11
3.4 Verben 12
3.5 Weitere wortbasierte Relatoren 12
3.6 Symbole 13
3.7 Beobachtungen und Probleme 13
4. KLASSEN VON RELATOREN UND TYPOLOGIE DER RELATA 14
4.1 Relatorenklasse: MIT 15
4.1.1 Paradigmatische Realisierung 15
4.1.2 Syntagmatische Realisierung 15
4.1.3 Typologie des Nachfeldes 16
4.1.3.1 Konkreta 16
4.1.3.2 Abstrakta 17
4.2 Relatorenklasse: FÜR 18
4.2.1 Paradigmatische Realisierung 18
4.2.2 Syntagmatische Realisierung 19
4.2.3 Typologie des Nachfeldes 21
4.2.3.1 Konkreta 21
4.2.3.2 Abstrakta 22
4.3 Relatorenklasse: OHNE 23
4.3.1 Paradigmatische Realisierung 23
4.3.2 Syntagmatische Realisierung 23
4.3.3 Typologie des Nachfeldes 24
4.3.3.1 Konkreta 24
4.3.3.2 Abstrakta 25
5. ZUSAMMENFASSUNG UND AUSBLICK 27
II EINE BEISPIELANWENDUNG 28
1. DER HINTERGRUND 28
1.1 Einbettung in die Prozeßarchitektur 28
1.2 Ansätze für die Konstruktion von IE Komponenten 28
2. DAS WERKZEUG 30
3. DIE RESSOURCEN 31
3.1 Das Korpus 31
3.1.1 Kennzeichen 31
3.1.2 Vorverarbeitung 32
3.1.2.1 Normalisierung 32
3.1.2.2 Tokenisierung 33
3.1.2.3 Lexikalisches Parsing 33
3.2 Die Lexika 34
3.3 Graphen 36
4. HEURISTIK 38
4.1 Erstellung der Lexika 38
4.1.1 Arbeitsschritte 38
4.1.2 Übersicht über die Lexikondateien 39
4.1.2.1 Lexika der Relatoren 40
4.1.2.2 Lexika der generischen Konkreta 41
4.1.2.3 Lexika der Eigennamen (Marken und Modellnamen) 42
4.1.2.4 Lexika der Attribute 42
4.1.2.5 Lexika der Vertrags und Anbieterdaten 43
4.1.2.6 Sonstige Lexika 43
4.2 Erstellen der Lokalen Grammatiken 44
4.2.1 Abstrahieren von Schemata 44
4.2.2 Der Hauptgraph main.grf 44
4.2.3 Die Subgraphen auf der zweiten Ebene 45
4.2.3.1 Angebote mit Telefon Relator Vertragsbestandteil 46
4.2.3.2 Angebote mit Telefon Relator Vertragsbestandteil weiteres Element 46
4.2.4 Die Subgraphen auf der dritten Ebene 47
4.3 Anwenden der Grammatiken auf das Korpus 48
4.4 Nachbearbeitung des annotierten Korpus 49
5. EVALUATION UND ZUSAMMENFASSUNG 50
5.1 Evaluation 50
5.1.1 Vollständigkeit 50
5.1.2 Präzision 50
5.1.3 Wahrheitsmatrix 50
5.1.4 Bewertung 51
5.2 Zusammenfassung 52
TABELLENVERZEICHNIS 53
ABBILDUNGSVERZEICHNIS 54
LITERATURVERZEICHNIS 55
55
0. Einführung
Das Einkaufen im Internet hat sich neben dem stationären Handel in den letzten Jahren zu einer tragenden Säule der Wirtschaft entwickelt. Die Menge der im Internet umgesetzten Waren hängt jedoch nicht zuletzt davon ab, ob der Verbraucher einen Anbieter und bei diesem das für ihn passende Produkt findet. Ohne eine umfassende Klassifikation von Produkten und eine ausgereifte Suchtechnologie ist das jedoch kaum möglich. Großer manueller Aufwand dafür ist natürlich sehr kostspielig. Es sollten daher Werkzeuge entwickelt werden, die durch umfassende Konfigurierbarkeit und Flexibilität beim Einsatz helfen, große Mengen von Produkt‐ und Angebotsdaten weitestgehend automatisch zu analysieren und klassifizieren bzw. parametrisieren. Die vorliegende Untersuchung stellt einen Ansatz vor, der in einem solchen kommerziellen Umfeld entstanden ist und eingesetzt wird. Im Bereich des elektronischen Handels findet er Anwendung, um Prozesse der automatischen Verarbeitung von deutschsprachigen Produkt‐ und Angebotsdaten zu unterstützen, die letztlich das Ziel haben, die zentrale Problematik des Online‐Shoppings – das Suchen und Finden von Produkten – zu optimieren. Die Idee ist dabei, linguistische Informationen – insbesondere lexikalische Daten und syntak‐ tische Strukturen – aus den Angebotstexten zu nutzen, um die darin beschriebenen Produkte zu klassifizieren. Die dafür relevanten Informationen werden mittels Informationsextraktion (IE) gewonnen und bearbeitet. „Das Ziel der IE ist die Konstruktion von Systemen, die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei gleichzeitigem „Überlesen“ irrelevanter Information. IR‐Systeme versuchen keine umfassende Analyse des gesamten Inhaltes aller Textdokumente, sondern sollen nur die Textpassagen analysieren bzw. „verstehen“, die relevante Information beinhalten. Was als relevant gilt, wird dabei durch vordefinierte domänenspezifische Lexikon‐ einträge oder Regeln dem System fest vorgegeben.“ 1 Es geht hier also vorrangig darum, bestimmte wiederkehrende und aussagekräftige Muster zu erkennen, zu formalisieren und durch Abstraktion auf einen Zusammenhang zwischen der Struktur des Angebotstextes und der Art und Zusammensetzung des konkreten Ver‐ kaufsobjektes zu schließen. Die Arbeit besteht daher aus zwei Teilen: einem theoretischen, linguistisch‐analytischen Ab‐ schnitt, in dem das Phänomen der sogenannten Relatoren zunächst ganz allgemein anhand des vorliegenden Korpus (Produkt‐ bzw. Angebotsinformationen aus dem Online‐Handel) analysiert wird, und einem praktisch‐anwendungsorientierten Abschnitt, in dem die Er‐ kenntnisse der linguistischen Untersuchung konkret für eine ausgewählte Produktkategorie – Telekommunikationsprodukte – und mit einem Zweck – Erkennen einer Set‐Relation – umgesetzt werden.
1 Carstensen, Kai‐Uwe et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag, Heidelberg 2001: S. 448.
I. Theoretischer Hintergrund
1. Merkmale des Korpus Das Korpus, das die Grundlage dieser Untersuchung bildet, zeichnet sich durch eine Reihe von prägnanten Merkmalen aus, die es zum einen zwar deutlich von üblichen Korpora unterscheiden und eine besondere Behandlung erfordern, zum anderen aber auch eine interessante Analyse ermöglichen. Das Korpus setzt sich aus kurzen Angebotsbeschreibungen zusammen, die Händler aus den Eckdaten der Produkte verfassen und die dann auf Shopping‐Portalen erscheinen. Thematisch handelt es sich um Angebote aus allen Produktbereichen, von Computern über Haushaltsgeräte bis hin zu Kleidung. Für die Untersuchung der Zusammensetzung und der Struktur der Angebote wird jedoch von vornherein die Kategorie Medien ausgeschlossen, da dort das Vorkommen von Eigennamen und festen Titeln die Untersuchungsergebnisse verzerren würde. Auffälligstes Merkmal des Korpus ist, daß es sich nicht um Fließtext handelt. Die einzelnen Angebotsbeschreibungen bestehen vielmehr aus einer Aneinanderreihung von Produkt‐ informationen zu Textfragmenten und weisen nur eine rudimentäre Grammatik auf. Dies mag vielerlei Gründe haben, insbesondere natürlich die Platzbegrenzung auf den Einkaufs‐ portalen, die die Händler zwingt, möglichst viele Informationen zu einem Angebot mit sehr wenig Text zu vermitteln. Der Text ist folglich stark segmentiert, als Analyseeinheit dienen voneinander unabhängige Angebote, die jeweils nur eine Zeile umfassen. Es kommen zudem lediglich bestimmte offene und geschlossene Wortarten vor. Dies sind vor allem bedeutungstragende Wortarten, wobei der Stil ausgeprägt nominal ist, d.h. den größten Anteil haben Nomen (Substantive, Adjektive). Verben kommen hingegen nur sporadisch vor. Von den funktionstragenden Wortarten treten fast ausschließlich Präpositionen auf. Darüber hinaus enthält das Korpus viele Sonderzeichen. Insgesamt betrachtet ist das Korpus zwar einerseits sehr heterogen, z.B. in der Verwendung von Interpunktionszeichen, da die Angebote von sehr vielen verschiedenen Händlern stammen und es in bezug auf Wortwahl, Aufbau und Interpunktion keine vorgegebenen Standards gibt. Andererseits sind die Angebotstexte eines einzelnen Händlers sowohl in ihrer Struktur und in der Reihenfolge der Anordnung der einzelnen Bestandteile als auch in der Verwendung von Interpunktionszeichen meist recht homogen.
2. Relata, Relatoren und Relationen
Auf semantischer Ebene lassen sich die Angebote grob als einfache (Beispiel: Samsung SGH-E770) und komplexe Angebote (Beispiel: VK-Mobile VK 1010 mit T-Mobile D1 Telly Profi Vertrag) klassifizieren. Gegenstand der folgenden Betrachtungen sollen ausschließlich komplexe Angebote sein. Komplex drückt dabei aus, daß sich ein Angebot aus mehreren Teilen, d. h. Produkten wie Geräten o. ä., zusammensetzt. Zwischen diesen ein‐ zelnen Bestandteilen besteht ein bestimmter Typ von Relation, z. B. die Zubehör‐Relation oder die Set‐Relation. Eine „Zubehör‐Relation“ ist beispielsweise dadurch gekennzeichnet, daß Teil X und Teil Y zusammen auftreten, und Y als Zubehör für X fungiert. „Set‐Relation“ hingegen sagt aus, daß zwei Teile X und Y zusammen auftreten, d. h. im Set verkauft werden. Es wird nun angenommen, daß sich diese semantischen Relationen auch auf syntag‐ matischer Ebene widerspiegeln. Bei komplexen Angeboten fällt nämlich auf, daß sich der Angebotstext – meist anhand bestimmter Marker – in verschiedene Bereiche (Felder) gliedern läßt und dadurch schon auf den ersten Blick gewisse sich wiederholende elementare Strukturen erkennbar sind. Folgende Beispiele illustrieren dies:
Tabelle 1: Beispiele für komplexe Angebote
Da man also davon ausgehen kann, daß diese Marker die zentrale Rolle für die Kenn‐ zeichnung einer Relation und die Bestimmung des Relationstyps spielen, sind sie Gegenstand der Untersuchung in den folgenden Kapiteln 3 und 4. Dabei wird auf die Gestalt, die Funktionen, die Gruppierungen, aber auch den Kontext der verschiedenen Marker eingegangen. Um die relationsbildende, verknüpfende Funktion der Marker deutlicher herauszustellen, werden sie als Relatoren bezeichnet. „A relator is a lexical item whose function is to show the relationship between its surrounding constructions.“ 2 Die verknüpften Elemente werden entsprechend Relata genannt. Die semantische Relation zwischen Relata kann durch ein Prädikat ausgedrückt werden.
2 http://www.sil.org/Linguistics/GlossaryOfLinguisticTerms/WhatIsARelator.htm [30.4.2006]
4 3. Die Relatoren
Relatoren können vielerlei Gestalt annehmen. In diesem Kapitel wird daher ein Überblick über die verschiedenen Relatoren und ihre Ausprägungen gegeben, die im Korpus zu finden sind. Angesichts des knappbemessenen Rahmens dieser Arbeit ist jedoch eine Beschränkung auf repräsentative Beispiele notwendig.
3.1 Präpositionen Die Mehrzahl der Relatoren gehört der Gruppe der Präpositionen an, die traditionell eine verknüpfende Funktion besitzen. Im folgenden werden die vorkommenden präpositionalen Relatoren der Übersicht halber tabellarisch mit ihren verschiedenen Oberflächenformen vorgestellt und jeweils mit Bei‐ spielen aus dem Korpus illustriert. 3.1.1 MIT
Tabelle 2: Der Relator MIT Beispiele aus dem Korpus: (1) Prismenbrille mit Brillenetui (2) Braun Flex XPII 5775 mit Ladestation (3) Kinderschreibtisch mit Stuhl (4) Esprit Shirt mit 3/4-Ärmeln (5) HP Ausgabefach 3000 Bl m Hefteinrichtung f LJ 8XXX/N (6) Braune Langhaar Perücke m. Zöpfe
5 (7) Personenwaage Omega mit extra großen Ziffern (8) TV-Fernbedienung mit großen Tasten (9) Miele Bodendüse SBDH 285 mit integriertem Hygienesensor (10) Anhänger Delphin m.Katzenauge (11) Esprit T-Shirt mit Motivdruck 3.1.2 FÜR
Tabelle 3: Der Relator FÜR Beispiele aus dem Korpus: (1) Sonnenschutz Winnie the Pooh für Heckscheibe (2) Nokia DCC 1 Tischladestation für Nokia 7650 (3) HP Papierzuführung 250 Blatt für Color Laserjet 2550L (4) HP Beschichtungsleistensatz f ColorLJ (5) Holzkoffer für Arzneimittel (6) Siemens Staubsaugerbeutel für VS08 5 Stück Typ P (7) Jura Milchbehälter für F90/F50/E85/E80/E45 (8) HP MultiBay Li-Ion Akku Smart Battery System - fuer EVO N800c/v (9) Halbrundnapf für Papageien (10)Sony DCC-L1 Auto Ladegerät für das Laden von Li-Ionen Akkus 3.1.3 OHNE
Tabelle 4: Der Relator OHNE Beispiele aus dem Korpus: (1) Toilettenaufsatz de Lux 10 cm ohne Deckel (2) Ballstuhl ohne Armlehnen (3) Nokia 5140i orange Handy (ohne Vertrag)
6
3.1.4 IN
Tabelle 5: Der Relator IN Beispiele aus dem Korpus: (1) Esprit Langarm-Shirt im Doppelpack (2) Mädchen-Hemd mit Spagettiträgern im 2er-Pack (3) Trendiger Tischläufer im Streifendesign (4) Anleitung in Farbdruck zum Lo Pan des Westens (5) Edle Glasschalen in rot/gold (6) Skat in Postkartengröße (7) Fashy Aqua-Windel in Shortform (8) Duftkerzen in Geschenkebox (9) Brunnen Kugel in Schale Graphit/Marmor (10)LUXUS-NUMIS Album in Leder (11)Booster C™ - Vitamin C in seiner reinsten Form
3.1.5 ZU
Tabelle 6: Der Relator ZU Beispiele aus dem Korpus: (1) Hudora Fußballtor und Torwand zum Setpreis (2) Logitech QuickCam Communicate Webcam zum Erfassen von Videos (3) JavaLean™ Kaffe zum Abnehmen oder der Diät (4) SanDisk ImageMate USB zum einlesen von MMC-Karte & SD-Karten (5) Software zum Thema "Symbole“ (6) Handbuch zu Qi-Gong-Kugeln
7 3.1.6 AUS
Tabelle 7: Der Relator AUS Beispiele aus dem Korpus: (1) Isolierkanne aus Edelstahl (2) Kenwood Getreidemühle aus Vulkanstein A 1412 (3) Lichtleiste aus Kunststoff mit EVG (4) Klappbares Tablett und Lesepult aus Holz (5) Hinoki® Vitamin-E Konzentrat aus Pflanzen, 100 ml (6) Honig aus Neuseeland (7) Rotweinsortiment aus der Region Salento - Italien (4 Fl.) (8) Bee Pollen - echte natürliche Blütenpollen aus der Natur (9) Originalmünzen aus der Kaiserzeit 3.1.7 VON
Tabelle 8: Der Relator VON Beispiele aus dem Korpus: (1) Fenster-Ornaments, "Sonne" von Swarovski (2) SanDisk ImageMate USB zum einlesen von MMC-Karte & SD-Karten (3) ELO Office 5.0 Update von Version 4.x, deutsch (4) Belkin USB 2.0 DVD Creator zum Speichern, Bearbeiten und Versenden von Videos, inkl. DVD-Software Ulead (5) Seiko InkLink ermöglicht eine einfache Datenübertragung von Papier auf PCs, Notebooks (6) Macromedia Freehand MX UpDate WIN CD deutsch, von Version 10.x (7) Olympus Adapterstecker PA 3 von 3,5 auf 2,5 mm (8) HP Ultrium 215i intern, Kapazität von bis zu 200GB (9) TomTom Navigator 3 inkl. GPS-Receiver Karten von Deutschland, Österreich, Schweiz
8 3.1.8 GEGEN
Tabelle 9: Der Relator GEGEN Beispiele aus dem Korpus: (1) Dr. Bermanís® Kosmetik Eye Treatment Mask gegen Augenringe 3.1.9 AUF
Tabelle 10: Der Relator AUF Beispiele aus dem Korpus: (1) Exklusiver Gehstock Alpacca auf echt Ebenholz (2) Schlafender Engel auf Vase (3) Vernebler "Rainbow" auf Alabaster-Säule (4) Acer Garantieverlängerung auf 3 Jahre (Advantage) (5) Olympus Adapterstecker PA 3 von 3,5 auf 2,5 mm 3.2 Präpositionalphrasen Neben den genannten allein auftretenden Präpositionen können Phrasen mit einem präpositionalen Kern als Relatoren fungieren. Dabei gehören zu den Oberflächenformen natürlich außerdem die jeweiligen Schreibvarianten der präpositionalen Bestandteile. Folgende Kombinationen von Wortarten sind beobachtet worden:
9
3.2.1 Präposition – Adjektiv
Tabelle 11: Kombinationen aus Präposition und Adjektiv Beispiele aus dem Korpus: (1) HP Beschichtungsleistensatz für ColorJet 5/5M nur mit C3969A verwendbar (2) PhytoPath® - Der Schutz vor freien Radikalen - ideal für Raucher (3) ChloroPlasma® - Die bessere Spirulina Alge - Für alle Vegetarier ideal - Die Eiweiß Versorgung! (4) Power Burn™ - Fett verbrennen kann so leicht sein. Perfekt für Ihre Diät - Abnehmen 3.2.2 Präposition – Substantiv Hierbei handelt es sich meist um Nominalisierungen, also deverbale Substantive wie bei‐ spielsweise Erfassen, Anschluß u. ä. Das Erstellen eines Lexikons mit Konstruktionen dieser Art – Kombinationen aus Prä‐ positionen und Substantiven sowie gelegentlich attributiven Adjektiven – unterstützt die Erkennung von Relationen auch über das Vorkommen einzelner Relatoren hinaus.
Tabelle 12: Kombinationen aus Präposition und Substantiv
Quote paper:
Anja Klein, 2007, Eine linguistisch-strukturelle Analyse von Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Anja Klein has published the text Eine linguistisch-strukturelle Analyse von Angebotsbeschreibungen für Online-Einkaufsportale zur automatischen Klassifizierung und Informationsextraktion mittels Rekursiver Transitionsnetzwerke
Anja Klein has uploaded a new text
Verpackungsaufschriften als Text, eine linguistische Analyse
Inaugural-Dissertation zur Erl...
Sonja Steves
Cours d'analyse de l'École Royale Polytechnique. I partie. Analyse alg...
Augustin-Louis Cauchy
0 comments