Inhaltsverzeichnis
1. Aufgabe
2. Ermittlung von Mehrwortgruppen
2.1 Definition
3. Kennzeichnung der Mehrwortgruppen
4. Grundformen
5. Term- und Dokumenthäufigkeit --- Termgewichtung
6. Steuerungsinstrument Schwellenwert
7. Invertierter Index
1. Aufgabe
Eine Dokumentenkollektion soll automatisch indexiert werden, indem informationslinguistische und statistische Verfahren angewendet werden.
Es sollen Substantive und Mehrwortgruppen indexiert werden.
Da nur Substantive und Mehrwortgruppen indexiert werden sollen, wollen wir ein paar Vorbedingungen aufstellen, um irrelevante Terme von vornherein auszuschließen.
Hier handelt es sich um inhaltsleere Wörter:
- Verben
- Artikeln
- Adverbien
- Präpositionen
- Konjunktionen
Weitere Vorbedingungen:
- Ein Term besteht aus mindestens zwei Zeichen
- Der Bindestrich wird als Leerzeichen gelesen, andere Satzzeichen wiederum nicht
- Wörterbucheintragungen werden verwendet
- Komposita werden nicht zerlegt
- Englische Wörter, soweit sie groß geschrieben sind, werden als Substantive erkannt
2. Ermittlung von Mehrwortgruppen
2.1 Definition
Als Mehrwortgruppe wird alles erkannt, was zwischen (wie oben aufgeführt) Verben, Artikeln, Adverbien und Präpositionen liegt. Satzzeichen wie Komma, Punkt usw. sind ebenfalls zu beachten.
Eine Mehrwortgruppe kann natürlich aus mehr als nur zwei Wörtern bestehen. Es gibt unter anderem folgenden Typen:
- Adjektiv-Substantiv-Phrasen
- Substantiv-Phrasen
Inhaltliche Erschliessung 3
Marcello Nicoletti SS 2001
3. Kennzeichnung der Mehrwortgruppen
Text 1:
Nach einer Studie des Marktforschungsinstitutes GfK werden in den nächsten Jahren viele elektronische Marktplätze im Internet scheitern. Es fehlt an strategischen und betriebswirtschaftlichen Konzepten für das Geschäft im Internet.
Text 2:
Viele E-Commerce Unternehmen im Internet werden nach Ansicht des Unternehmensberaters Roland Berger scheitern. Nur die Unternehmen überleben, die schnell einen großen Marktanteil erobern und eine bekannte Marke aufbauen. Der Gewinner bekommt alles, gelte im E-Commerce des Internet mehr denn je.
Text 3:
Die Implementierung von Balanced Scorecards ergänzt Controlling Software. Spezifische Software für Balanced Scorecards ist besonders wichtig, wenn verschiedene Scorecards konsolidiert werden müssen. Führender Anbieter ist Gentia mit einem Modul für Balanced Scorecards. Gentia ist von der Balanced Scorecard Collaborative zertifiziert.
Text 4:
Das Rennen um den führenden elektronischen Marktplatz der Luftfahrindustrie ist noch nicht entschieden. Allerdings hat Aviation X seine ursprüngliche Geschäftsidee eines elektronischen Marktplatzes für Ersatzteile in der Luftfahrtindustrie bereits aufgegeben und sich gänzlich aus dem Konzept des elektronischen Marktplatzes zurückgezogen.
Text 5:
Kein Unternehmen sollte elektronische Marktplätze im Internet ignorieren. Etwa ein Drittel aller Transaktionen im E-Commerce werden in den kommenden Jahren auf elektronischen Marktplätzen im Internet getätigt. Damit sind die elektronischen Marktplätze allerdings auch nicht alleinige Plattform für den E-Commerce.
Text 6:
Vertreter von OECD Mitgliedsregierungen haben nach Angaben der Organisation Einvernehmen über eine Reihe von Schlussfolgerungen und Empfehlungen zur steuerlichen Behandlung von E-Commerce erzielt. Damit werde der Weg zu größerer Sicherheit für Unternehmen und Verbraucher im Internet geebnet, teilte die OECD mit. Die Schlussfolgerungen und Empfehlungen des OECD Ausschusses für Steuerfragen und der von diesem berufenen Beratungsgruppen aus Vertretern von Regierungen und Geschäftswelt betreffen die internationalen direkte Besteuerung, die Verbrauchsteuern und die Steuerverwaltung.
Text 7:
Die get global electronic transfer AG betreibt elektronische Marktplätze im Internet, die digitale Formen von Informationen, Unterhaltung und kommerziellen Angeboten bündeln und direkt auf den Fernsehbildschirm des Konsumenten bringen. Get strebt die flächendeckende Versorgung von Haushalten mit digitalen Diensten und interaktivem Fernsehen an. Das Internet Portal von get bietet digitalen TV- und Radioempfang an, Video-, Musik- und Spiele-on-Demand, elektronische Programmzeitschrift, Zugang zum Internet mit E-Mail-Dienst sowie Shopping und Banking.
Inhaltliche Erschliessung 4
Marcello Nicoletti SS 2001
4. Grundformen
Alle Indexterme sollen in ihrer lexikalischen Grundform indexiert werden.
Durch die vielen Ausnahmen in der deutschen Sprache ist es sehr schwer einen eindeutigen und einfachen (?) Reduktionsalgorithmus, wie in der englischen Sprache, zu bilden.
Die Ermittlung der Grundform erfolgt durch Lemmatisierung (Wörterbucheintragungen werden benutzt).
Ein Beispiel aus dem später folgenden Index:
elektronischen Marktplätzen
elektronischen ? elektronisch (Lemmatisierung innerhalb der Wortklasse) Marktplätzen ? Marktplatz (Flexionsendung „-en“)
Indexeintrag: elektronisch Marktplatz Neben Wortklassen und Flexionsendungen haben auch Fugenbindungen Einfluß auf die Wortform.
Beispiel:
Unternehmensberaters ? Unternehmensberater
Es wird kein Benutzer eine solche Abfrage stellen, aber ein Programm sollte die Eingabe des Benutzers auf die Grundform reduzieren. Dieser wird dann mit den Indexeinträgen verglichen.
5. Term- und Dokumenthäufigkeit --- Termgewichtung
Zuerst bestimmen wir die Termfrequenz (FREQ) und die Dokumentfrequenz
(DOKFREQ). Hierzu werden alle in Frage kommende Terme (Substantive und
Mehrwortgruppen) aufgezählt und dem Text der Dokumentenkollektion zugeordnet. DOKFREQ ist die Anzahl, in wie vielen Texten der Dokumentkollektion der Term auftritt.
Danach berechnen wir die Termgewichtung mit folgender Formel, dem sogenannten Ansatz der inversen Dokumentenhäufigkeit:
IDF = FREQ / DOKFREQ
Inhaltliche Erschliessung 5
Marcello Nicoletti SS 2001
Abbildung in dieser Leseprobe nicht enthalten
6. Steuerungsinstrument Schwellenwert
Die Schwellenwertbestimmung ist eine Hilfe, um geeignete Terme festzustellen und ungeeignete Terme auszuschließen.
Festlegung des unteren Schwellenwert: 0,6
Somit eliminiert man nicht relevante Terme wie in diesem Falle Konzept und Jahr.
Da am Anfang keine umfangreiche Stoppwortliste (außer den Verben, Artikeln usw.) definiert wurde, können wir mit Hilfe des oberen Schwellenwertes hochfrequente Wörter eliminieren.
Festlegung des oberen Schwellenwert: 0,8
Nun werden sowohl hochfrequente Terme (z. B. Scorecard) als auch nichtaussagefähige Terme (z. B. Weg) ausgeschlossen.
7. Invertierter Index
Nun können wir einen invertierten Index erstellen:
Abbildung in dieser Leseprobe nicht enthalten
Inhaltliche Erschliessung
Häufig gestellte Fragen
Worum geht es in diesem Dokument?
Dieses Dokument beschreibt den Prozess der automatischen Indexierung einer Dokumentensammlung mithilfe informationslinguistischer und statistischer Verfahren. Ziel ist es, Substantive und Mehrwortgruppen zu indexieren, wobei irrelevante Terme durch Vorbedingungen ausgeschlossen werden.
Welche Vorbedingungen werden verwendet, um irrelevante Terme auszuschließen?
Folgende Vorbedingungen werden angewendet: Ausschluss von Verben, Artikeln, Adverbien, Präpositionen und Konjunktionen. Terme müssen aus mindestens zwei Zeichen bestehen. Der Bindestrich wird als Leerzeichen behandelt, andere Satzzeichen jedoch nicht. Wörterbucheintragungen werden verwendet und Komposita werden nicht zerlegt. Englische Wörter, die groß geschrieben sind, werden als Substantive erkannt.
Wie werden Mehrwortgruppen ermittelt und definiert?
Mehrwortgruppen werden als alle Wörter zwischen Verben, Artikeln, Adverbien und Präpositionen erkannt. Satzzeichen wie Komma und Punkt werden ebenfalls berücksichtigt. Mehrwortgruppen können aus mehr als zwei Wörtern bestehen und beinhalten Typen wie Adjektiv-Substantiv-Phrasen und Substantiv-Phrasen.
Wie werden Mehrwortgruppen im Text gekennzeichnet?
Das Dokument enthält Beispiele (Text 1 bis Text 7), die zeigen, wie Mehrwortgruppen in verschiedenen Kontexten vorkommen, beispielsweise in Bezug auf elektronische Marktplätze, E-Commerce, Balanced Scorecards und steuerliche Behandlung von E-Commerce.
Wie werden Grundformen für die Indexierung ermittelt?
Alle Indexterme werden in ihrer lexikalischen Grundform indexiert. Die Ermittlung der Grundform erfolgt durch Lemmatisierung (Verwendung von Wörterbucheintragungen). Flexionsendungen und Fugenbindungen werden berücksichtigt, um die Grundform zu ermitteln.
Wie wird die Termgewichtung berechnet?
Die Termgewichtung wird mithilfe der Termfrequenz (FREQ) und der Dokumentfrequenz (DOKFREQ) bestimmt. DOKFREQ ist die Anzahl der Texte in der Dokumentkollektion, in denen der Term auftritt. Die Termgewichtung wird mit der Formel IDF = FREQ / DOKFREQ berechnet (Ansatz der inversen Dokumentenhäufigkeit).
Was ist ein Schwellenwert und wie wird er verwendet?
Der Schwellenwert ist ein Steuerungsinstrument, um geeignete Terme festzustellen und ungeeignete Terme auszuschließen. Ein unterer Schwellenwert (z.B. 0,6) eliminiert nicht relevante Terme. Ein oberer Schwellenwert (z.B. 0,8) eliminiert hochfrequente und nichtaussagefähige Terme.
Was ist ein invertierter Index?
Ein invertierter Index ist eine Datenstruktur, die es ermöglicht, schnell alle Dokumente zu finden, die einen bestimmten Term enthalten. Das Dokument enthält ein Beispiel für einen invertierten Index.
- Citar trabajo
- Marcello Nicoletti (Autor), 2001, Automatische Indexierung, Múnich, GRIN Verlag, https://www.grin.com/document/104966