Automatische Annotation ist ein Bereich der Computerlinguistik, der im Zuge neuer Technologien immer mehr an Bedeutung gewinnt. So sind in den letzten Jahren vermehrt Anwendungsgebiete entstanden, die auf Erkenntnisse der linguistischen Forschung zurückgreifen. Das sind unter anderem E-Learning, digitales Publizieren und multimediale Informationssysteme (vgl. Mehler 2004, S.1). Ihre Realisierung erfordert automatische Textanalysen, was auch die Grundlage für weitere Anwendungen, wie Übersetzungstools oder Spracherkennung, ist (ebd.). Besonders wichtig ist dabei die Keywordbestimmung, die sowohl in der Linguistik als auch im SEO-Bereich1 eine große Bedeutung hat (vgl. Damm 2012, S. 11). Dabei ist das Vergeben von Keywords in der Linguistik eher eine „Verschlagwortung“ (Liebert 2013, S.3), bei der Bezeichnungen zur inhaltlichen Beschreibung eines Objekts vergeben werden (ebd.). Die Bedeutung der Schlüsselwörter ist hierbei dynamisch und kann sich je nach Kontext ändern (vgl. Liebert 2013, S.4). Im SEO-Bereich ist ein Keyword ein thematisch relevanter Begriff, der von einer Suchmaschine leicht gefunden werden kann (vgl. Damm 2012, S.12). Schlüsselwörter werden nach Suchmaschinengesichtspunkten geordnet und ausgegeben (ebd.). Der Einfachheit halber wird im weiteren Text nicht zwischen verschiedenen Bedeutungen von „Keywords“ oder „Schlüsselwörtern“ unterschieden.
Die nachfolgende Arbeit basiert auf dem Paper „Automatic Annotation Suggestions for Audiovisual Archives: Evaluation Aspects“ (Gazendam et al. 2009), welches sich mit automatischen Annotationsvorschlägen bei audiovisuellen Daten auseinandersetzt. Der Fokus dieser Abhandlung liegt auf Annotationsvorschlägen bei textuellen Daten.
Inhaltsverzeichnis
- Einführung
- CHOICE-Projekt
- Methodik des CHOICE-Projektes
- TF.IDF Score
- Cluster-and-rank-process - CARROT
- Pagerank
- CHOICE-Verfahren
- Eigene Versuchsanordnung
- Vorstellen der Ergebnisse
- Vergleich: eigener Test vs. CHOICE-Projekt
- Fazit
- Literaturverzeichnis
- Anhang
- Abbildungsverzeichnis
- Texte
- Textannotationen
Zielsetzung und Themenschwerpunkte
Die Hausarbeit befasst sich mit der automatischen Keywordbestimmung im Kontext des CHOICE-Projekts, einer Forschungsarbeit, die sich mit der automatischen Annotation von audiovisuellen Daten auseinandersetzt. Die Arbeit analysiert die Methodik des CHOICE-Projekts und vergleicht diese mit einer eigenen Versuchsanordnung, die textuelle Daten verwendet. Ziel ist es, die Effizienz und Genauigkeit von automatischen Keyword-Generierungstools zu evaluieren und die Möglichkeiten der computerlinguistischen Forschung im Bereich der Keywordbestimmung zu beleuchten.
- Automatische Textannotation
- Keywordbestimmung
- Vergleich verschiedener Algorithmen (TF.IDF, CARROT, Pagerank)
- Evaluation von Keyword-Generierungstools
- Anwendung computerlinguistischer Methoden im SEO-Bereich
Zusammenfassung der Kapitel
Die Einführung stellt den Kontext der automatischen Textannotation und die Bedeutung der Keywordbestimmung in der Linguistik und im SEO-Bereich dar. Das CHOICE-Projekt wird vorgestellt, welches sich mit der automatischen Annotation von audiovisuellen Daten beschäftigt. Die Methodik des Projekts, die auf der GATE-Plattform basiert, wird erläutert, wobei die drei Stufen der Annotierung, das Keywordranking und der Cluster- und Rerankprozess im Detail beschrieben werden.
Die eigene Versuchsanordnung wird vorgestellt, die textuelle Daten aus dem Nachrichtenportal Spiegel Online verwendet und vier verschiedene Keyword-Generierungstools einsetzt. Die Ergebnisse der quantitativen und qualitativen Analyse werden präsentiert, wobei die Präzision der Tools im Vergleich zur manuellen Annotation betrachtet wird. Die Ergebnisse werden mit den Ergebnissen des CHOICE-Projekts verglichen, wobei Gemeinsamkeiten und Unterschiede der beiden Versuchsaufbauten und der erzielten Ergebnisse herausgestellt werden.
Das Fazit fasst die wichtigsten Erkenntnisse der Arbeit zusammen und diskutiert die Bedeutung der automatischen Annotation und der Keywordbestimmung im Kontext neuer Technologien und Anwendungsgebiete.
Schlüsselwörter
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen die automatische Textannotation, die Keywordbestimmung, das CHOICE-Projekt, den TF.IDF Score, CARROT, Pagerank, SEO, computerlinguistische Verfahren, Textanalyse, Information Retrieval, Evaluation, Präzision, Recall, manuelle Annotation, Algorithmen, Vergleich, Ergebnisse, Fazit und die Anwendung computerlinguistischer Methoden im Bereich der Sprach- und Texttechnologie.
- Quote paper
- Daniel Heißenstein (Author), 2013, Das CHOICE-Projekt. Automatische Keywordbestimmung, Munich, GRIN Verlag, https://www.grin.com/document/229858