Es ist wohl unbestritten: Der Computer hat die Sprachwissenschaft in den letzten Jahrzehnten nachhaltig verändert. Als Teilbereich der Linguistik erfuhr auch die Lexikographie einen Wandel.

Die Grundfrage der Arbeit lautet: Welche Schritte sind bei der Erstellung eines Wörterbuchs aus einem elektronischen Textkorpus zu bewältigen?

Die einzelnen Etappen werden auf drei Ebenen betrachtet. Zunächst wird jeder Schritt kurz skizziert. Wozu braucht es den Schritt überhaupt, was ist das grundsätzliche Ziel? Danach folgt eine detaillierte Analyse, die hauptsächlich von zwei Fragen bestimmt wird: Inwiefern lässt sich der jeweilige Arbeitsschritt automatisieren und wo ist nach wie vor lexikographische Kompetenz erforderlich?

Die Diskussion der einzelnen Punkte wird schliesslich mit einigen praktischen Überlegungen zum Projekt SCHWEIZER TEXT KORPUS abgerundet, einem Teilprojekt des DWDS (Digitales Wörterbuch der Deutschen Sprache). Das Schweizer Text Korpus verfolgt das Ziel, die Schweizer Standardsprache des 20. Jahrhunderts möglichst ausgewogen zu erfassen. Auf der Grundlage des Korpus, das sich momentan im Aufbau befindet, soll später ein digitales Wörterbuchsystem erstellt werden. Die hier angestellten Überlegungen könnten für den weiteren Verlauf des Projekts also von Interesse sein.

Excerpt

Inhaltsverzeichnis

1. Einleitung

1.1. Fragestellung

1.2. Grundlagen

2. Vom Korpus zum Wörterbuch – drei Schritte

2.1. Die Modellierung lexikographischer Daten

2.1.1. Ziel der Modellierung

2.1.2. Die Modellierung im Detail

2.1.3. Die Modellierung für das Schweizer Text Korpus

2.2. Die Auswahl der Stichworte

2.2.1. Ziel der Stichwortauswahl

2.2.2. Die Stichwortauswahl im Detail

2.2.3. Die Stichwortauswahl für das Schweizer Text Korpus

2.3. Die Artikelproduktion

2.3.1. Ziel der Artikelproduktion

2.3.2. Die Artikelproduktion im Detail

2.3.3. Die Artikelproduktion für das Schweizer Text Korpus

3. Schluss

Zielsetzung & Themen der Arbeit

Die vorliegende Arbeit untersucht den Prozess der Erstellung eines elektronischen, korpusbasierten Wörterbuchs. Ziel ist es, die notwendigen Arbeitsschritte von der Modellierung der Daten über die Stichwortauswahl bis hin zur Artikelproduktion kritisch zu beleuchten, Automatisierungspotenziale aufzuzeigen und die Relevanz lexikographischer Kompetenz zu definieren.

Grundlagen der digitalen Lexikographie und Korpuslinguistik
Modellierung lexikographischer Daten mittels XML
Methoden der automatisierten und manuellen Stichwortauswahl
Prozesse der korpusbasierten Artikelproduktion
Praktische Implikationen für das Projekt „Schweizer Text Korpus“

Auszug aus dem Buch

2.1.2. Die Modellierung im Detail

Dass sich für den medienneutralen lexikographischen Prozess eine Modellierung der Daten in XML anbietet, wurde bereits angesprochen. Das Modellieren entspricht letztlich also dem Erarbeiten einer XML-DTD oder eines XML-Schemas. Die Vor- und Nachteile einer DTD gegenüber einem Schema spielen in dieser Arbeit eine untergeordnete Rolle. In elexiko wurden die Daten in einer DTD modelliert, „da DTDs besser zu ‚lesen’“ (Müller-Spitzer 2005a, 28) und damit auch für Nicht-Informatiker verständlich sind. Doch letztlich ist es nicht von entscheidender Bedeutung, ob die Daten in einer DTD oder einem Schema modelliert werden. Beide eigenen sich dazu, die Struktur gegebener XML-Instanzen – in diesem Fall Wörterbuchartikel – festzulegen. Im Folgenden wird nur noch von einer zu entwickelnden DTD die Rede sein. Die Überlegungen gelten aber auch für das Schema.

Die Automatisierung bei der Datenmodellierung erscheint zunächst hinfällig. Es ist klar, dass die Entwicklung einer DTD (lexikographische) Handarbeit erfordert. Es stellt sich aber die Frage, ob die DTD in eigener Regie entwickelt werden soll, oder ob auf eine Standard-Modellierung zurückgegriffen werden kann, und wenn ja, welche Vor- und Nachteile eine solche mit sich bringt.

Für die Modellierung lexikographischer Daten bietet sich die DTD der TEI (Text Encoding Initiative) an. Die TEI ist ein 1988 gegründetes Projekt, welches das Ziel verfolgt, „Richtlinien für die Auszeichnung verschiedener Texttypen aus dem geisteswissenschaftlichen Bereich zur Verfügung zu stellen“ (Schmidt/Müller 2001, 37). Im Mai 1994 erschienen die Guidelines for Electronic Text Encoding and Interchange (TEI P3), die auch eine DTD für (Print-)Wörterbücher enthalten.

Zusammenfassung der Kapitel

1. Einleitung: Einführung in die digitale Transformation der Lexikographie und Definition der zentralen Forschungsfrage zur Erstellung eines Wörterbuchs aus einem elektronischen Textkorpus.

2. Vom Korpus zum Wörterbuch – drei Schritte: Detaillierte Analyse der drei Kernbereiche Modellierung, Stichwortauswahl und Artikelproduktion, ergänzt um spezifische Überlegungen zum Schweizer Text Korpus.

3. Schluss: Zusammenfassende Betrachtung der Ergebnisse, bei der die Notwendigkeit menschlicher lexikographischer Kompetenz trotz zunehmender Automatisierung betont wird.

Schlüsselwörter

Korpuslinguistik, Lexikographie, elektronisches Wörterbuch, XML, Datenmodellierung, Stichwortauswahl, Artikelproduktion, Schweizer Text Korpus, Automatisierung, TEI, Wortschatzinformationssystem, Lemma, Lemmatisierung, medienneutraler Prozess, Computerlinguistik.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit untersucht, wie moderne computergestützte Verfahren den Prozess der Wörterbuchherstellung verändern und welche Schritte notwendig sind, um aus digitalen Textkorpora hochwertige elektronische Wortschatzinformationssysteme zu erstellen.

Welche zentralen Themenfelder werden bearbeitet?

Im Zentrum stehen die drei wesentlichen Etappen der lexikographischen Arbeit: die Modellierung der Datenbasis (Strukturierung), die Auswahl der Lemmata (Stichworte) und die Produktion der eigentlichen Wörterbuchartikel.

Was ist das primäre Ziel der Forschungsarbeit?

Das Ziel ist es, die Möglichkeiten und Grenzen der Automatisierung bei der Wörterbucherstellung zu analysieren und zu zeigen, wo trotz technischer Unterstützung weiterhin fachliche, lexikographische Kompetenz zwingend erforderlich ist.

Welche wissenschaftlichen Methoden werden verwendet?

Die Arbeit basiert auf einer fundierten Literaturanalyse und einer kritischen Auseinandersetzung mit existierenden Projekten (insbesondere elexiko) sowie der Anwendung dieser Erkenntnisse auf die spezifischen Anforderungen des Schweizer Text Korpus.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in drei Abschnitte, die jeweils das Ziel, die detaillierte Vorgehensweise und die spezifische Anwendung auf das Schweizer Text Korpus für die Bereiche Modellierung, Stichwortauswahl und Artikelproduktion beleuchten.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit lässt sich durch Begriffe wie Korpuslinguistik, XML-Modellierung, elektronische Lexikographie, automatisierte Stichwortkandidatengenerierung und die medienneutrale Datenaufbereitung beschreiben.

Wie unterscheidet sich die Stichwortauswahl in der elektronischen Lexikographie von der traditionellen?

Im Gegensatz zum starren alphabetischen Vorgehen gedruckter Werke erlaubt die digitale Form eine dynamischere und korpusbasierte Auswahl, bei der Stichworte direkt aus dem Korpus gewonnen und ergänzt werden können.

Warum wird die XML-Modellierung als so wichtig erachtet?

Eine saubere XML-Modellierung ist entscheidend, um Daten strikt von der Präsentationsebene zu trennen, was die Voraussetzung für flexible Suchmöglichkeiten und eine langfristige, medienneutrale Datenhaltung schafft.

Welche Herausforderungen bestehen bei der Arbeit mit der TEI-DTD?

Die TEI-Richtlinien werden als sehr flexibel, aber teilweise als zu allgemein kritisiert, da sie ursprünglich an Printwörterbüchern orientiert sind und für hochspezialisierte, korpusbasierte Systeme oft eine spezifische Anpassung oder eine vollständige Eigenentwicklung erfordern.

Welche Empfehlung gibt der Autor für die Artikelproduktion?

Der Autor empfiehlt eine schrittweise Artikelproduktion nach thematischen Teilbereichen und den Aufbau einer integrierten „Entwicklungsumgebung“, die Suchwerkzeuge und XML-Editoren vereint, um Fehlerquellen bei der manuellen Übertragung von Daten zu minimieren.

Excerpt out of 29 pages - scroll top

Details

Title: Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion
College: University of Basel (Deutsches Seminar)
Course: Seminar: Lexikographie und empirische Linguistik
Grade: 5.5
Author: Lukas Stöcklin (Author)
Publication Year: 2007
Pages: 29
Catalog Number: V113583
ISBN (eBook): 9783656966432
ISBN (Book): 9783656966449
Language: German
Tags: Korpus Wörterbuch Seminar Lexikographie Linguistik
Product Safety: GRIN Publishing GmbH

Quote paper: Lukas Stöcklin (Author), 2007, Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion, Munich, GRIN Verlag, https://www.grin.com/document/113583

Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion