Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion


Seminararbeit, 2007

29 Seiten, Note: 5.5


Leseprobe

Inhaltsverzeichnis

1. Einleitung
1.1. Fragestellung
1.2. Grundlagen

2. Vom Korpus zum Wörterbuch – drei Schritte
2.1. Die Modellierung lexikographischer Daten
2.1.1. Ziel der Modellierung
2.1.2. Die Modellierung im Detail
2.1.3. Die Modellierung für das Schweizer Text Korpus
2.2. Die Auswahl der Stichworte
2.2.1. Ziel der Stichwortauswahl
2.2.2. Die Stichwortauswahl im Detail
2.2.3. Die Stichwortauswahl für das Schweizer Text Korpus
2.3. Die Artikelproduktion
2.3.1. Ziel der Artikelproduktion
2.3.2. Die Artikelproduktion im Detail
2.3.3. Die Artikelproduktion für das Schweizer Text Korpus

3. Schluss

Literaturverzeichnis

1. Einleitung

1.1. Fragestellung

Es ist wohl unbestritten: der Computer hat die Sprachwissenschaft in den letzten Jahrzehnten nachhaltig verändert. Als Teilbereich der Linguistik erfuhr auch die Lexikographie einen Wandel. Nebst neuen Chancen und Möglichkeiten, die sich durch die digitale Bearbeitung von Sprachdaten eröffnen1, hat sich auch der Prozess zur Herstellung eines Wörterbuchs gewandelt, wobei dies in besonderem Masse für korpusbasierte Lexika gilt:

„Die folgenschwersten Änderungen bringt der Computereinsatz für die korpusbasierte Lexikografie mit sich, gleich welche mediale Form das Endprodukt haben soll. Belegkorpora verschwinden und die Arbeit des Exzerpierens entfällt, wo ganze Texte digitalisiert werden oder als solche schon in den lexikografischen Prozess übernommen werden können. Die für die Arbeit notwendigen Belege werden aus möglichst grossen digital gespeicherten Textmengen mittels spezieller Suchprogramme herausgeholt und können auch unmittelbar in das Wörterbuchmanuskript hinein kopiert werden.“ (Haß-Zumkehr 2001a, 364f.)

Im angeführten Zitat wird deutlich, dass sich mit einem entsprechend aufbereiteten Korpus neue Wege für die Lexikographie erschliessen. In der vorliegenden Arbeit wird der Versuch unternommen, diese neuen Wege anhand der einzelnen Arbeitsschritte, die vom digitalen Korpus zum Wörterbuch führen, nachzuvollziehen und kritisch zu beleuchten. Die Grundfrage der Arbeit lautet: Welche Schritte sind bei der Erstellung eines Wörterbuchs aus einem elektronischen Textkorpus zu bewältigen?

Die einzelnen Etappen werden auf drei Ebenen betrachtet. Zunächst wird jeder Schritt kurz skizziert. Wozu braucht es den Schritt überhaupt, was ist das grundsätzliche Ziel? Danach folgt eine detaillierte Analyse, die hauptsächlich von zwei Fragen bestimmt wird: Inwiefern lässt sich der jeweilige Arbeitsschritt automatisieren und wo ist nach wie vor lexikographische Kompetenz erforderlich? Die Diskussion der einzelnen Punkte wird schliesslich mit einigen praktischen Überlegungen zum Projekt SCHWEIZER TEXT KORPUS abgerundet, einem Teilprojekt des DWDS (D igitales W örterbuch der D eutschen S prache). Das Schweizer Text Korpus verfolgt das Ziel, die Schweizer Standardsprache des 20. Jahrhunderts möglichst ausgewogen zu erfassen. Auf der Grundlage des Korpus, das sich momentan im Aufbau befindet, soll später ein digitales Wörterbuchsystem erstellt werden. Die hier angestellten Überlegungen könnten für den weiteren Verlauf des Projekts also von Interesse sein.2

1.2. Grundlagen

Bevor die Diskussion der einzelnen Arbeitsschritte in Angriff genommen wird, seien hier zunächst einige grundsätzliche Bemerkungen festgehalten, um den Rahmen der Arbeit abzustecken.

Der Gegenstand der Arbeit befindet sich zwischen den linguistischen Teilbereichen der Korpuslinguistik, der Computerlinguistik und der Lexikographie, wobei das Hauptaugenmerk auf letzterer liegen soll. Die Schwierigkeiten bei der Annotation elektronischer Korpora sowie die technische Konzeption von Suchwerkzeugen werden im Rahmen dieser Arbeit nicht behandelt. Diese Themen gäben genügend Material für je eigenständige Untersuchungen. Für die hier angestellten Überlegungen werden ein annotiertes Korpus und die entsprechende Abfragesoftware vorausgesetzt. Bei den Schritten, die insbesondere unter dem Gesichtspunkt der Automatisierung von der Qualität des Korpus und der Suchwerkzeuge abhängig sind, wird darauf hingewiesen.

Der Schwerpunkt der Arbeit soll also auf dem lexikographischen Prozess liegen. Jener wiederum soll anhand der Klassifikation von Müller-Spitzer (2003) noch etwas genauer charakterisiert werden. Zunächst stellt sich die Frage, was für ein Wörterbuch (oder besser: Wortschatzinformationssystem3 ) angestrebt wird: ein automatisch erstelltes oder ein lexikographisch bearbeitetes? Als Endziel soll ein lexikographisches Wortschatzinformationssystem, also ein System, „dessen zugreifbare Daten lexikographisch bearbeitet sind“4, gesetzt werden. Es soll jedoch diskutiert werden, inwiefern die Datengrundlage des Wörterbuchs (teil-)automatisch erstellt werden kann. Weiterhin soll die Datenbasis medienneutral vorliegen, wobei das vorrangige Publikationsziel ein elektronisches ist. Somit ist der lexikographische Prozess nach Müller-Spitzer ein medienneutral konzipierter Prozess mit dem Ziel, die Daten vorrangig in elektronischer Form zu publizieren,5 wobei das Publizieren an sich im Rahmen dieser Arbeit nicht betrachtet wird. Der Prozess und zugleich der Gegenstandsbereich der Arbeit werden in Abbildung 1 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Vom Korpus zum elektronischen Wörterbuch mit medienneutralen Daten *** markiert den im Rahmen dieser Arbeit behandelten Bereich

Schliesslich soll noch die grundsätzliche Konzeption des Wörterbuchs erläutert werden. Im Rahmen dieser Arbeit wird ein möglichst allgemeines Wörterbuch mit einer möglichst vielfältigen Datenbasis angestrebt. Die Konzeption wird bewusst offen gehalten.

Dies hat seinen Grund auch darin, dass im Folgenden viel Forschungsliteratur, die im Rahmen des Projekts „ elexiko – Wissen über Wörter“ entstanden ist, rezipiert wird. elexiko ist ein Projekt des IDS Mannheim, das zum Ziel hat, „auf dem aktuellen Stand der lexikografischen, lexikologischen und korpus-linguistischen Forschung und Methodik ein langfristig angelegtes Nachschlageinstrument zu Fragen des deutschen Gegenwartswortschatzes zu entwickeln, es auszubauen und immer wieder zu aktualisieren“ (Haß-Zumkehr 2005, 1). Im Grunde genommen implementiert elexiko den in Abbildung 1 dargestellten lexikographischen Prozess. Aus den IDS-Korpora (mit derzeit rund 1,3 Milliarden Textwörtern) soll ein Wortschatzinformationssystem mit medienneutralen Daten entstehen, das möglichst viel Information zur Verfügung stellt:

„Im Ergebnis kann man elexiko grundsätzlich bei der Textproduktion, bei der Textrezeption und zum Zwecke des Wortschatzlernens nutzen, als Rechtschreibewörterbuch, als rückläufiges Wörterbuch, als Bedeutungswörterbuch, als grammatisches Wörterbuch, als Wortbildungswörterbuch, als Kollokationswörterbuch, als onomasiologisches Wörterbuch, als phraseologisches Wörterbuch und/oder als Belegwörterbuch.“ (Haß-Zumkehr 2005, 3)

Es ist nicht das Ziel dieser Arbeit, das Projekt elexiko zu bewerten. Vielmehr sollen die wertvollen Impulse, die aus diesem Projekt bereits hervorgegangen sind, zusammengetragen werden, und – wo möglich – mit anderen Ansätzen kontrastiert werden. Daraus soll eine theoretische Beschreibung des Vorgangs vom Korpus zum elektronischen Wortschatzinformationssystem hervorgehen.

2. Vom Korpus zum Wörterbuch – drei Schritte

2.1. Die Modellierung lexikographischer Daten

Die Modellierung der lexikographischen Datenbasis ist stark von der grundsätzlichen Konzeption des Wörterbuchs abhängig. In einem etymologischen Wortschatzinformationssystem werden die Daten anders modelliert als in einem Bedeutungswörterbuch. Zudem ist die Komplexität der Modellierung direkt von der Informationsdichte abhängig. Je mehr Information in einem Wörterbuch zur Verfügung gestellt werden soll, desto komplexer wird die Modellierung. Da, wie in der Einleitung erläutert, die Konzeption des Wörterbuchs relativ offen ist, kann am Ende dieses Kapitels keine fertige Modellierung präsentiert werden (etwa in Form einer XML-DTD). Vielmehr geht es um die theoretische Diskussion der Grundlagen, die bei einer konkreten Modellierung lexikographischer Daten berücksichtigt werden müssen.

2.1.1. Ziel der Modellierung

Die Modellierung der Datenbasis ist der Grundstein des lexikographischen Prozesses. Das Hauptziel der Modellierung im medienneutralen Prozess ist es, einen möglichst flexiblen Zugriff auf die Daten zu ermöglichen. Mit anderen Worten: Durch die Modellierung soll die Datenbasis strikt von der Präsentationsebene getrennt werden. Es soll die Grundvoraussetzung dafür geschafft werden, dass dieselben Daten später unterschiedlich präsentiert werden können.6 Zudem ermöglicht eine genaue Strukturierung der Daten vielfältige Suchmöglichkeiten – einer der Kernvorteile elektronischer Wörterbücher.7

Die Trennung der Daten von der Präsentationsebene lässt sich am besten in XML realisieren. Die XML-Modellierung bringt dabei noch weitere Vorteile, wie etwa eine langfristige und plattformunabhängige Datenhaltung, mit sich. Zudem kann eine genaue Modellierung das Erstellen der Wörterbuchartikel unterstützen, indem die Lexikographen zur Einhaltung einer gewissen Struktur gezwungen werden.8

Vielleicht drängt sich die Frage auf, inwiefern die Datenmodellierung in das Aufgabengebiet der Lexikographie fällt. Zugegebenermassen erfordert die Modellierung elektronischer Daten – seien es lexikographische oder andere – und der damit verbundene Aufbau einer Datenbankumgebung ein hohes Mass an computertechnischer Kompetenz. Die Modellierung kann und darf aber aus lexikographischer Sicht nicht vernachlässigt werden. Haß-Zumkehr (2001b, 106) betont etwa, „dass das Festlegen einer einheitlichen Datenstruktur und das Festlegen eines Datenbankmodells […] sich als eine durch und durch lexikografische Tätigkeit erweisen“. Gemessen an dem, was man sich von der elektronischen Lexikographie erhofft9, steckt diese Disziplin noch in den Kinderschuhen. Gerade deshalb ist die Beteiligung der Linguistik an der Datenmodellierung von entscheidender Wichtigkeit:

„Wenn wir, die Linguistinnen und Lexikografen, uns jetzt nicht um angemessene Hypertext-Konzepte lexikologischen Wissens [damit ist auch und gerade die Modellierung der lexikographischen Datenbasis gemeint, Anm. d. Verfassers] kümmern, werden Fachfremde dies tun und dabei Standards schaffen, die wir später kaum wieder werden ausser Kraft setzen können.“ (Haß-Zumkehr 2001b, 113)

Die Datenmodellierung ist also von entscheidender Bedeutung. Sie entscheidet darüber, „wie flexibel auf die Daten zugegriffen werden kann und wie unterschiedlich darstellbar sie sind“ (Müller-Spitzer 2006, 1). Was in der Modellierung vergessen geht, kann später nicht mehr gesucht oder unterschiedlich dargestellt werden. Eine schlechte Modellierung hat letztlich zur Folge, dass die eigentlichen Vorteile, die ein elektronisches Wörterbuch mit sich bringt, verloren gehen.

2.1.2. Die Modellierung im Detail

Dass sich für den medienneutralen lexikographischen Prozess eine Modellierung der Daten in XML anbietet, wurde bereits angesprochen.10 Das Modellieren entspricht letztlich also dem Erarbeiten einer XML-DTD oder eines XML-Schemas. Die Vor- und Nachteile einer DTD gegenüber einem Schema spielen in dieser Arbeit eine untergeordnete Rolle. In elexiko wurden die Daten in einer DTD modelliert, „da DTDs besser zu ‚lesen’“ (Müller-Spitzer 2005a, 28) und damit auch für Nicht-Informatiker verständlich sind. Doch letztlich ist es nicht von entscheidender Bedeutung, ob die Daten in einer DTD oder einem Schema modelliert werden. Beide eigenen sich dazu, die Struktur gegebener XML-Instanzen – in diesem Fall Wörterbuchartikel – festzulegen. Im Folgenden wird nur noch von einer zu entwickelnden DTD die Rede sein. Die Überlegungen gelten aber auch für das Schema.

Die Automatisierung bei der Datenmodellierung erscheint zunächst hinfällig. Es ist klar, dass die Entwicklung einer DTD (lexikographische) Handarbeit erfordert. Es stellt sich aber die Frage, ob die DTD in eigener Regie entwickelt werden soll, oder ob auf eine Standard-Modellierung zurückgegriffen werden kann, und wenn ja, welche Vor- und Nachteile eine solche mit sich bringt.

Für die Modellierung lexikographischer Daten bietet sich die DTD der TEI (T ext E ncoding I nitiative) an. Die TEI ist ein 1988 gegründetes Projekt, welches das Ziel verfolgt, „Richtlinien für die Auszeichnung verschiedener Texttypen aus dem geisteswissenschaftlichen Bereich zur Verfügung zu stellen“ (Schmidt/Müller 2001, 37). Im Mai 1994 erschienen die Guidelines for Electronic Text Encoding and Interchange (TEI P3), die auch eine DTD für (Print-)Wörterbücher enthalten.11

Der grösste Vorteil der TEI-Modellierung liegt auf der Hand. Es handelt sich um eine vorgefertigte DTD, die bei Bedarf auch angepasst werden kann. Das Erarbeiten einer DTD ist eine zeitaufwendige und anspruchsvolle Angelegenheit. Mit den Richtlinien der TEI können Lexikographen auf eine von Fachleuten entwickelte Modellierung zurückgreifen, die zudem international standardisiert ist. Die Standardisierung ist insbesondere dann wichtig, wenn ein reibungsloser Datenaustausch zwischen verschiedenen Projekten gewährleistet werden soll. Des Weiteren ist das Arbeiten mit den TEI-Richtlinien bereits praxiserprobt und die Erfahrungen sind in der Forschung dokumentiert.12 Etwas salopp formuliert könnte man sagen, dass die TEI-DTD nicht nur auf dem Papier existiert, sondern tatsächlich dazu taugt, lexikographische Daten zu modellieren. Diesen Beweis muss eine Eigenentwicklung erst erbringen.

Doch natürlich hat die TEI-Modellierung auch Nachteile. Zum einen sind die TEI-Richtlinien primär an Printwörterbüchern orientiert. Dadurch eignet sich die TEI-DTD zur Retrodigitalisierung bestehender Wörterbücher. Burch und Fournier, die von der „Anwendung der TEI-Richtlinien bei der Retrodigitalisierung mittelhochdeutscher Wörterbücher“ (Burch/Fournier 2001) berichten, ziehen eine durchaus positive Bilanz:

„Probleme mit der Anwendung der Richtlinien auf die mittelhochdeutschen Wörterbücher ergeben sich nur zu einem geringen Teil durch die Architektur von SGML [dem Vorgänger von XML, Anm. d. Verfassers] oder die DTD der TEI […]. Die eingangs formulierte Erwartung, die auf ein zügiges Voranschreiten des Projekts durch den Einsatz der bereits in vielfältigen Anwendungen erprobten TEI-DTDs gerichtet war, hat sich voll und ganz bestätigt.“ (Burch/Fournier 2001, 150f.)

Um die Vorteile der elektronischen Lexikographie wirklich auszunützen, ist indes eine Modellierung nötig, die unabhängig von der Darstellung ist.13 Die starke Anlehnung an Printwörterbücher hat zur Folge, dass diese Trennung nicht genügend strikt ist. Zudem ist es fraglich, ob für ein Wörterbuch, das vorrangig in elektronischer Form publiziert werden soll, eine an herkömmlichen Wörterbüchern orientierte Modellierung adäquat ist.

Eine weitere, weit grössere Schwierigkeit stellt die Allgemeinheit der TEI-Richtlinien dar. Die Modellierung der Wörterbücher erhebt den Anspruch, „alle modernen Wörterbücher westlicher Sprachen mittleren Umfangs abzubilden“ (Schmidt/Müller 2001, 38). Daraus ist ein unvermeidlicher „conflict between generality and precision “ (Tutin/Véronis 1998, 7) entstanden, der aufgrund des Anspruchs, allgemein gültig zu sein, tendenziell eher zu Ungunsten der „precision“ gelöst wurde. Die TEI-DTD ist also eine sehr „weiche“ Modellierung, die in der Umsetzung eines Wörterbuchs sehr flexibel gehandhabt werden kann. Auch wenn der Wunsch nach allgemeiner Gültigkeit legitim ist, kann eine zu grosse Flexibilität für elektronische Wörterbücher, die eine möglichst konsistente und wohlstrukturierte Datenbasis erfordern, zu erheblichen Problemen führen. Dazu ein Beispiel aus Schmidt/Müller (2001).14

Die TEI-Modellierung lässt verschiedene Varianten zu, grammatische Informationen zu modellieren. Es gibt Elemente, die grammatische Angaben zu einem <form>-Element auszeichnen. Zu dieser Gruppe gehört das Element <gram>, das für alle Typen von Grammatikangaben verwendet werden kann. Der Angabetyp wird dabei über ein type-Attribut definiert. Ein (stark verkürzter) Beispielartikel könnte demnach so aussehen:

Abbildung in dieser Leseprobe nicht enthalten

Das <gram>-Element markiert die Wortform. Dieselbe Information lässt sich aber auch ausserhalb des <form>-Elements, im Element <gramGrp>, darstellen. Die Angaben innerhalb von <gramGrp> beziehen sich auf das gesamte Lemma:

Abbildung in dieser Leseprobe nicht enthalten

Als dritte Möglichkeit kann die Wortform innerhalb des <gramGrp>-Elements durch ein spezifisches <pos>-Element, das innerhalb einer <form> nicht verwendet werden darf, ausgezeichnet werden:

Abbildung in dieser Leseprobe nicht enthalten

Das Beispiel verdeutlicht, dass dieselbe Information unterschiedlich dargestellt werden kann. Dies kann dazu führen, dass ein Artikel gemäss der TEI-DTD zwar valide15 ist, jedoch eine andere Struktur aufweist, als die restlichen Artikel der Datenbasis. Die TEI-DTD vermag also die Konsistenz der Daten nicht zu garantieren.

Ein möglicher Ausweg besteht darin, die Richtlinien zum Erstellen der Wörterbuchartikel in einem Handbuch festzuhalten. Dies ist jedoch eine etwas unbefriedigende Lösung. Eine andere Möglichkeit besteht darin, die TEI-DTD zu modifizieren, um die Flexibilität einzuschränken. Dies ist durchaus eine Option, und solange die Anpassung lediglich eine Einschränkung der bestehenden DTD ist, bleibt die modifizierte Modellierung im Rahmen der TEI-Richtlinien. Schwierig wird es jedoch, wenn die TEI-DTD erweitert werden muss. Wie Tutin/Véronis (1998) zeigen, kann dies jedoch durchaus nötig sein.16 Ist eine grundlegende Modifizierung der TEI-DTD nötig, wird eine Projektgruppe nicht umhin kommen, sich über eine eigenständige Modifizierung Gedanken zu machen. Denn unter Umständen kann das Modifizieren einer bestehenden DTD genauso zeitaufwendig sein wie das Entwickeln einer eigenständigen, dafür aber massgeschneiderten Modellierung.

Schmidt/Müller (2001) präsentieren in ihrer Untersuchung ein lexikographisches Modell, das dem Modell von elexiko, und damit auch dem in dieser Arbeit verfolgten Konzept, entspricht. Der Inhalt soll möglichst unabhängig von der Präsentationsebene strukturiert werden. Nach einer eingehenden Diskussion der TEI-Richtlinien kommen sie zum Schluss, „dass die TEI zu flexibel“ (Schmidt/Müller 2001, 46) und deshalb für ein derartiges lexikographisches Modell ungeeignet ist. Dementsprechend ist die Datenmodellierung in elexiko eine vollständige Eigenentwicklung.

Einen Mittelweg versuchen Tutin/Véronis (1998) zu gehen, indem sie vorschlagen, zwei parallele DTDs zu verwenden. Neben der TEI-DTD kann eine proprietäre Modellierung, basierend auf dem TEI-Standard, entwickelt werden. Damit könnte eine konsistente Datenhaltung garantiert werden, ohne auf die Vorteile der Standardisierung zu verzichten. Der Mehraufwand wäre aber erheblich, da Mechanismen entwickelt werden müssten, die eine Konvertierung der Daten von der einen Modellierung zur anderen ermöglichen müssen.17

Für das in dieser Arbeit angestrebte Wortschatzinformationssystem scheinen die TEI-Richtlinien nicht geeignet. Für ein korpusbasiertes Wörterbuch mit medienneutralen Daten ist eine massgeschneiderte Modellierung wohl unabdingbar. Es stellt sich jedoch die Frage, ob die Modellierung in vollständiger Eigenregie erarbeitet wird, oder ob die DTD auf der Basis der TEI-Richtlinien entstehen soll. Eine definitive Antwort auf diese Frage kann nicht gegeben werden. Das Projekt elexiko hat gezeigt, dass eine Eigenentwicklung eine gangbare Lösung ist. Für das in dieser Arbeit geplante Wörterbuch wird deshalb von einer selbst entwickelten DTD ausgegangen.

Im Folgenden soll der wichtigste Grundsatz, den es bei der Modellierung lexikographischer Daten im medienneutralen Prozess zu beachten gilt, erörtert werden. Oberstes Ziel ist eine möglichst granulare Modellierung. Um einen flexiblen Zugriff auf die Daten zu gewährleisten, muss die Möglichkeit bestehen, auf die einzelnen Elemente eines Artikels direkt zuzugreifen. Nur so kann dieselbe Information unterschiedlich dargestellt werden und nur so werden komplexe Suchanfragen möglich.

Müller-Spitzer (2006) stellt in ihrem Aufsatz das Konzept der „Inhaltsstruktur“ vor, das vom Grundsatz her an die Theorie der Mikrostrukturen angelehnt ist.18 Das Konzept fasst sie folgendermassen zusammen:

„Die Modellierung des Inhaltsstrukturenprogramms erfolgt in Form einer XML-DTD (bzw. XML-Schemas), in der alle zulässigen abstrakten hierarchischen Inhaltsstrukturen festgelegt sind. Die lexikografischen Daten zu einem Lemmazeichen in einer zu dieser DTD validen XML-Instanz bilden eine konkrete hierarchische Inhaltsstruktur. Für die Modellierung findet eine funktionale Aufgliederung der zu erstellenden lexikografischen Daten in Klassen von Angabenv 19 mit mindestens einem genuinen Zweck statt. (Müller-Spitzer 2006, 7)

Das Ziel der Modellierung ist es also, eine DTD zu definieren, in der die erlaubten Strukturen festgelegt sind. Diese bildet, in Anlehnung an das Konzept der Mikrostrukturen, die abstrakte hierarchische Inhaltsstruktur. Ein Artikel wiederum ist eine Instanz dieser DTD und damit eine konkrete hierarchische Inhaltsstruktur. Besonders wichtig ist die Aufgliederung in funktionale Elemente. Diese ist als „top-down“ Prozess zu verstehen. Als Wurzel wird das Element <artikel> gesetzt, das in weitere funktionale Elemente aufgeteilt wird. Eine mögliche Modellierung ist die Unterteilung in eine Lemmazeichenangabe, ein Element für allgemeine Angaben (<allgemein>), die auf das Lemma bezogen sind, und ein Element <einzelbedeutung>, das Angaben enthält, die an eine bestimmte Einzelbedeutung gekoppelt sind. Die Elemente <allgemein> und <einzelbedeutung> werden wiederum funktional aufgegliedert. Daraus entsteht eine umgekehrte Baumstruktur, wobei die eigentlichen Angaben (bzw. „Angabenv“) die terminalen Elemente bilden und nicht weiter zerlegbar sind. Abbildung 2 verdeutlicht diese Struktur.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Veranschaulichung der Inhaltsstruktur als Baumstruktur--- markiert Angabenv

Abschliessend soll das Konzept der Inhaltsstrukturen noch von der Mikrostrukturtheorie abgegrenzt werden. Wie die Terminologie zeigt, sind die beiden Konzepte eng verwandt. So wurde die Differenzierung zwischen konkreter und abstrakter hierarchischer Mikrostruktur ebenso auf das Konzept der Inhaltsstrukturen übertragen, wie die Darstellung der Struktur mittels Baumgraphen.20 Dennoch besteht ein wesentlicher Unterschied zwischen dem Konzept der Mikrostruktur und der Modellierung nach dem von Müller-Spitzer vorgestellten Modell. Die Mikrostruktur ist eindeutig auf die Ebene der Präsentation bezogen. Die einzelnen Elemente werden nicht nur funktional, sondern auch positional segmentiert. Wenn es darum geht, die Datenbasis von der Darstellung zu trennen, muss diese positionale Segmentierung wegfallen. Die Modellierung der Datenbasis im medienneutralen Prozess muss ausschliesslich nach funktionalen Gesichtspunkten vollzogen werden.21

Demnach ist das Entwickeln einer Modellierung nicht einfach das Übertragen einer bestehenden Mikrostruktur in eine XML-DTD, wie man auf den ersten Blick vermuten könnte.22 Denn durch die Fixierung auf eine Mikrostruktur wird, wenn nicht explizit, so doch wenigstens implizit, stets die spätere Darstellung mitgedacht. Von dieser jedoch gilt es sich bei der medienneutralen Modellierung zu lösen.

2.1.3. Die Modellierung für das Schweizer Text Korpus

Es sollte klar geworden sein, dass die Modellierung sehr stark von der Konzeption des allfälligen Wörterbuchs abhängig ist. Sollte man sich tatsächlich dazu entschliessen, aus dem Korpus ein elektronisches Wortschatz-informationssystem mit medienneutralen Daten zu entwickeln, ist eine Modellierung der Daten in XML wohl unumgänglich. Dies führt unweigerlich zu der Frage, ob die Daten gemäss den TEI-Richtlinien modelliert werden sollen, oder ob eine eigenständige DTD entwickelt wird. Vor- und Nachteile der TEI-Richtlinien wurden eingehend diskutiert.

Unabhängig von dieser Entscheidung ist davon auszugehen, dass die Modellierung eine sehr zeitaufwendige und arbeitsintensive Angelegenheit ist. Mit der Modellierung wird der Grundstein für das Wörterbuchsystem gelegt. Es ist deshalb ratsam, die Modellierung so früh wie möglich zu beginnen. Diesem Wunsch entgegenkommend ist der Umstand, dass die Modellierung unabhängig davon in Angriff genommen werden kann, ob das Korpus bereits fertig entwickelt ist oder nicht.

Schliesslich empfiehlt es sich, das Entwickeln der DTD als zyklischen Prozess zu planen. Testartikel können anhand einer ersten Modellierung erstellt werden, der Publikationsprozess kann ebenfalls prototypisch simuliert werden. Anhand der Tests kann dann die Modellierung angepasst und auf diese Weise schrittweise verfeinert werden.

2.2. Die Auswahl der Stichworte

Selbstverständlich ist auch die Stichwortauswahl stark von der Konzeption des zu entwickelnden Wörterbuchs abhängig. Doch im Gegensatz zu der Modellierung ist die Auswahl der Lemmata weit stärker vom Korpus abhängig.23 Um den Arbeitsschritt der Stichwortauswahl etwas greifbarer zu machen, wird im Folgenden das Erarbeiten einer Stichwortliste anhand des Projekts elexiko beschrieben.

2.2.1. Ziel der Stichwortauswahl

Das grundsätzliche Ziel der Stichwortauswahl versteht sich von selbst. Das Ansetzen der Lemmata bildet die Grundlage für die Artikelproduktion. Ist die Modellierung die Beschreibung der lexikographischen Daten, markiert die Stichwortliste den Grundstein der konkreten Inhalte.

Es gilt jedoch zu beachten, dass in der elektronischen Lexikographie eine komplette Stichwortliste nicht von unbedingter Notwendigkeit ist, um mit der Wortartikelproduktion zu beginnen.24 Da gegenüber der Printlexikographie die alphabetische (Makro-)Struktur als ordnende Instanz wegfällt, kann die Erstellung der Artikel dynamisch erfolgen. Die Stichwortliste kann während der Artikelproduktion laufend ergänzt werden. Im Extremfall ist ein vollkommen offener Prozess denkbar. Die Lexikographinnen und Lexikographen lassen sich per Zufallsgenerator einen Text aus dem Korpus anzeigen, um diesen nach möglichen Stichworten zu durchsuchen. Sobald ein Textwort gefunden wird, das im Wörterbuch noch nicht als Lemma angesetzt ist, erfolgt die Artikelproduktion. Dadurch würde die Stichwortauswahl vollkommen in die Erstellung der Artikel integriert.

Auch wenn eine solche Vorgehensweise theoretisch möglich ist, ist ein derart dynamischer Prozess kaum empfehlenswert. Eine Stichwortliste muss immer „eine konzeptionell begründete Auswahl [Hervorhebung im Original] aus dem gegen unendlich gehenden Wortbestand einer Sprache“ (Schnörch 2005a, 72) bleiben. So kommt man auch in einem dynamischen Prozess nicht umhin, gemäss der Konzeption des Wörterbuchs Kriterien für die Stichwortauswahl festzulegen. Das dynamische Vorgehen kann indes nicht garantieren, dass die Liste und damit auch die Wortartikelproduktion jemals abgeschlossen werden. Es empfiehlt sich stattdessen, vor der Erstellung der Artikel eine Stichwortauswahl zu treffen, die zumindest im Sinne der Konzeption vollständig ist.

Hinzu kommen zwei weitere Gründe, die gegen das dynamische Konzept sprechen. Zum einen besteht die Möglichkeit (sofern das Korpus entsprechend aufbereitet ist), Wortartikel teilautomatisch zu erstellen.25 Diese Automatisierung ist jedoch nur dann sinnvoll, wenn die Stichwortauswahl komplett ist. Zum anderen können die Möglichkeiten des Hypertextes, also das Verlinken der Artikel untereinander, erst dann erfolgen, wenn die Grundstruktur in Form der Stichwortliste vorliegt.26

2.2.2. Die Stichwortauswahl im Detail

elexiko ist ein korpusbasiertes Wortschatzinformationssystem. Aus diesem Grund hat man sich dagegen entschieden, die Stichworte aus bestehenden Listen zusammenzustellen. Vielmehr soll die Stichwortliste komplett aus dem Korpus erstellt werden. Dieses Vorgehen ist insofern sinnvoll, als dadurch das Ansetzen von Lemmata, zu denen es keinen Beleg im Korpus gibt, verhindert wird. Zudem bietet dieses Konzept zwei entscheidende Vorteile:

„Es werden keine Wörterbuchleichen aus anderen Listen übernommen, stattdessen können jedoch Lücken entdeckt und gefüllt werden.“ (Schnörch 2005a, 74)

Dafür besteht die Schwierigkeit dieser Vorgehensweise darin, dass aus einer Unmenge an Textwörtern, die im Korpus vertreten sind, die eigentlichen Stichworte eruiert werden müssen. Um diesen aufwendigen Arbeitsschritt zu bewältigen, wurde er in zwei Teilschritte gegliedert: einen automatischen und einen manuell zu bewältigenden Teilschritt.27

Das Ziel des ersten, automatischen Teilschritts ist es, aus dem Korpus eine Liste mit „Stichwortkandidaten“ zu generieren. Diese Kandidatenliste soll die Grundlage der definitiven Stichwortliste bilden. Das automatische Exzerpieren der Kandidaten ist eine Aufgabe, die in den Bereich der Computer- und der Korpuslinguistik fällt. Deshalb wird auf eine eingehende Diskussion verzichtet. Stark vereinfacht lässt sich der Teilschritt folgendermassen zusammenfassen: Mithilfe eines Lemmatisierers werden die Textworte des Korpus auf ihre Grundform zurückgeführt. Ab einer bestimmten Vorkommenshäufigkeit wird eine Grundform in die Liste der Kandidaten aufgenommen. Die Entwickler von elexiko entschieden sich weiterhin dazu, die erstellte Vorauswahl mit Listen anderer Wörterbücher abzugleichen, um „die Zahl insbesondere formal fehlerhaft angesetzter Stichwortkandidaten einzugrenzen“ (Schnörch 2005a, 76).

Der wichtigste Aspekt des ersten Teilschritts ist die automatische Lemmatisierung. Diese ist wiederum von der Qualität des Korpus abhängig. Ist das Korpus schlecht annotiert, wird der Lemmatisierer eine hohe Fehlerquote aufweisen. Die Grundlage der Stichwortauswahl, nämlich das automatische Exzerpieren der Kandidaten, ist also in hohem Masse von der Mächtigkeit des Lemmatisierungsprogramms und der Beschaffenheit des Korpus abhängig.

Basierend auf dieser Grundlage erfolgt der zweite, manuelle Teilschritt. Da selbst qualitativ hochwertige Lemmatisierer nach wie vor fehlerbehaftet sind, muss die Kandidatenliste redaktionell nachbearbeitet werden. Grundsätzlich geht es darum, die richtigen Stichworte von den falschen zu trennen.

Ein Stichwort kann aus zwei Gründen gestrichen werden. Einerseits kann es vorkommen, dass sich durch fehlerhafte Lemmatisierung formal falsche Stichworte unter den Kandidaten einschleichen. Nach der automatischen Lemmatisierung fand sich etwa der durchaus originelle Begriff Denkmalgeschütz unter den möglichen elexiko -Stichworten.28 Diese Begriffe können relativ einfach ausgeschieden werden. Andererseits kann es aber auch vorkommen, dass ein Begriff nicht dem Stichwort-Konzept des Wörterbuchs entspricht. Die Kandidaten müssen also daraufhin überprüft werden, ob sie dem Lemmatisierungskonzept – das natürlich vorher erarbeitet werden muss – entsprechen. Es ist klar, dass diese Überprüfung ein hohes Mass an lexikographischer Kompetenz erfordert.

Im Rahmen dieser Arbeit wird darauf verzichtet, ein komplettes Lemmatisierungskonzept vorzustellen. Es soll jedoch darauf hingewiesen werden, dass dem Lemma in der elektronischen Lexikographie eine andere Bedeutung zukommt als in der traditionellen Wörterbuchtheorie.29 Ein gewichtiger Unterschied ist, dass das Stichwort in einem elektronischen Wörterbuch nur eine Zugriffsstruktur unter vielen ist. In einem gedruckten Wörterbuch ist das Lemma aufgrund der makrostrukturellen Anordnung die einzige Möglichkeit, Informationen zu finden. Das Stichwort hat in der elektronischen Lexikographie also eine weniger herausragende Stellung als in der Printlexikographie.

Weiterhin kann das Stichwort in einem elektronischen Wörterbuch ohne Zusatzinformationen (z.B. Silbentrennungsangaben) wiedergegeben werden. Dies ist insbesondere deshalb möglich, weil sich das Problem der Verdichtung nicht, oder nur in beschränktem Masse stellt. Grundsätzlich entspricht das Stichwort also dem Lemmazeichen (als Lemmazeichengestaltangabe).30

Konsequent weitergedacht bedeutet dies, dass in einem elektronischen Wörterbuch keine flektierten Formen als Stichwörter angesetzt werden müssen. Findet man in Printwörterbüchern häufig Verweisartikel (etwa sah zu sehen), kann dies in einem digitalen Wörterbuchsystem über die Suchmaschine geregelt werden. Gibt ein Benutzer eine flektierte Form (z.B. „sah“) als Suchbegriff ein, wird er automatisch zum richtigen Artikel geleitet. Das Stichwort ist dementsprechend nur die Grundform (in diesem Fall „sehen“), ohne Zusatzinformationen.31 In elexiko wurde deshalb die Unterscheidung zwischen Stich- und Suchwort eingeführt. Ein Stichwort ist in der Regel eine Grundform. Alle Stichwörter sind zugleich Suchwörter, da die Eingabe eines Stichworts als Suchbegriff automatisch zu einem bestimmten Artikel führt. Einem Stichwort können Suchwörter zugeordnet werden, die als Suchbegriffe zu demselben Artikel führen wie das Stichwort, jedoch nicht den Status eines Stichworts haben.32

Damit sei die Diskussion der Stichwortauswahl abgeschlossen. Wie das Vorgehen der Entwickler von elexiko gezeigt hat, ist eine Teilautomatisierung der Stichwortauswahl möglich. Entscheidet man sich dazu, die Stichwortliste komplett korpusbasiert zu erstellen, ist die Automatisierung sogar unabdingbar. Denn eine manuelle Auswahl der Stichworte aus dem Korpus ist kaum zu bewältigen. Trotz der Automatisierungsmöglichkeiten erfordert die Stichwortauswahl lexikographische Handarbeit. Durch eine redaktionelle Überarbeitung der automatisch generierten Liste müssen fehlerhafte Lemmata ausgeschieden werden. Zugleich muss überprüft werden, ob die formal korrekten Stichwörter dem Lemmatisierungskonzept, das dem Wörterbuch zugrunde liegt, entsprechen.

2.2.3. Die Stichwortauswahl für das Schweizer Text Korpus

Als erster Schritt muss für das zu entwickelnde Wörterbuch ein eindeutiges Lemmatisierungskonzept ausgearbeitet werden. Die wichtigsten Unterschiede zwischen elektronischer Lexikographie und Printwörterbüchern wurden diskutiert. Von Vorteil ist, dass das Konzept unabhängig vom Korpus entwickelt werden kann.

Als nächstes muss entschieden werden, ob die Stichwortliste aus bestehenden Wörterbüchern zusammengesetzt werden, oder ob die Stichwortauswahl komplett korpusbasiert erfolgen soll. Das Zurückgreifen auf bestehende Listen hätte den Vorteil, dass auch die konkrete Auswahl der Stichworte, analog dem Lemmatisierungskonzept, unabhängig davon erfolgen kann, ob das Korpus fertig entwickelt ist. Da das Schweizer Text Korpus jedoch die Schweizer Standardsprache abdeckt, stellt sich die Frage, ob überhaupt zuverlässige Stichwortlisten zu diesem Wortschatzbereich existieren. Zudem müsste entschieden werden, was mit allfälligen Lemmata, die nicht im Korpus belegt sind, geschehen soll. Insgesamt erscheint das Zusammenstellen der Stichworte aus bestehenden Listen also wenig sinnvoll.

Grundbedingung für die korpusbasierte Erstellung einer Stichwortliste sind indes ein mächtiges Lemmatisierungsprogramm und eine hohe Qualität des Korpus. Denn sonst könnte das automatische Exzerpieren einer Kandidatenliste nicht erfolgen. Es scheint also empfehlenswert, viel Energie in die Entwicklung des Korpus und entsprechender Abfragesoftware zu stecken. Ansonsten bliebe nur das vollkommen dynamische Konzept als Alternative, das aus den genannten Gründen jedoch kaum empfehlenswert ist. Hinzu kommt, dass das Schweizer Text Korpus kein Monitorkorpus ist. Es kann also nicht geschehen, dass plötzlich neue Stichwortkandidaten auftreten. Deshalb empfiehlt es sich, eine möglichst komplette Stichwortliste vor der eigentlichen Artikelproduktion zu erstellen.

2.3. Die Artikelproduktion

2.3.1. Ziel der Artikelproduktion

Die Artikelproduktion bildet gleichsam den Kern des lexikographischen Prozesses, dessen Basis die Modellierung und die Stichwortauswahl sind. Die Modellierung legt fest, wie die Datenbasis strukturiert ist, die Stichwortauswahl bildet den Grundstein der konkreten Inhalte. Das eigentliche Ziel der Artikelproduktion ist es, diesen Grundstein auszubauen, die Datenbasis mit detaillierten und vor allem korpusbasierten Inhalten anzureichern.

Zudem kann die Artikelproduktion als Prüfstein für die Modellierung angesehen werden. Die Erstellung der einzelnen Artikel ist in besonderem Masse von derselben abhängig. Die Artikelproduktion ist die konkrete Umsetzung der zuvor erarbeiteten Modellierung. Zu der entwickelten DTD werden Wortartikel in Form von XML-Instanzen erzeugt. Eine gute Modellierung schränkt die Lexikographen und Lexikographinnen so stark ein, dass keine inkonsistenten Artikel entstehen können. Zugleich muss sie aber so ausführlich sein, dass alle relevanten Informationen dargestellt werden können. In den meisten Fällen ist davon auszugehen, dass die Artikelproduktion unweigerlich zu Anpassungen der Modellierung führen wird.

2.3.2. Die Artikelproduktion im Detail

Es ist klar, dass für die Artikelproduktion lexikographische Kompetenz erforderlich ist. Ein beschränktes Mass an Automatisierung ist jedoch auch hier möglich. Aus jedem Stichwort kann in einem ersten Schritt eine XML-Instanz, als leerer Artikelrumpf, angelegt werden.33 Dieser Artikelrumpf kann anschliessend mit Angaben erweitert werden, die automatisch aus dem Korpus extrahiert werden. Welche Angaben wie zuverlässig erhoben werden können, ist indes von der Qualität des Korpus und den dazugehörigen Suchwerkzeugen abhängig. In elexiko konnten lediglich orthographische Angaben und Angaben zur Worttrennung automatisch in die ‚Minimalartikel’ übertragen werden.34

Diese Art der Artikelproduktion kann als ‚horizontaler’ Informationsausbau bezeichnet werden. Der gesamte Stichwortbestand wird automatisch mit Informationen ergänzt. Demgegenüber steht der ‚vertikale’ Ausbau der Datenbasis. Vertikal meint dabei ‚in die Tiefe gehend’. Ein Artikel wird manuell, also von einem Lexikographen oder einer Lexikographin, möglichst ausführlich mit korpusbasierten Angaben erweitert. Der vertikale Ausbau kann demnach als das eigentliche Verfassen der Wortartikel angesehen werden.

Dabei besteht jedoch ein entscheidender Unterschied zur Artikelproduktion in der Printlexikographie. Die Artikel von Printwörterbüchern sind von ihrer mikro- und makrostrukturellen Darstellung abhängig. Artikel zu schreiben bedeutet in der Regel, die Lemmaauswahl alphabetisch von A bis Z abzuarbeiten. Ein einzelner Artikel besteht dabei nicht nur aus den lexikographischen Angaben, sondern auch aus Strukturanzeigern. Diese starke Abhängigkeit fällt in der elektronischen Lexikographie weg. Die mikrostrukturellen Informationen sind an die Modellierung gebunden und die alphabetische Anordnung der Stichwörter fällt ganz weg. Etwas überspitzt formuliert bedeutet dies, dass sich der Lexikograph nicht um Mikro- und Makrostruktur zu kümmern braucht. Die Stichwortliste kann nach inhaltlichen und thematischen Teilbereichen abgearbeitet werden. Einen einzelnen Artikel zu erstellen bedeutet, die in der Modellierung vorgesehenen Angaben zu komplettieren.

Wesentlich bei der Artikelproduktion ist die Korpusbasiertheit. Wie bereits mehrfach erwähnt, soll die lexikographische Datenbasis komplett aus dem Korpus erarbeitet werden. Dies bedeutet, dass der eigentliche Ausgangspunkt der Artikelproduktion eine eingehende Korpusanalyse ist. Für ein Stichwort wird eine Kookkurrenzliste erstellt, die „gleichsam den roten Faden“ (Schnörch 2005b, 114) für die Erstellung des Wortartikels bildet. Ausgehend von dieser Liste werden beispielsweise die unterschiedlichen Lesarten disambiguiert. Die Auswertung der Kookkurenzpartner des Stichworts „Verkehr“ ergab bei der Wortartikelproduktion für elexiko die beiden Lesarten Fortbewegen und Beischlaf. Die erste Bedeutung erschliesst sich aus zahlreichen Kookkurrenzpartnern (z.B. Strassen, Autobahn, dichter, etc.), auf die zweite deutet ein Partner hin (ungeschützten).35 Lesarten, die nicht im Korpus belegt sind, werden nicht angegeben.

Das Erstellen der Artikel entspricht also einer nach der Stichwortauswahl geordneten, detaillierten Korpusanalyse. Die Modellierung, bzw. das dem Wörterbuch zugrunde liegende Konzept, entscheidet, welche Angaben aus dem Korpus herausgefiltert werden müssen. Zur Kontrolle können schliesslich bestehende Wörterbücher hinzugezogen werden, um die verfassten Artikel zu kontrollieren.

Damit sollte klar geworden sein, wie sich die Artikelproduktion im medienneutralen, korpusbasierten Prozess vollzieht. Im Wesentlichen geht es darum, die Informationen im Korpus in die lexikographische Datenbasis zu überführen. Dabei stellt sich unweigerlich die Frage, wie die Verknüpfung zwischen Korpus und Datenbasis geregelt werden kann. Im medienneutralen Prozess wird man nicht umhin kommen, die Wortartikel mit einem XML-Editor zu erstellen.36 Auf das Korpus kann mittels geeigneter Abfragewerkzeuge zugegriffen werden. Das Problem besteht darin, eine sinnvolle Schnittstelle zwischen diesen Editor und Suchwerkzeugen zu entwickeln. Abbildung 3 verdeutlicht diese Problematik.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 Verknüpfung von Korpus und XML-Editor

Interessanterweise wird dieses Problem in der Literatur zu elexiko nicht thematisiert. Aus der Dokumentation lässt sich jedoch erschliessen, dass keine spezielle Schnittstelle zwischen Editor und Suchwerkzeugen entwickelt wurde. Die Korpusanalyse erfolgte mit Recherche- und Analysesystem COSMAMS II, einer Eigenentwicklung des IDS, die Artikel wurden in einem separaten Editor (XMetaL) erstellt.37 Das Übertragen der Informationen aus dem Abfragesystem COSMAS in den Editor bleibt offenbar den Lexikographinnen und Lexikgraphen überlassen.

Diese Lösung scheint jedoch etwas unbefriedigend. Als Idealfall wäre eine Integration des Recherchewerkzeugs in den Editor denkbar. Damit würde die Arbeitsumgebung der Lexikographen bedeutend komfortabler. Ein Vorteil wäre, dass Fehlerquellen minimiert werden könnten, indem die Angaben nicht mehr manuell vom Suchwerkzeug in den XML-Editor übertragen werden müssten. Grundsätzlich würde eine solche Lösung die Möglichkeiten zur teilautomatisierten Artikelproduktion erheblich vorantreiben. Der Editor würde gewissermassen zu einer ‚Entwicklungsumgebung’, die alle nötigen Funktionen vereint.

Der Nachteil dieser Lösung liegt indes auf der Hand. Das Entwickeln einer eigenen, auf die Bedürfnisse des Wörterbuchprojekts abgestimmten Schnittstelle zwischen Korpus und lexikographischer Datenbasis ist eine aufwendige und dementsprechend kostspielige Angelegenheit. Da jedoch die Artikelproduktion – wie bereits oben erwähnt – den eigentlichen Kern im lexikographischen Prozess darstellt, kann dieser Aufwand durchaus gerechtfertigt sein.

2.3.3. Die Artikelproduktion für das Schweizer Text Korpus

Insgesamt scheint das Vorgehen der elexiko -Projektgruppe auch für das Schweizer Text Korpus empfehlenswert. Ausgehend von der Stichwortliste dürfte es ohne grössere Schwierigkeiten möglich sein, automatisch ‚Minimalartikel’ zu erzeugen. Inwiefern die Artikel automatisch erweitert werden können, muss jedoch geklärt werden.

Aufgrund des spezifischen Inhalts des Korpus scheint es überdies naheliegend, die Artikelproduktion komplett korpusbasiert zu gestalten. Dies bedeutet wiederum, dass die angesprochene Problematik der Schnittstelle zwischen Korpus und Datenbasis gelöst werden muss. Das Entwickeln einer ‚Entwicklungsumgebung’ wäre zeit- und kostenaufwendig. Es ist jedoch davon auszugehen, dass eine solche Lösung die Qualität der lexikographischen Daten massgeblich erhöhen würde.

Weiterhin scheint es empfehlenswert, die Artikel nach thematischen und inhaltlichen Teilbereichen auszubauen. Damit kann die Datenbasis schrittweise komplettiert werden. Zudem sollte die erste Phase der Artikelproduktion dazu verwendet werden, die Modellierung ausgiebig zu testen und gegebenenfalls anzupassen. Denn das Anpassen der Modellierung ist einfacher möglich, wenn die Datenbasis noch nicht komplett ausgebaut ist.

3. Schluss

Im Rahmen dieser Arbeit wurde der Weg, der von einem digitalen Korpus zu einem elektronischen Wortschatzinformationssystem führt, betrachtet. Genau genommen stellen die drei vorgestellten Schritte – Modellierung, Stichwortauswahl und Artikelproduktion – nicht den vollständigen Prozess dar. Wie in Abbildung 1 gezeigt, wurde die Präsentationsebene nicht erörtert. Dies hat seinen Grund darin, dass der Publikationsprozess mehr ein informatiktechnischer Vorgang ist als ein lexikographischer. Zudem wäre eine detaillierte Diskussion aus Platzgründen nicht möglich gewesen. Der Fokus wurde deshalb auf die Entwicklung der medienneutralen lexikographischen Datenbasis gelegt.

Grundstein dieser Entwicklung ist die Modellierung. Ziel der Modellierung ist es, einen möglichst flexiblen Zugriff auf die Daten zu ermöglichen. Dadurch wird die Voraussetzung dafür geschafft, dass dieselben Daten später unterschiedlich dargestellt werden können. Zudem ermöglicht eine gute Modellierung vielfältige Suchmöglichkeiten. Die entscheidende Bedeutung der Modellierung wurde mehrmals unterstrichen. Weiterhin wurden die Vor- und Nachteile einer Standard-Modellierung (namentlich der TEI-Richtlinien) diskutiert, wobei klar wurde, dass für ein korpusbasiertes Wortschatzinformationssystem wenn nicht eine Eigenentwicklung, so doch immerhin eine spezifische Anpassung der TEI-Richtlinien notwendig ist.

Als zweiter Schritt wurde die Stichwortauswahl ausgemacht. Es wurde bemerkt, dass dieser Schritt in einem korpusbasierten Wörterbuch auch dynamisch angelegt werden kann. Es wurden zugleich aber auch mehrere Gründe aufgezeigt, weshalb ein solches Vorgehen kaum empfehlenswert erscheint. Es wurde gezeigt, dass die Stichwortauswahl – sofern sie korpusbasiert erfolgen soll – zumindest teilautomatisch erfolgen kann. Durch automatische Lemmatisierung können Stichwortkandidaten aus dem Korpus extrahiert werden, die anschliessend manuell überprüft werden können. Diese manuelle Überprüfung führt schliesslich zur definitiven Stichwortliste, die den Kern der Artikelproduktion bildet.

Die Artikelproduktion bildet schliesslich den letzten Schritt auf dem Weg zur Datenbasis. In der Artikelproduktion geht es darum, die Inhalte des Korpus in lexikographische Angaben zu überführen. Auch hier ist eine beschränkte Automatisierung möglich. Zu jedem Stichwort kann automatisch ein Artikelrumpf erzeugt werden, gewisse Angaben können – je nach Qualität des Korpus – automatisch ergänzt werden. Als Problemzone bei der Erstellung der Artikel wurde die Schnittstelle zwischen Recherchewerkzeugen, mit denen das Korpus durchsucht werden kann, und dem XML-Editor, mit dem die Artikel erstellt werden, identifiziert. Eine Integration der Suchwerkzeuge in den Editor würde den Arbeitsplatz eines Lexikographen massgeblich verändern. Der Editor würde zu einer ‚Entwicklungsumgebung’, die alle Funktionen vereint.

Abschliessend lässt sich sagen, dass der Computereinsatz erheblichen Einfluss auf die Produktion eines Wörterbuchs haben kann. Der Computer ist als Arbeitswerkzeug wohl nicht mehr aus der lexikographischen Praxis wegzudenken. Einige Teilschritte im medienneutralen Prozess können teilautomatisiert werden und das Erstellen der Artikel mit mächtigen Editoren kann die lexikographische Arbeit entscheidend erleichtern. Dennoch sollte deutlich geworden sein, dass die Produktion eines Wörterbuchs nach wie vor ein hohes Mass an lexikographischer Kompetenz erfordert.

Literaturverzeichnis

Forschungsliteratur

Burch, Thomas / Fournier Johannes (2001): “Zur Anwendung der TEI-Richtlinien bei der Retrodigitalisierung mittelhochdeutscher Wörterbücher“, in: Lemberg, Ingrid et al. (Hgg.): Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGML/XML für die Produktion und Publikation digitaler Wörterbücher, Tübingen, S. 133-153

de Schryver, Gilles-Maurice (2003): “Lexicographers' Dreams in the Electronic-Dictionary Age”, in: International Journal of Lexicography 16, 2, S.143-199

Haß, Ulrike (2005): „ elexiko – das Projekt“, in: dies. (Hg.): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz, Berlin / New York, S. 1-17

dies. (2001a): Deutsche Wörterbücher – Brennpunkt von Sprach- und Kulturgeschichte, Berlin / New York

dies. (2001b): „Zur Mikrostruktur im Hypertext-Wörterbuch“, in: Lemberg, Ingrid et al. (Hgg.): Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGML/XML für die Produktion und Publikation digitaler Wörterbücher, Tübingen, S. 103-115

Kammerer, Matthias (2001): „XML-getaggte Wörterbuchartikel. Ein Bericht aus der Praxis des Wörterbuchs zur Lexikographie und Wörterbuchforschung.“, in: Lexicographica 17, S. 249-301.

Müller-Spitzer, Carolin (2006): „Das Konzept der Inhaltsstruktur. Ein Ausschnitt aus einer neuen Konzeption für die Modellierung lexikografischer Daten“, in: OPAL - Online publizierte Arbeiten zur Linguistik 2/2006

dies. (2005a): „Die Modellierung lexikografischer Daten und ihre Rolle im lexikografischen Prozess“, in: Haß, Ulrike (Hg.): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz, Berlin / New York, S. 36-54

dies. (2005b): „Erstellung lexikografischer Daten aus Korpora. Eine neue Art elektronischer Wörterbücher“, in: Friedrich Lenz und Stefan Schierholz (Hgg.): Corpuslinguistik in Lexik und Grammatik, Tübingen, S. 41-59

dies. (2003): „Ordnende Betrachtungen zu elektronischen Wörterbüchern und lexikographischen Prozessen“, in: Lexicographica 19, S. 140-168

Schmidt, Ingrid / Müller Carolin (2001): „Entwicklung eines lexikographischen Modells: Ein neuer Ansatz“, in: Lemberg, Ingrid et al. (Hgg.): Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGML/XML für die Produktion und Publikation digitaler Wörterbücher, Tübingen, S. 29-52

Schnörch, Ulrich (2005a): “Die elexiko -Stichwortliste”, in: Haß, Ulrike (Hg.): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz, Berlin / New York, S. 71-90

Schnörch, Ulrich (2005b): “Der Autoren-Arbeitsplatz: Ein elexiko -Wortartikel entsteht”, in: Haß, Ulrike (Hg.): Grundfragen der elektronischen Lexikographie. elexiko - das Online-Informationssystem zum deutschen Wortschatz, Berlin / New York, S. 105-130

Tutin, Agnès / Véronis, Jean (1998): “Electronic Dictionary Encoding: Customizing the TEI Guidelines”, in: Proceedings of the Eighth EURALEX International Congress on Lexicography (EURALEX'98), Liège, August 1998, S. 4-8

Internetressoucen

Schweizer Text Korpus: www.dwds.ch

The Text Encoding Initiative (TEI): www.tei-c.org

Extensible Markup Language (XML): www.w3.org/XML

(alle Links wurden am 1. März 2007 das letzte Mal überprüft)

[...]


1 Vgl. dazu de Schryver 2003

2 Mehr Informationen zum Projekt s. www.dwds.ch

3 Vgl. dazu Müller-Spitzer 2003, 147f.

4 Ebd., 153

5 Vgl. ebd., 161

6 Zunächst sind damit unterschiedliche Medien gemeint. Zugleich soll aber auch eine unterschiedliche Präsentation in demselben Medium ermöglicht werden.

7 „From a user’s perspective, the most innovative aspect of EDs [electronic dictionaries; Anm. d. Verfassers] is probably the retrieval system.” (de Schryver 2003, 146)

8 Vgl. dazu Kapitel 2.3. (S. 19)

9 Vgl. dazu de Schryver 2003

10 Auf eine Diskussion der Vor- und Nachteile von XML wird hier bewusst verzichtet. Mehr Informationen zu XML s. www.w3.org/xml

11 Mittlerweile liegt der TEI Proposal number 5 (TEI P5) vor (seit Juni 2006). Das Fragment der Wörterbücher-DTD kann unter www.tei-c.org/release/xml/tei/schema/dtd/dictionaries-decl.dtd eingesehen werden [gesehen am 1.3.2007]. Mehr Informationen zur TEI s. www.tei-c.org

12 Vgl. dazu Burch/Fournier 2001 und Tutin/Véronis 1998

13 Vgl. dazu weiter oben den Abschnitt „Ziel der Modellierung“ (S. 5f.)

14 Vgl. Schmidt/Müller 2001, 41-43

15 Eine XML-Instanz ist wohlgeformt, wenn sie die XML-Regeln befolgt. Valide ist ein Dokument, wenn es die Regeln einer spezifischen DTD (in diesem Fall die DTD der TEI) befolgt.

16 „In many applications, then, the TEI DTD must be customized […]” (Tutin/Véronis 1998, 4)

17 Vgl. Tutin/Véronis 1998, 6

18 Müller-Spitzer grenzt das Konzept auch gegen die Mikrostrukturtheorie ab. Vgl. dazu weiter unten, S. 12f.

19 Der Begriff „Vor-Angabe“ (abgekürzt Angabev) wird verwendet, um einen Unterschied zum Mikrostrukturenprogramm zu markieren. Vgl. dazu Müller-Spitzer 2006, 4

20 Vgl. Müller-Spitzer 2006, 14

21 Vgl. ebd., 15

22 Diesen Ansatz verfolgt etwa Kammerer 2001

23 Dazu eine Bemerkung: Wie in Abbildung 1 dargestellt wird im Rahmen dieser Arbeit ein lexikographischer Prozess beschrieben, der vom Korpus zum Wörterbuch führt. Aus einem bestehenden Korpus soll ein Wörterbuch erstellt werden. Dies bedeutet, dass die Konzeption und damit auch die Modellierung ebenfalls vom Korpus abhängig sind. Dennoch kann die Modellierung unabhängig davon erfolgen, ob das Korpus bereits fertig gestellt wurde, da sie nicht an konkrete Inhalte gebunden ist. Dies ist bei der Stichwortauswahl nicht möglich.

24 Vgl. Schnörch 2005a, 71

25 Vgl. dazu Kapitel 2.3 (S.19)

26 Vgl. dazu Schnörch 2005a, 73

27 Vgl. ebd., 75

28 Vgl. ebd., 78, Fussnote 6

29 Vgl. ebd., 78-84

30 Dies bedingt natürlich, dass die zusätzlichen Informationen (Silbentrennung, Aussprache, etc.) gesondert ausgezeichnet werden müssen, bzw. dass die Information in der Modellierung nicht vergessen geht. Dies ist wichtig, um bei der Publikation der Datenbasis als Printwörterbuch die nötigen Verdichtungsoperationen durchführen zu können.

31 Flektierte Formen können als Stichwort angesetzt werden, wenn es dazu keine Grundform gibt (z.B. „Stadtväter“ oder „begabt“). Vgl. Schnörch 2005a, 82

32 Die Modellierung als Stich- und Suchwörter erscheint sinnvoll, da auf diese Weise keine Information verloren geht. Aus den Suchwörtern können für die Printversion problemlos Verweisartikel erstellt werden.

33 In elelxiko werden diese Artikel ‚Minimalartikel’ genannt. Vgl. Schnörch 2005b, 111

34 Vgl. ebd.

35 Vgl. Schnörch 2005b, 112-116

36 Kammerer (2001) hat aus Kostengründen eine Umgebung entwickelt, um mit Microsoft Word (also Standardsoftware) XML-Artikel zu schreiben. Dies kann jedoch also Spezialfall angesehen werden.

37 Vgl. Schnörch 2005b

Ende der Leseprobe aus 29 Seiten

Details

Titel
Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion
Hochschule
Universität Basel  (Deutsches Seminar)
Veranstaltung
Seminar: Lexikographie und empirische Linguistik
Note
5.5
Autor
Jahr
2007
Seiten
29
Katalognummer
V113583
ISBN (eBook)
9783656966432
ISBN (Buch)
9783656966449
Dateigröße
733 KB
Sprache
Deutsch
Anmerkungen
Note: 5,5 (CH-Skala) entspricht hier einer 1,5!!!
Schlagworte
Korpus, Wörterbuch, Seminar, Lexikographie, Linguistik
Arbeit zitieren
Lukas Stöcklin (Autor), 2007, Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion, München, GRIN Verlag, https://www.grin.com/document/113583

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Vom Korpus zum elektronischen Wörterbuch. Datenmodellierung, Stichwortauswahl und Artikelproduktion



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden