Inhaltsverzeichnis
Inhaltsverzeichnis 2
1. Einleitung 3
2. Abkürzungen 4
2.1. Varianten von Abkürzungen 4
2.2. Phänomene 6
2.3. Abkürzungsgebrauch in der Wissenschaft 6
3. Automatische Erkennung von Abkürzungen 7
3.1. Methode von Schwartz und Hearst 7
3.1.1. Precision und Recall 11
3.1.2. Resultate 13
3.2. Methode von Taghva und Gilbreth 14
3.2.1. Phase 1 14
3.2.2. Phase 2 15
3.2.3. Phase 3 15
3.2.4. Phase 4 16
3.2.5. Resultate 17
3.3. Methode von Yu, Hripcsak und Friedman 18
3.3.1. Phase 1 18
3.3.2. Phase 2 19
3.3.3. Resultate 19
3.3.4. Erweiterung der Methode für Gen- und Proteinbezeichnungen 20
4. Auflösung von Mehrdeutigkeiten 21
4.1. Methode von Liu, Lussier und Friedman 22
4.1.1. Phase 1 22
4.1.2. Phase 2 23
4.1.3. Resultate 24
4.2. Weitere Methoden 24
4.2.1. Methode von Pakhmov 24
4.2.2. Methode von Nenadic, Spasic und Ananiadou 25
5. Ausblick 25
6. Referenzen 27
1. Einleitung
Ein wichtiger Bestandteil der Schriftsprache sind die vielfältigen Formen von Abkürzungen. Während die Anzahl von Texten, Publikationen und Mitteilungen immer rasanter wächst, ist es wichtig, dass Abkürzungen und deren Bedeutungen immer richtig vom jeweiligen Rezipienten erkannt und verstanden werden. Je komplizierter und größer der Wortschatz jedoch wird, desto schwieriger wird es ebenfalls, dieses Gebot zu erfüllen. Vor allem in wissenschaftlichen Sprachzweigen stellt es daher eine immense Herausforderung dar, Abkürzungen in den ständig neuen Veröffentlichungen richtig ihren jeweiligen Bedeutungen zuzuordnen. Vor allem durch die rasante Neuschöpfung von Abkürzungen und die kaum noch zu gewährleistende Aktualität von entsprechenden Abkürzungswörterbüchern, kann diese Aufgabe von Hand kaum mehr erledigt werden. Darüber hinaus kommt dazu noch das Problem, dass viele Abkürzungen und Bedeutungen häufig mehrdeutig in Texten vorkommen und neben der zuverlässigen Erkennung auch die Auflösung dieser ambigen Begriffen stehen muss. Für fachspezifische Domänen, bestimmte Berufszweige und die vielfältigen Forschungsbemühungen ist daher die automatisierte Informationsextraktion und -Verarbeitung eines der wesentlichsten Ziele der computerlinguistischen Behandlung von Abkürzungen und Begriffen.
In der vorliegenden Arbeit sollen einige Verfahren vorgestellt werden, die sich mit der automatischen Erkennung von Abkürzungen und deren Auflösung zu der entsprechenden Langform beschäftigen. Dies wird am Beispiel des biomedizinischen Arbeitsgebiets geschehen, da hier ein sehr großer und exemplarischer Forschungsaufwand besteht. Darüber hinaus soll eine Auswahl an Methoden erläutert werden, welche mehrdeutigen Abkürzungen und Terme ihre eigentlichen kontextuellen Bedeutungen zuweisen sollen. Zunächst soll jedoch eine Einführung die Gründe und Ursachen für die Bedeutsamkeit von Abkürzungen beleuchten und unterschiedliche Typen von Abkürzung darstellen. Besonderes Augenmerk soll dabei auf Akronymen liegen, die den Drang nach Einfachheit in der Sprache wohl am besten verkörpern. Im Hauptteil der Arbeit wird deutlich werden, dass sich einige Methoden neben der Behandlung von gewöhnlichen Abkürzungen auch maßgeblich mit der Erkennung und Auflösung von Akronymen beschäftigen. Doch auch Lösungsansätze für Spezialfälle wie Gen- und Proteinbezeichnungen, welche ebenfalls Abkürzungen darstellen, werden vorgestellt.
2. Abkürzungen
Abkürzungen haben im Sprachgebrauch eine lange Tradition. Schon in der Antike wurden sie in großem Stil benutzt. Zu dieser Zeit waren Steintafeln und Pergament ein sehr teures Medium und die Verfasser mussten den begrenzten Platz mit Umsicht nutzen. Im Römischen Reich wurde so zum Beispiel statt ›IMPERATOR CAESAR‹ oftmals nur ›IMP CAES‹ in Schriften festgehalten. Natürlich kann auch bei manchen Schreibern bloße Faulheit oder Zeitdruck als Grund für die Verwendung von Abkürzungen angeführt werden. In jedem Fall haben sich Abkürzungen bis in die heutige Zeit, in der Papier und Speicherplatz beinahe unbegrenzt zur Verfügung stehen, erhalten. Latein, welches u.a. als Basis für den europäischen Kultur und Sprachraum gilt, hat auch in unserer Gegenwartssprache eine Vielzahl von Spuren hinterlassen. Medizinische Ausdrücke oder Fachbegriffe anderer Domänen, ja sogar ganz normale Ausdrücke des täglichen Gebrauchs gehen direkt auf die lateinische Sprache zurück. Auch der Habitus des Abkürzens wurde bewahrt. Mit der weiteren kulturellen und wissenschaftlichen Entwicklung hat sich der Sprachschatz sehr stark erweitert. Viele neue Entdeckungen und Erkenntnisse mussten benannt werden und oftmals wurden sehr lange und schwer aussprechbare Bezeichnungen gewählt. Das Gros der heute bekannten Bakterienarten wird dadurch in der Fachliteratur fast ausschließlich abgekürzt wiedergegeben. Auch chemische Elemente finden oft nur in abgekürzter Form Erwähnung, im Periodensystem der Elemente dient dies sogar primär der Übersicht.
Natürlich können nicht alle Abkürzung gleichwertig betrachtet werden. Es haben sich im Laufe der Zeit sehr große Unterschiede zwischen verschiedenen Abkürzungen herausgebildet. Die am häufigsten vorkommenden Arten sollen nun kurz vorgestellt werden
2.1. Varianten von Abkürzungen
Es lassen sich im Wesentlichen fünf verschiedene Arten von Abkürzungen beschreiben. Die erste umfasst die bruchstückhaften Abkürzungen oder Kurzwörter. Diese Abkürzungen entstehen durch das Weglassen von ganzen Wortteilen, wodurch neue Wörter entstehen, die oftmals die eigentliche Ursprungsform im Sprachgebrauch völlig ersetzen. Als Beispiel kann hier AUTO (AUTOMOBIL) bzw. AKKU (AKKUMULATOR) genannt werden. Beim Sprechen oder Lesen der Abkürzungen wird in diesen Fällen ausschließlich die Abkürzung wiedergegeben. Die Langform bleibt jedoch unausgesprochen.
Die zweite Variante von Abkürzungen sind Kontraktionen, also zusammengezogene Kurzformen von Wörtern. Bei DR. (DOKTOR), PROF. (PROFESSOR) oder ST. (SANKT) werden die Abkürzungen aus bestimmten Buchstaben der Langform so verkettet, dass weitestgehend einmalige Kurzformen entstehen, die also nicht verwechselt werden können. Diese Abkürzungen werden beim Sprechen oder Lesen automatisch immer in ihrer entsprechenden Langform wiedergegeben.
Eine dritte Variante umfasst Abkürzungen, welche aus den Initialbuchstaben von mehreren Wörtern einer Phrase gebildet werden. Diese Abkürzungen werden beim Wiedergeben gewissermaßen buchstabiert, wie bei ZDF (ZWEITES DEUTSCHES FERNSEHEN) oder DVD (DIGITAL VERSATILE DISC). Abwandlungen dieser Variante sind möglich, indem mehrere Anfangsbuchstaben aneinander gereiht werden, wie zum Beispiel bei KADEWE (KAUFHAUS DES WESTENS), oder auch Buchstaben in der Abkürzung verwendet werden, die nicht Wort-, sondern Silbenanfänge darstellen: EKG (ELEKTROKARDIOGRAMM).
Die vierte Variante vereint Kombinationen aus verschiedenen Abkürzungstypen unter sich. Dies wird unter anderem bei E-MAIL sehr deutlich.
Die fünfte Variante stellt einen recht neuen Typ von Abkürzung dar, welcher auch in dieser hier vorliegenden Arbeit besonders betrachtet werden soll. Es handelt sich dabei um das so genannte Akronym. Diese Art verdeutlicht am besten den Drang nach einfacher und leicht verständlicher Sprache. Im Grunde handelt es sich bei Akronymen meist um Abkürzungen, die aus Initialbuchstaben gebildet werden. Im Gegensatz zu den bereits vorgestellten Beispielen lassen sich Akronyme jedoch problemlos und flüssig aussprechen. Dadurch lassen sich Akronyme sehr viel einfacher merken, als die entsprechende Langform. Akronyme entstanden maßgeblich in den Weltkriegen, als technisches Gerät wie RADAR ( RADIO DETECTION AND RANGING) oder SONAR (SOUND NAVIGATION RANGE) entwickelt wurde und im militärischen Sprachjargon kurze und flüssige Bezeichnungen für diese Errungenschaften gesucht worden. Viele Akronyme verdrängen mit der Zeit ihre Langformen aus dem normalen Sprachgebrauch und von nicht wenigen Akronymen kann der normale Sprecher die eigentliche Langform gar nicht mehr wiedergeben. Deshalb und durch einen jahrelangen Gebrauch fallen bestimmte Akronyme gar nicht mehr als solche auf und werden zum Teil nicht mehr durchgehend groß geschrieben. Trotzdem gibt es noch einige Regeln, die im Allgemeinen für Akronyme Gültigkeit haben. So sollten sie aus mindestens drei Buchstaben bestehen, leicht aussprechbar sein, die Kommunikation dadurch deutlich vereinfachen und beim ersten Gebrauch müssen sie mit ihrer Langform eingeführt werden, damit der Rezipient ihre Bedeutung entsprechend verstehen kann.
2.2. Phänomene
Da jedoch viele Abkürzungen und Akronyme schon sehr lange im Gebrauch sind, werden sie von vielen Sprechern im Grunde nicht definiert kennen gelernt. Dadurch kommt es sehr oft vor, dass Abkürzungen verwendet werden, bei denen selbst der Sprecher die eigentliche Langform nicht wiedergeben kann, aber durchaus weiß, welche Entität gemeint ist. Dies ist zum Beispiel bei DNA (DESOXYRIBONUCLEIC ACID) oder AIDS (ACQUIRED IMMUNE DEFICIENCY SYNDROME) der Fall. Beide Abkürzungen sind Bestandteile des alltäglichen Sprachinventars, können aber von den Wenigsten richtig zur Langform aufgelöst werden. Auch bei stets präsenten Parteibezeichnungen lässt sich dieses Phänomen beobachten. Des Öfteren können auch redundante Verwendungen von Akronymen vorkommen. In vielen Kontexten werden Ausdrücke wie PIN-NUMMER verwendet, obwohl das Wort NUMMER bereits in dem Akronym PIN (PERSONAL IDENTIFICATION NUMBER) enthalten ist. Auch in wissenschaftlichen Kreisen kommt es zu solchen merkwürdigen Verwendungen von Akronymen. Ein Beispiel wäre der Ausdruck IPSS-SCORE, wobei in IPSS (INTERNATIONALER PROSTATA-SYMPTOMEN-SCORE) das Wort SCORE bereits enthalten ist.
Darüber hinaus haben sich manche Abkürzung für bestimmte Entitäten so sehr in die Sprache verflochten, dass nach Möglichkeiten gesucht wird, Ableitungen davon, zum Beispiel in Form von Verben, zu erzeugen. Für SMS (SHORT MESSAGE SERVICE) haben sich Verben wie SIMSEN oder SMSEN, womit das Verschicken von Kurznachrichten über das Mobiltelefon gemeint ist, sogar soweit durchgesetzt, dass sie im DUDEN Erwähnung finden.
2.3. Abkürzungsgebrauch in der Wissenschaft
Neben der normalen Alltagssprache umfasst der Sprachschatz wissenschaftlicher Domänen ein Vielfaches der Anzahl an Ausdrücken. Wörterbücher und Verzeichnisse können mittlerweile gar nicht mehr so schnell aktualisiert werden, wie neue Ausdrücke entstehen. Da die Anzahl der Grundbausteine, aus denen sich Wörter bilden lassen, begrenzt ist, ist es unabwendbar, dass neue Ausdrücke zum Teil sehr lang und schwer aussprechbar sind. Dies steht im Kontrast zum Streben der Sprache nach Einfachheit. Aus diesem Grunde werden in wissenschaftlichen Texten sehr viele Abkürzungen verwendet, sodass die Inhalte leichter lesbar bleiben.
In wissenschaftlicher Fachliteratur wird seit beginn des 20. Jahrhunderts zunehmend von Abkürzungen Gebrauch gemacht. Anfangs waren nur Standardabkürzungen wie chemische
Elemente und Mengenkennzeichnungen wie CM oder ML in den Texten zu finden. Ab den fünfziger Jahren fanden Abkürzungen vermehrt Einzug in Tabellen und Grafiken und seit den siebziger Jahren werden auch im normalen Text Abkürzungen immer häufiger benutzt. Durch die Vielzahl der weltweit forschenden Wissenschaftler kommt es vor, dass für ein und dieselbe Entität oft unterschiedliche Abkürzungen gefunden werden. In anderen Fällen bezeichnet eine Abkürzung mehrere Entitäten. Dadurch kommt es nicht nur domänenübergreifend, sondern auch innerhalb eines Wissenschaftsgebietes oft zu Verwechslungen oder Ambiguitäten, welche möglichst vermieden werden müssen, damit in jedem Kontext der gemeinte Sinn deutlich bleibt.
Ein großer Teil wissenschaftlicher Texte wird indessen auf Datenservern und Onlinekatalogen gespeichert und ist hauptsächlich über Netzwerke und das Internet zugänglich. Mit der schnell wachsenden Menge an wissenschaftlichen Texten und dem fast unstillbaren Informationshunger ist es dadurch mittlerweile nötig, dass automatische rechnergestützte Verfahren gesucht werden müssen, die die genannten Probleme lösen können. Abkürzungen und deren Langformen sollen in Texten automatisch erkannt und Ambiguitäten aufgelöst werden. Das Ziel ist die schnelle und verlässliche Informationsextraktion aus einer Vielzahl von Texten. In dieser Arbeit soll speziell die Domäne der biomedizinischen Texte beleuchtet werden, da in diesem Gebiet sehr großer Forschungsaufwand betrieben wird und reichlich viel versprechende Methoden betrachtet werden können.
3. Automatische Erkennung von Abkürzungen
Im Folgenden sollen nun zunächst einige Methoden vorgestellt werden, die sich mit der automatischen Erkennung und Auflösung von Abkürzungen in biomedizinischen Texten beschäftigen. Es wird deutlich werden, dass viele Methoden die gleichen Grundannahmen und systematischen Ansätze verwenden, jedoch in Ablauf und Funktion oft stark differieren.
3.1. Methode von SCHWARTZ und HEARST
ARIEL S. SCHWARTZ und MARTI A. HEARST 1 von der University of California (Berkeley) legen ihrer Methode die Annahme zugrunde, dass Abkürzungen in biomedizinischen Texten
1 Schwartz, Ariel S.; Hearst, Marti A.: [2003] A simple algorithm for identifying abbreviation definitions in biomedical text. In: R.B. Altman, A.K. Dunker, L. Hunter, T.A. Jung & T.E. Klein (Eds.), Pacific Symposium on Biocomputing 2003. Kauai, Hawaii, USA, January 3-7, 2003. New Jersey etc.: World Scientific, 2002, S.
451-462.
Quote paper:
Steffen Kuegler, 2006, Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Steffen Kügler's text Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten is now available as a printed book
Steffen Kügler has published the text Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten
Steffen Kügler has uploaded a new text
0 comments