Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten


Hausarbeit (Hauptseminar), 2006
27 Seiten, Note: 1,3

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Abkürzungen
2.1. Varianten von Abkürzungen
2.2. Phänomene
2.3. Abkürzungsgebrauch in der Wissenschaft

3. Automatische Erkennung von Abkürzungen
3.1. Methode von Schwartz und Hearst
3.1.1. Precision und Recall
3.1.2. Resultate
3.2. Methode von Taghva und Gilbreth
3.2.1. Phase 1
3.2.2. Phase 2
3.2.3. Phase 3
3.2.4. Phase 4
3.2.5. Resultate
3.3. Methode von Yu, Hripcsak und Friedman
3.3.1. Phase 1
3.3.2. Phase 2
3.3.3. Resultate
3.3.4. Erweiterung der Methode für Gen- und Proteinbezeichnungen

4. Auflösung von Mehrdeutigkeiten
4.1. Methode von Liu, Lussier und Friedman
4.1.1. Phase 1
4.1.2. Phase 2
4.1.3. Resultate
4.2. Weitere Methoden
4.2.1. Methode von Pakhmov
4.2.2. Methode von Nenadic, Spasic und Ananiadou

5. Ausblick

6. Referenzen

1. Einleitung

Ein wichtiger Bestandteil der Schriftsprache sind die vielfältigen Formen von Abkürzungen. Während die Anzahl von Texten, Publikationen und Mitteilungen immer rasanter wächst, ist es wichtig, dass Abkürzungen und deren Bedeutungen immer richtig vom jeweiligen Rezipienten erkannt und verstanden werden. Je komplizierter und größer der Wortschatz jedoch wird, desto schwieriger wird es ebenfalls, dieses Gebot zu erfüllen. Vor allem in wissenschaftlichen Sprachzweigen stellt es daher eine immense Herausforderung dar, Abkürzungen in den ständig neuen Veröffentlichungen richtig ihren jeweiligen Bedeutungen zuzuordnen. Vor allem durch die rasante Neuschöpfung von Abkürzungen und die kaum noch zu gewährleistende Aktualität von entsprechenden Abkürzungswörterbüchern, kann diese Aufgabe von Hand kaum mehr erledigt werden. Darüber hinaus kommt dazu noch das Problem, dass viele Abkürzungen und Bedeutungen häufig mehrdeutig in Texten vorkommen und neben der zuverlässigen Erkennung auch die Auflösung dieser ambigen Begriffen stehen muss. Für fachspezifische Domänen, bestimmte Berufszweige und die vielfältigen Forschungsbemühungen ist daher die automatisierte Informationsextraktion und –Verarbeitung eines der wesentlichsten Ziele der computerlinguistischen Behandlung von Abkürzungen und Begriffen.

In der vorliegenden Arbeit sollen einige Verfahren vorgestellt werden, die sich mit der automatischen Erkennung von Abkürzungen und deren Auflösung zu der entsprechenden Langform beschäftigen. Dies wird am Beispiel des biomedizinischen Arbeitsgebiets geschehen, da hier ein sehr großer und exemplarischer Forschungsaufwand besteht. Darüber hinaus soll eine Auswahl an Methoden erläutert werden, welche mehrdeutigen Abkürzungen und Terme ihre eigentlichen kontextuellen Bedeutungen zuweisen sollen. Zunächst soll jedoch eine Einführung die Gründe und Ursachen für die Bedeutsamkeit von Abkürzungen beleuchten und unterschiedliche Typen von Abkürzung darstellen. Besonderes Augenmerk soll dabei auf Akronymen liegen, die den Drang nach Einfachheit in der Sprache wohl am besten verkörpern. Im Hauptteil der Arbeit wird deutlich werden, dass sich einige Methoden neben der Behandlung von gewöhnlichen Abkürzungen auch maßgeblich mit der Erkennung und Auflösung von Akronymen beschäftigen. Doch auch Lösungsansätze für Spezialfälle wie Gen- und Proteinbezeichnungen, welche ebenfalls Abkürzungen darstellen, werden vorgestellt.

2. Abkürzungen

Abkürzungen haben im Sprachgebrauch eine lange Tradition. Schon in der Antike wurden sie in großem Stil benutzt. Zu dieser Zeit waren Steintafeln und Pergament ein sehr teures Medium und die Verfasser mussten den begrenzten Platz mit Umsicht nutzen. Im Römischen Reich wurde so zum Beispiel statt ›Imperator Caesar‹ oftmals nur ›Imp Caes‹ in Schriften festgehalten. Natürlich kann auch bei manchen Schreibern bloße Faulheit oder Zeitdruck als Grund für die Verwendung von Abkürzungen angeführt werden. In jedem Fall haben sich Abkürzungen bis in die heutige Zeit, in der Papier und Speicherplatz beinahe unbegrenzt zur Verfügung stehen, erhalten. Latein, welches u.a. als Basis für den europäischen Kultur und Sprachraum gilt, hat auch in unserer Gegenwartssprache eine Vielzahl von Spuren hinterlassen. Medizinische Ausdrücke oder Fachbegriffe anderer Domänen, ja sogar ganz normale Ausdrücke des täglichen Gebrauchs gehen direkt auf die lateinische Sprache zurück. Auch der Habitus des Abkürzens wurde bewahrt. Mit der weiteren kulturellen und wissenschaftlichen Entwicklung hat sich der Sprachschatz sehr stark erweitert. Viele neue Entdeckungen und Erkenntnisse mussten benannt werden und oftmals wurden sehr lange und schwer aussprechbare Bezeichnungen gewählt. Das Gros der heute bekannten Bakterienarten wird dadurch in der Fachliteratur fast ausschließlich abgekürzt wiedergegeben. Auch chemische Elemente finden oft nur in abgekürzter Form Erwähnung, im Periodensystem der Elemente dient dies sogar primär der Übersicht.

Natürlich können nicht alle Abkürzung gleichwertig betrachtet werden. Es haben sich im Laufe der Zeit sehr große Unterschiede zwischen verschiedenen Abkürzungen herausgebildet. Die am häufigsten vorkommenden Arten sollen nun kurz vorgestellt werden

2.1. Varianten von Abkürzungen

Es lassen sich im Wesentlichen fünf verschiedene Arten von Abkürzungen beschreiben. Die erste umfasst die bruchstückhaften Abkürzungen oder Kurzwörter. Diese Abkürzungen entstehen durch das Weglassen von ganzen Wortteilen, wodurch neue Wörter entstehen, die oftmals die eigentliche Ursprungsform im Sprachgebrauch völlig ersetzen. Als Beispiel kann hier Auto (Automobil) bzw. Akku (Akkumulator) genannt werden. Beim Sprechen oder Lesen der Abkürzungen wird in diesen Fällen ausschließlich die Abkürzung wiedergegeben. Die Langform bleibt jedoch unausgesprochen.

Die zweite Variante von Abkürzungen sind Kontraktionen, also zusammengezogene Kurzformen von Wörtern. Bei Dr. (Doktor), Prof. (Professor) oder St. (Sankt) werden die Abkürzungen aus bestimmten Buchstaben der Langform so verkettet, dass weitestgehend einmalige Kurzformen entstehen, die also nicht verwechselt werden können. Diese Abkürzungen werden beim Sprechen oder Lesen automatisch immer in ihrer entsprechenden Langform wiedergegeben.

Eine dritte Variante umfasst Abkürzungen, welche aus den Initialbuchstaben von mehreren Wörtern einer Phrase gebildet werden. Diese Abkürzungen werden beim Wiedergeben gewissermaßen buchstabiert, wie bei ZDF (Zweites Deutsches Fernsehen) oder DVD (Digital Versatile Disc). Abwandlungen dieser Variante sind möglich, indem mehrere Anfangsbuchstaben aneinander gereiht werden, wie zum Beispiel bei KaDeWe (Kaufhaus des Westens), oder auch Buchstaben in der Abkürzung verwendet werden, die nicht Wort-, sondern Silbenanfänge darstellen: EKG (Elektrokardiogramm).

Die vierte Variante vereint Kombinationen aus verschiedenen Abkürzungstypen unter sich. Dies wird unter anderem bei E-Mail sehr deutlich.

Die fünfte Variante stellt einen recht neuen Typ von Abkürzung dar, welcher auch in dieser hier vorliegenden Arbeit besonders betrachtet werden soll. Es handelt sich dabei um das so genannte Akronym. Diese Art verdeutlicht am besten den Drang nach einfacher und leicht verständlicher Sprache. Im Grunde handelt es sich bei Akronymen meist um Abkürzungen, die aus Initialbuchstaben gebildet werden. Im Gegensatz zu den bereits vorgestellten Beispielen lassen sich Akronyme jedoch problemlos und flüssig aussprechen. Dadurch lassen sich Akronyme sehr viel einfacher merken, als die entsprechende Langform. Akronyme entstanden maßgeblich in den Weltkriegen, als technisches Gerät wie RADAR (Radio Detection and Ranging) oder SONAR (Sound Navigation Range) entwickelt wurde und im militärischen Sprachjargon kurze und flüssige Bezeichnungen für diese Errungenschaften gesucht worden. Viele Akronyme verdrängen mit der Zeit ihre Langformen aus dem normalen Sprachgebrauch und von nicht wenigen Akronymen kann der normale Sprecher die eigentliche Langform gar nicht mehr wiedergeben. Deshalb und durch einen jahrelangen Gebrauch fallen bestimmte Akronyme gar nicht mehr als solche auf und werden zum Teil nicht mehr durchgehend groß geschrieben. Trotzdem gibt es noch einige Regeln, die im Allgemeinen für Akronyme Gültigkeit haben. So sollten sie aus mindestens drei Buchstaben bestehen, leicht aussprechbar sein, die Kommunikation dadurch deutlich vereinfachen und beim ersten Gebrauch müssen sie mit ihrer Langform eingeführt werden, damit der Rezipient ihre Bedeutung entsprechend verstehen kann.

2.2. Phänomene

Da jedoch viele Abkürzungen und Akronyme schon sehr lange im Gebrauch sind, werden sie von vielen Sprechern im Grunde nicht definiert kennen gelernt. Dadurch kommt es sehr oft vor, dass Abkürzungen verwendet werden, bei denen selbst der Sprecher die eigentliche Langform nicht wiedergeben kann, aber durchaus weiß, welche Entität gemeint ist. Dies ist zum Beispiel bei DNA (Desoxyribonucleic Acid) oder AIDS (Acquired Immune Deficiency Syndrome) der Fall. Beide Abkürzungen sind Bestandteile des alltäglichen Sprachinventars, können aber von den Wenigsten richtig zur Langform aufgelöst werden. Auch bei stets präsenten Parteibezeichnungen lässt sich dieses Phänomen beobachten.

Des Öfteren können auch redundante Verwendungen von Akronymen vorkommen. In vielen Kontexten werden Ausdrücke wie PIN-Nummer verwendet, obwohl das Wort Nummer bereits in dem Akronym PIN (Personal Identification Number) enthalten ist. Auch in wissenschaftlichen Kreisen kommt es zu solchen merkwürdigen Verwendungen von Akronymen. Ein Beispiel wäre der Ausdruck IPSS-Score, wobei in IPSS (Internationaler Prostata-Symptomen-Score) das Wort Score bereits enthalten ist.

Darüber hinaus haben sich manche Abkürzung für bestimmte Entitäten so sehr in die Sprache verflochten, dass nach Möglichkeiten gesucht wird, Ableitungen davon, zum Beispiel in Form von Verben, zu erzeugen. Für SMS (Short Message Service) haben sich Verben wie simsen oder SMSen, womit das Verschicken von Kurznachrichten über das Mobiltelefon gemeint ist, sogar soweit durchgesetzt, dass sie im Duden Erwähnung finden.

2.3. Abkürzungsgebrauch in der Wissenschaft

Neben der normalen Alltagssprache umfasst der Sprachschatz wissenschaftlicher Domänen ein Vielfaches der Anzahl an Ausdrücken. Wörterbücher und Verzeichnisse können mittlerweile gar nicht mehr so schnell aktualisiert werden, wie neue Ausdrücke entstehen. Da die Anzahl der Grundbausteine, aus denen sich Wörter bilden lassen, begrenzt ist, ist es unabwendbar, dass neue Ausdrücke zum Teil sehr lang und schwer aussprechbar sind. Dies steht im Kontrast zum Streben der Sprache nach Einfachheit. Aus diesem Grunde werden in wissenschaftlichen Texten sehr viele Abkürzungen verwendet, sodass die Inhalte leichter lesbar bleiben.

In wissenschaftlicher Fachliteratur wird seit beginn des 20. Jahrhunderts zunehmend von Abkürzungen Gebrauch gemacht. Anfangs waren nur Standardabkürzungen wie chemische Elemente und Mengenkennzeichnungen wie cm oder ml in den Texten zu finden. Ab den fünfziger Jahren fanden Abkürzungen vermehrt Einzug in Tabellen und Grafiken und seit den siebziger Jahren werden auch im normalen Text Abkürzungen immer häufiger benutzt. Durch die Vielzahl der weltweit forschenden Wissenschaftler kommt es vor, dass für ein und dieselbe Entität oft unterschiedliche Abkürzungen gefunden werden. In anderen Fällen bezeichnet eine Abkürzung mehrere Entitäten. Dadurch kommt es nicht nur domänenübergreifend, sondern auch innerhalb eines Wissenschaftsgebietes oft zu Verwechslungen oder Ambiguitäten, welche möglichst vermieden werden müssen, damit in jedem Kontext der gemeinte Sinn deutlich bleibt.

Ein großer Teil wissenschaftlicher Texte wird indessen auf Datenservern und Onlinekatalogen gespeichert und ist hauptsächlich über Netzwerke und das Internet zugänglich. Mit der schnell wachsenden Menge an wissenschaftlichen Texten und dem fast unstillbaren Informationshunger ist es dadurch mittlerweile nötig, dass automatische rechnergestützte Verfahren gesucht werden müssen, die die genannten Probleme lösen können. Abkürzungen und deren Langformen sollen in Texten automatisch erkannt und Ambiguitäten aufgelöst werden. Das Ziel ist die schnelle und verlässliche Informationsextraktion aus einer Vielzahl von Texten. In dieser Arbeit soll speziell die Domäne der biomedizinischen Texte beleuchtet werden, da in diesem Gebiet sehr großer Forschungsaufwand betrieben wird und reichlich viel versprechende Methoden betrachtet werden können.

3. Automatische Erkennung von Abkürzungen

Im Folgenden sollen nun zunächst einige Methoden vorgestellt werden, die sich mit der automatischen Erkennung und Auflösung von Abkürzungen in biomedizinischen Texten beschäftigen. Es wird deutlich werden, dass viele Methoden die gleichen Grundannahmen und systematischen Ansätze verwenden, jedoch in Ablauf und Funktion oft stark differieren.

3.1. Methode von Schwartz und Hearst

Ariel S. Schwartz und Marti A. Hearst[1] von der University of California (Berkeley) legen ihrer Methode die Annahme zugrunde, dass Abkürzungen in biomedizinischen Texten nach einem bestimmten vorhersagbaren Muster aufgebaut sind. Dieses Muster besagt im Wesentlichen, dass jeder Buchstabe der Abkürzung mit einem Buchstaben in der Definition korrespondiert und auch die jeweilige Reihenfolge, in der die einzelnen Buchstaben vorkommen, übereinstimmt. Die Abkürzung MMS für methyl methanesulfonate sulfate enthält zum Beispiel den jeweils ersten Buchstaben eines jeden Wortes der Langform:
MMSM ethyl M ethanesulfonate S ulfate.

Darüber hinaus soll die Methode auch Abkürzungen richtig identifizieren, bei denen diese Entsprechung nicht ganz so deutlich ist. In vielen Abkürzungen kommt es nämlich vor, dass Wörter in der Langform ignoriert werden müssen, in anderen Fällen hingegen stehen die Buchstaben der Abkürzung nicht durchweg für die Anfangsbuchstaben von Wörtern der Langform. GNAT für G cn5-related N - A cetyl T ransferase macht dies eindrucksvoll deutlich.

Schwartz und Hearst entwickelten einen auf dieses Abkürzungsmuster zugeschnittenen einfachen Algorithmus, welcher aus bestehenden Abkürzungs- und Textausschnittspaaren die entsprechenden zusammengehörenden Terme, also die eigentlichen Definitionen der jeweiligen Abkürzungen identifizieren soll. Das Hauptziel liegt dabei darin, dass, basierend auf einer gegebenen Abkürzungen, aus einem bestimmten Textausschnitt genau die Menge an relevanten Informationen, in den meisten Fällen eine Kette von Wörtern, eingegrenzt wird, die die Definition, also die Langform der Abkürzung ausmacht. Wie beinahe alle Methoden, die im Laufe dieser Arbeit vorgestellt werden, spielen Klammern bei diesem Vorhaben eine entscheidende Rolle. In einem ersten Schritt werden aus einem gegebenen Text alle Paare von Kurz- und Langformen gesucht und für die weitere Untersuchung extrahiert. Jedes dieser Paare besteht aus einem Klammerausdruck, also einem Term in Klammern, und einem Textausschnitt, der links von der Klammer steht. In allen Fällen steht also der Klammerausdruck am Ende eines Paares aus Kurz- und Langform. Dies gebietet die übliche Syntax der meisten aus dem europäischen Raum hervorgegangenen Sprachen und ist Voraussetzung für das Textverständnis des Lesers, welches nur durch bestimmte Regeln in der Sprache möglich wird.

Als nächstes muss bestimmt, wie die Kurz- und Langform in jedem Paar verteilt ist. Es gibt zwei Fälle, die hierbei in Betracht gezogen werden müssen:

Fall 1: Langform (Kurzform)
Fall 2: Kurzform (Langform)

Im ersten Fall steht die Abkürzung in Klammern und die entsprechende Langform steht unmittelbar davor. Dieser Fall hat sich als der in der Praxis am häufigsten vorkommende erwiesen. Im zweiten Fall ist es genau umgekehrt, die Langform steht in Klammern und die Abkürzung steht direkt vor dem Klammerausdruck.

Um diese Verteilung richtig zu erkennen, wird der in der Klammer enthaltene Term einer kurzen Überprüfung unterzogen. Sobald der Klammerausdruck mehr als zwei Wörter enthält, wobei die Wortgrenzen mittels Leerzeichen ermittelt werden, wird angenommen, dass sich die Langform innerhalb der Klammern befindet. Wenn sich innerhalb der Klammer jedoch eine Zeichenkette befindet, die aus zwei bis zehn Zeichen besteht und eine gewisse Mindestanzahl an Buchstaben enthält, schlussfolgert der Algorithmus, dass sich die Kurzform, also die Abkürzung, zwischen den Klammern befindet. In beiden Fällen wird das entsprechende Gegenstück zur erkannten Form links vom Klammerausdruck ausgemacht. Dabei gelten nur die Bedingungen, dass der in Frage kommen Textausschnitt im gleichen Satz wie der Klammerausdruck steht und, für den Fall, dass die Abkürzung innerhalb der Klammern steht, der Textausschnitt maximal aus einer bestimmten Anzahl an Wörtern bestehen darf, die in direkten Zusammenhang mit der Anzahl der Buchstaben der Abkürzung steht.

In der vorliegenden Arbeit soll nun jener Fall näher betrachtet werden, der in der Praxis am häufigsten vorkommt: Die Kurzform, also die Abkürzung, steht innerhalb der Klammer und die Langform steht links von der Klammer.

Wie bereits erwähnt, besteht das Hauptziel des Algorithmus darin, den Umfang der relevanten Informationen aus dem zur Abkürzung gehörenden Textausschnitt zu bestimmen. Eine Grenze der zu identifizierenden Langform wird vom Algorithmus ganz einfach am linken Rand des Klammerausdrucks festgelegt. Dies entspricht dem rechten Rand und damit dem letzten Buchstaben der Langform. Der Algorithmus muss zur Identifizierung der auf die Abkürzung passenden Langform demzufolge nur noch solange den Textausschnitt untersuchen, bis der linke Rand, also der erste Buchstabe der Langform gefunden wird. Aus dem Textausschnitt wird dann die durch die gefundenen Anfangs- und Endbuchstaben begrenzte Zeichenkette als Langform zur Abkürzung ausgegeben.

Der Algorithmus von Schwartz und Hearst leistet im Wesentlichen das Folgende. Sowohl die Abkürzung als auch der zur Untersuchung stehende Textausschnitt werden als Zeichenketten betrachtet und vom Algorithmus jeweils von rechts nach links durchlaufen. Dabei wird nach übereinstimmenden Buchstaben gesucht und auf diese Weise die kürzeste mögliche Langform zur Abkürzung gesucht. Dabei kommt es maßgeblich darauf an, dass jeder Buchstabe, der in der Abkürzung vorkommt auch in der Langform vorliegt. Darüber hinaus muss dies noch in der gleichen Reihenfolge der Fall sein. Während der Algorithmus arbeitet, ist es nicht wichtig, an welcher Stelle die Buchstaben in der Langform stehen. Sie können am Wortende, inmitten eines Wortes oder am Wortanfang stehen. Die einzige Ausnahme stellt der Anfangsbuchstabe der Abkürzung dar, welcher ebenfalls der Anfangsbuchstabe eines Wortes sein muss. Der Algorithmus muss also nur in diesem Fall jedweden Treffer ignorieren, der im Inneren eines Wortes vorkommt und darf nur am Wortanfang eines im Textausschnitt vorhandenen Wortes einen Treffer für gültig anerkennen.

An folgendem Beispiel lässt sich der Algorithmus recht eindrucksvoll verdeutlichen:

[...]


[1] Schwartz, Ariel S.; Hearst, Marti A.: [2003] A simple algorithm for identifying abbreviation definitions in biomedical text. In: R.B. Altman, A.K. Dunker, L. Hunter, T.A. Jung & T.E. Klein (Eds.), Pacific Symposium on Biocomputing 2003. Kauai, Hawaii, USA, January 3-7, 2003. New Jersey etc.: World Scientific, 2002, S. 451-462.

Ende der Leseprobe aus 27 Seiten

Details

Titel
Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten
Hochschule
Friedrich-Schiller-Universität Jena  (Institut für Germanistische Sprachwissenschaft)
Veranstaltung
Namen: Verfahren zur automatischen Erkennung
Note
1,3
Autor
Jahr
2006
Seiten
27
Katalognummer
V55182
ISBN (eBook)
9783638502085
ISBN (Buch)
9783638663779
Dateigröße
560 KB
Sprache
Deutsch
Schlagworte
Abkürzungen, Akronyme, Verfahren, Erkennung, Auflösung, Mehrdeutigkeiten, Texten, Namen
Arbeit zitieren
Steffen Kuegler (Autor), 2006, Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten, München, GRIN Verlag, https://www.grin.com/document/55182

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden