Ein wichtiger Bestandteil der Schriftsprache sind die vielfältigen Formen von Abkürzungen. Während die Anzahl von Texten, Publikationen und Mitteilungen immer rasanter wächst, ist es wichtig, dass Abkürzungen und deren Bedeutungen immer richtig vom jeweiligen Rezipienten erkannt und verstanden werden. Je komplizierter und größer der Wortschatz jedoch wird, desto schwieriger wird es ebenfalls, dieses Gebot zu erfüllen. Vor allem in wissenschaftlichen Sprachzweigen stellt es daher eine immense Herausforderung dar, Abkürzungen in den ständig neuen Veröffentlichungen richtig ihren jeweiligen Bedeutungen zuzuordnen. Vor allem durch die rasante Neuschöpfung von Abkürzungen und die kaum noch zu gewährleistende Aktualität von entsprechenden Abkürzungswörterbüchern, kann diese Aufgabe von Hand kaum mehr erledigt werden. Darüber hinaus kommt dazu noch das Problem, dass viele Abkürzungen und Bedeutungen häufig mehrdeutig in Texten vorkommen und neben der zuverlässigen Erkennung auch die Auflösung dieser ambigen Begriffen stehen muss. Für fachspezifische Domänen, bestimmte Berufszweige und die vielfältigen Forschungsbemühungen ist daher die automatisierte Informationsextraktion und -Verarbeitung eines der wesentlichsten Ziele der computerlinguistischen Behandlung von Abkürzungen und Begriffen.

In der vorliegenden Arbeit sollen einige Verfahren vorgestellt werden, die sich mit der automatischen Erkennung von Abkürzungen und deren Auflösung zu der entsprechenden Langform beschäftigen. Dies wird am Beispiel des biomedizinischen Arbeitsgebiets geschehen, da hier ein sehr großer und exemplarischer Forschungsaufwand besteht. Darüber hinaus soll eine Auswahl an Methoden erläutert werden, welche mehrdeutigen Abkürzungen und Terme ihre eigentlichen kontextuellen Bedeutungen zuweisen sollen. Zunächst soll jedoch eine Einführung die Gründe und Ursachen für die Bedeutsamkeit von Abkürzungen beleuchten und unterschiedliche Typen von Abkürzung darstellen. Besonderes Augenmerk soll dabei auf Akronymen liegen, die den Drang nach Einfachheit in der Sprache wohl am besten verkörpern. Im Hauptteil der Arbeit wird deutlich werden, dass sich einige Methoden neben der Behandlung von gewöhnlichen Abkürzungen auch maßgeblich mit der Erkennung und Auflösung von Akronymen beschäftigen. Doch auch Lösungsansätze für Spezialfälle wie Gen- und Proteinbezeichnungen, welche ebenfalls Abkürzungen darstellen, werden vorgestellt.

Excerpt

Inhaltsverzeichnis

1. Einleitung

2. Abkürzungen

2.1. Varianten von Abkürzungen

2.2. Phänomene

2.3. Abkürzungsgebrauch in der Wissenschaft

3. Automatische Erkennung von Abkürzungen

3.1. Methode von Schwartz und Hearst

3.1.1. Precision und Recall

3.1.2. Resultate

3.2. Methode von Taghva und Gilbreth

3.2.1. Phase 1

3.2.2. Phase 2

3.2.3. Phase 3

3.2.4. Phase 4

3.2.5. Resultate

3.3. Methode von Yu, Hripcsak und Friedman

3.3.1. Phase 1

3.3.2. Phase 2

3.3.3. Resultate

3.3.4. Erweiterung der Methode für Gen- und Proteinbezeichnungen

4. Auflösung von Mehrdeutigkeiten

4.1. Methode von Liu, Lussier und Friedman

4.1.1. Phase 1

4.1.2. Phase 2

4.1.3. Resultate

4.2. Weitere Methoden

4.2.1. Methode von Pakhmov

4.2.2. Methode von Nenadic, Spasic und Ananiadou

5. Ausblick

6. Referenzen

Zielsetzung & Themen

Die Arbeit untersucht computerlinguistische Verfahren zur automatischen Identifizierung von Abkürzungen und deren Auflösung in die entsprechende Langform, mit einem besonderen Fokus auf biomedizinische Fachtexte. Ziel ist es, die Herausforderungen der Informationsextraktion bei wachsenden Textmengen zu adressieren und Methoden zur Auflösung von Mehrdeutigkeiten (Disambiguierung) vorzustellen.

Automatisierte Erkennung von Abkürzungen und Akronymen
Methoden der linguistischen Informationsextraktion in der Biomedizin
Evaluation durch Präzisions- und Vollständigkeitsmaße (Precision/Recall)
Disambiguierung von Fachtermini und mehrdeutigen Abkürzungen
Spezialisierte Algorithmen für Gen- und Proteinbezeichnungen

Auszug aus dem Buch

3.1. Methode von SCHWARTZ und HEARST

ARIEL S. SCHWARTZ und MARTI A. HEARST von der University of California (Berkeley) legen ihrer Methode die Annahme zugrunde, dass Abkürzungen in biomedizinischen Texten nach einem bestimmten vorhersagbaren Muster aufgebaut sind. Dieses Muster besagt im Wesentlichen, dass jeder Buchstabe der Abkürzung mit einem Buchstaben in der Definition korrespondiert und auch die jeweilige Reihenfolge, in der die einzelnen Buchstaben vorkommen, übereinstimmt.

Darüber hinaus soll die Methode auch Abkürzungen richtig identifizieren, bei denen diese Entsprechung nicht ganz so deutlich ist. In vielen Abkürzungen kommt es nämlich vor, dass Wörter in der Langform ignoriert werden müssen, in anderen Fällen hingegen stehen die Buchstaben der Abkürzung nicht durchweg für die Anfangsbuchstaben von Wörtern der Langform.

SCHWARTZ und HEARST entwickelten einen auf dieses Abkürzungsmuster zugeschnittenen einfachen Algorithmus, welcher aus bestehenden Abkürzungs- und Textausschnittspaaren die entsprechenden zusammengehörenden Terme, also die eigentlichen Definitionen der jeweiligen Abkürzungen identifizieren soll. Das Hauptziel liegt dabei darin, dass, basierend auf einer gegebenen Abkürzung, aus einem bestimmten Textausschnitt genau die Menge an relevanten Informationen, in den meisten Fällen eine Kette von Wörtern, eingegrenzt wird, die die Definition, also die Langform der Abkürzung ausmacht. In einem ersten Schritt werden aus einem gegebenen Text alle Paare von Kurz- und Langformen gesucht und für die weitere Untersuchung extrahiert. Jedes dieser Paare besteht aus einem Klammerausdruck, also einem Term in Klammern, und einem Textausschnitt, der links von der Klammer steht.

Zusammenfassung der Kapitel

1. Einleitung: Die Einleitung beleuchtet die zunehmende Bedeutung von Abkürzungen in wissenschaftlichen Texten und definiert das Ziel der Arbeit, automatisierte Verfahren zur Erkennung und Auflösung dieser Ausdrücke zu untersuchen.

2. Abkürzungen: Dieses Kapitel erläutert die Entstehungsgeschichte, Typologie von Abkürzungen und die spezifische Relevanz des Abkürzungsgebrauchs im wissenschaftlichen Kontext.

3. Automatische Erkennung von Abkürzungen: Im Hauptteil werden verschiedene Algorithmen (Schwartz/Hearst, Taghva/Gilbreth, Yu et al.) vorgestellt, die mittels musterbasierter Ansätze und Regelsystemen Abkürzungen in biomedizinischen Texten identifizieren.

4. Auflösung von Mehrdeutigkeiten: Das Kapitel widmet sich der Herausforderung, mehrdeutige Terme in biomedizinischen Texten durch linguistische Disambiguierungsverfahren korrekt zuzuordnen.

5. Ausblick: Der Ausblick resümiert die Notwendigkeit fortlaufender Forschung zur Verbesserung der Informationsextraktion, um den manuellen Aufwand in der wissenschaftlichen Dokumentation zu reduzieren.

6. Referenzen: Das Literaturverzeichnis listet die verwendeten wissenschaftlichen Fachpublikationen auf.

Schlüsselwörter

Abkürzungen, Akronyme, Informationsextraktion, Biomedizin, Computerlinguistik, Precision, Recall, Disambiguierung, Algorithmen, Textverarbeitung, Genbezeichnungen, Proteinbezeichnungen, Datenanalyse, MEDLINE, Sprachwissenschaft.

Häufig gestellte Fragen

Worum geht es in der Arbeit grundlegend?

Die Arbeit befasst sich mit der computergestützten automatischen Erkennung und Auflösung von Abkürzungen sowie der Auflösung von Bedeutungsvielfalt in biomedizinischen Fachtexten.

Welche zentralen Themenfelder werden behandelt?

Zu den zentralen Themen gehören die Typologie von Abkürzungen, Algorithmen zur Mustererkennung (Pattern Matching) und Methoden zur Wort-Sinn-Disambiguierung.

Was ist das primäre Ziel der Untersuchung?

Das primäre Ziel ist die Evaluierung bestehender computerlinguistischer Methoden, um die Effizienz der Informationsextraktion in wissenschaftlichen Texten zu steigern.

Welche wissenschaftliche Methode kommt zum Einsatz?

Die Arbeit nutzt einen vergleichenden methodischen Ansatz, bei dem verschiedene Algorithmen anhand ihrer Genauigkeitsmaße (Precision) und Vollständigkeitsraten (Recall) analysiert werden.

Was wird im Hauptteil behandelt?

Im Hauptteil werden spezifische Algorithmen, wie der von Schwartz und Hearst oder Taghva und Gilbreth, detailliert erläutert und ihre Leistungsfähigkeit an Testkollektionen dargelegt.

Welche Schlüsselwörter charakterisieren die Publikation?

Wesentliche Begriffe sind Abkürzungserkennung, Akronymauflösung, biomedizinische Informationsextraktion, Precision, Recall und Disambiguierung.

Was ist bei der Methode von Schwartz und Hearst besonders relevant?

Diese Methode nutzt ein vorhersagbares, zeichenbasiertes Muster, bei dem Buchstaben der Abkürzung in der zugehörigen Langform gesucht werden, wobei Klammern als entscheidende Ankerpunkte dienen.

Warum sind Gen- und Proteinbezeichnungen ein Spezialfall?

Diese Begriffe folgen häufig eigenen, komplexen Regeln, die über standardisierte Abkürzungsmuster hinausgehen, etwa durch die Integration von Symbolen oder Zahlen.

Wie unterscheidet sich die Disambiguierung von der einfachen Abkürzungserkennung?

Während die Erkennung primär die Langform identifiziert, zielt die Disambiguierung darauf ab, aus einer Liste möglicher Bedeutungen den kontextuell korrekten Sinn zu wählen.

Excerpt out of 27 pages - scroll top

Details

Title: Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten
College: http://www.uni-jena.de/ (Institut für Germanistische Sprachwissenschaft)
Course: Namen: Verfahren zur automatischen Erkennung
Grade: 1,3
Author: Steffen Kuegler (Author)
Publication Year: 2006
Pages: 27
Catalog Number: V55182
ISBN (eBook): 9783638502085
ISBN (Book): 9783638663779
Language: German
Tags: Abkürzungen Akronyme Verfahren Erkennung Abkürzungen Auflösung Mehrdeutigkeiten Texten Namen Verfahren Erkennung
Product Safety: GRIN Publishing GmbH

Quote paper: Steffen Kuegler (Author), 2006, Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten, Munich, GRIN Verlag, https://www.grin.com/document/55182

Abkürzungen und Akronyme - Verfahren zur automatischen Erkennung von Abkürzungen und Auflösung von Mehrdeutigkeiten in biomedizinischen Texten