The automatic Named Entity Recognition and Classification (NERC) is an important sub task of the information extraction of texts, whose fundamental properties are the choice of the considered feature
space, the applied learning techniques as well as the evaluation of existing systems. The goal of this work is to discuss these aspects, to compare existing approaches to NERC and to classifiy those regarding
their potential.
----------
Die maschinelle Erkennung von Eigennamen - Named Entity Recognition and Classification (NERC) -ist ein wichtiges Teilfeld der Informationsextrahierung aus Texten, dessen wesentliche Bestandteile die Wahl des betrachteten Eigenschaftenraumes, die eingesetzten Lerntechniken sowie die anschließende Evaluation bestehender Systeme sind. Diese Studienarbeit hat zum Ziel, diese Aspekte zu erörtern sowie existierende Herangehensweisen zur Eigennamenerkennung gegeneinander abzuwägen und hinsichtlich ihres Potentials zu bewerten.

Leseprobe

Inhaltsverzeichnis

1 Introduction

1.1 Scope of this Work

1.2 Applications of NERC

1.3 Type, Domain and Language Factors

2 NERC Evaluation

2.1 Ways of Evaluation

2.1.1 MUC Evaluations

2.1.2 Exact-match Evaluations

2.2 Evaluation Metrics

3 Features for NERC

3.1 List lookup features

3.2 Document and corpus features

3.3 Short Example

4 Overview of NERC Systems

4.1 Supervised Learners

4.1.1 Baseline Approach

4.1.2 Maximum Entropy Approach

4.2 Semi-Supervised Learners

4.3 Unsupervised Learners

4.3.1 Augmenting Ontologies

4.3.2 Generating Gazetteers and Resolving Ambiguity

5 Conclusion

Zielsetzung und Themen

Die vorliegende Arbeit untersucht Verfahren zur maschinellen Erkennung und Klassifizierung von Eigennamen (Named Entity Recognition and Classification, NERC) unter besonderer Berücksichtigung des Grades der notwendigen manuellen Annotation sowie der mathematischen Evaluationsmetriken.

Vergleich von überwachten (supervised), teilüberwachten (semi-supervised) und nicht überwachten (unsupervised) Lernverfahren.
Analyse der Bedeutung des gewählten Merkmalsraums (feature space) für die Systemleistung.
Diskussion mathematischer Evaluationsmetriken wie Recall, Precision und F1-Maß.
Untersuchung von Ansätzen zur Einbindung externer Wissensquellen wie WordNet oder Web-Ressourcen.
Identifikation von Vor- und Nachteilen bestehender Systeme hinsichtlich Skalierbarkeit und Domänenanpassung.

Auszug aus dem Buch

1.2 Applications of NERC

In [JJ08, p. 761], the authors claim that

The starting point for most information extraction applications is the detection and classification of the named entities in a text.

The core application of NERC is indeed the Information Extraction (IE) branch. When you are trying to e.g. assign a category label to a given text, it is very helpful to know about the organizations, people, locations and brands mentioned in that text. Other tasks where NERC could be used include automatic summarization and question answering. A natural language recognition task which is important in developing working NERC systems is word sense disambiguation.

Zusammenfassung der Kapitel

1 Introduction: Einführung in die Thematik der Named Entity Recognition, Definition der Begriffe und Abgrenzung des Arbeitsumfangs.

2 NERC Evaluation: Erläuterung der methodischen Ansätze zur Leistungsbewertung von NERC-Systemen, einschließlich Fehlerkategorisierung und Metriken wie Precision, Recall und F1-Maß.

3 Features for NERC: Analyse der Bedeutung von Merkmalsräumen für die Modellbildung sowie Vorstellung verschiedener Merkmalsgruppen, illustriert durch ein praktisches Beispiel.

4 Overview of NERC Systems: Kategorisierung und Vergleich von NERC-Systemen basierend auf ihrem Grad der Überwachung, unter Einbeziehung von Baseline-, Maximum-Entropy- und weiteren modernen Ansätzen.

5 Conclusion: Zusammenfassende Bewertung der Lernansätze und Ausblick auf zukünftige Entwicklungen im Bereich der Eigennamenerkennung.

Schlüsselwörter

Named Entity Recognition, NERC, Informationsextraktion, Maschinelles Lernen, Supervised Learning, Semi-Supervised Learning, Unsupervised Learning, Evaluation, Precision, Recall, F1-Maß, Feature Engineering, WordNet, Gazetteers, Sprachverarbeitung.

Häufig gestellte Fragen

Worum geht es in dieser Studienarbeit grundsätzlich?

Die Arbeit befasst sich mit der automatischen Erkennung und Klassifizierung von Eigennamen (Named Entity Recognition and Classification) in Texten mittels maschineller Lernverfahren.

Welche zentralen Themenfelder werden behandelt?

Die zentralen Felder sind die Wahl des Merkmalsraums, der Grad der notwendigen manuellen Annotation (Supervision) und die mathematische Evaluation der erzielten Ergebnisse.

Was ist das primäre Ziel oder die Forschungsfrage dieser Arbeit?

Das Ziel ist es, verschiedene Ansätze der Eigennamenerkennung zu erörtern, miteinander zu vergleichen und deren Potenzial sowie Vor- und Nachteile kritisch zu bewerten.

Welche wissenschaftlichen Methoden werden verwendet?

Die Arbeit nutzt eine komparative Literaturanalyse von Forschungsarbeiten zu verschiedenen Lernansätzen (Supervised, Semi-Supervised, Unsupervised) und vergleicht deren Leistungskennzahlen.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die Darstellung von Evaluationsmetriken, die Bedeutung des Feature-Engineering sowie einen detaillierten Überblick über verschiedene Klassen von NERC-Systemen und deren Algorithmen.

Welche Schlüsselwörter charakterisieren diese Arbeit?

Wichtige Begriffe sind unter anderem Named Entity Recognition (NER), Maschinelles Lernen, Evaluation, Precision, Recall, F1-Maß und Informationsextraktion.

Warum ist das gewählte "F1-Maß" bei der Evaluation so wichtig?

Das F1-Maß kombiniert Precision und Recall zu einem harmonischen Mittelwert und ermöglicht so eine objektivere Vergleichbarkeit von Systemen, die unterschiedliche Schwerpunkte bei der Fehlervermeidung setzen.

Was unterscheidet Supervised- von Unsupervised-Learnern im Kontext der NERC?

Der Hauptunterschied liegt in der Menge der benötigten manuellen Annotationen ("Gold Data"): Während Supervised-Learner auf umfangreich gelabelte Datensätze angewiesen sind, nutzen Unsupervised-Learner Ressourcen wie WordNet oder statistische Analysen auf unannotierten Daten.

Ende der Leseprobe aus 22 Seiten - nach oben

Details

Titel: Named Entity Recognition - Techniques and Evaluation
Hochschule: Technische Universität Darmstadt (Fachbereich Informatik)
Veranstaltung: Text Analytics
Note: 1,7
Autor: Dominic Scheurer (Autor:in)
Erscheinungsjahr: 2011
Seiten: 22
Katalognummer: V190582
ISBN (eBook): 9783656149439
Sprache: Deutsch
Schlagworte: Eigennamen Natural Language Processing
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Dominic Scheurer (Autor:in), 2011, Named Entity Recognition - Techniques and Evaluation, München, GRIN Verlag, https://www.grin.com/document/190582

Named Entity Recognition - Techniques and Evaluation