Classification of Document Languages Using Low-Level Information


Seminar Paper, 2003

23 Pages, Grade: 1,3


Excerpt


Inhaltsverzeichnis

1 Einleitung

2 Überblick verschiedener Sprach- und Schriftklassen

3 Dokumentuntersuchung und – erkennung
3.1 Vorbereitung der Dokumente
3.2 Schrift-Klassifizierung
3.2.1 Ausdehnung der Bounding Boxen
3.2.2 Höhenverteilung
3.2.3 Horizontale Projektion
3.2.4 Upward Concavity
3.3 Spracherkennung
3.3.1 Shape Coding bei romanischen Sprachen
3.3.2 Optical Density bei Han-basierten Sprachen
3.3.3 N-Gram basierter Algorithmus
3.4 Testergebnisse ausgewählter Verfahren
3.4.1 Shape Codes
3.4.2 N-Gram basierter Algorithmus

4 Schluss und Zukunftsausblick

5 Literaturverzeichnis

Abbildungsverzeichnis

Abb. 1: Textzonen

Abb. 2: Bounding Boxen (Englisch und Chinesisch)

Abb. 3: Höhenverteilung der Bounding Boxen

Abb. 4: Horizontale Projektion (Arabische, Han-basierte und lateinische Schrift)

Abb. 5: Upward Concavity

Abb. 6: Upward Concavity Verteilungen

Abb. 7: Shape Codes

Abb. 8: Optical Density (Chinesisch)

Abb. 9: Optical Density Verteilungen

Abb. 10: N-Grams

Tabellenverzeichnis

Tab. 3.1: Shape Codes - Konvertierungsregeln

Tab. 3.2: Top 5 Word Shape Codes

Tab. 3.3 Genauigkeit der Spracherkennung (in %)

Tab. 3.4 Überschneidungen bei der Spracherkennung

1 Einleitung

Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumente ausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen.

Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low-level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Hauptteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.

2 Überblick verschiedener Sprach- und Schriftklassen

Weltweit existiert eine große Anzahl von Sprachen. Die meisten Sprachen lassen sich in Sprachklassen einteilen. Prominente Vertreter solcher Klassen sind die romanischen Sprachen (z. B. Französisch, Italienisch, Spanisch, Portugiesisch), indogermanische Sprachen (z. B. Englisch, Deutsch) oder Han-basierte Sprachen zu denen Chinesisch, Japanisch und Koreanisch zu zählen sind. Die romanischen Sprachen sind allesamt aus dem Lateinischen hervorgegangen und werden heutzutage von mehr als 650 Millionen Menschen weltweit gesprochen. Chinesisch ist die auf der Welt am häufigsten gesprochene Sprache - gefolgt von Spanisch und Englisch.

Da sich die vorliegende Arbeit mit der Spracherkennung von Dokumenten beschäftigt, spielen die verschiedenen Schriftarten eine herausragende Rolle. Die richtige Erkennung der Schrift ist ein sehr wichtiger Schritt zur Identifikation der Sprache eines Dokumentes. Eine mögliche Definition von Schrift ist: „Ein System von Zeichen, das Begriffe oder Laute zum Zweck der Informationsvermittlung oder -aufbewahrung sichtbar macht. Die Schrift ist ein visuelles Medium, da sie über das Auge wahrgenommen wird. Die einzelnen Elemente der Schrift nennt man Schriftzeichen.“ [10]

Sowohl die romanischen als auch die indogermanischen Sprachen bedienen sich zur Darstellung der lateinischen Schrift. Sie zeichnet sich im Vergleich zu anderen Schriftsystemen dadurch aus, dass die Anzahl der grafischen Zeichen bzw. Symbole (Buchstaben, Zahlen und Satzzeichen) sehr klein ist. Zudem ist die lateinische Schrift ein lineares Zeichensystem, d. h. es gibt genau eine richtige Reihenfolge, in der man die einzelnen Elemente des Systems zu Wörtern, Sätzen und ganzen Texten zusammenstellen kann. Zusätzlich gibt es in vielen Sprachen, die sich der lateinischen Schrift bedienen, bestimmte Besonderheiten wie z. B. Akzente im Französischen oder Umlaute im Deutschen, die eine Spracherkennung unterstützen.

Die Han-Schriften sind etwa 6000 Jahre alt. Völlig konträr zur lateinischen Schrift (ca.100 Schriftzeichen) bestehen die Han-Schriften aus einer Vielzahl von Schriftzeichen. Ein chinesisches Wörterbuch umfasst z. B. über 56.000 Schriftzeichen, wobei moderne Bücher und Zeitungen mit etwa 3.000 auskommen. Chinesisch ist eine nicht flektierende Sprache, d. h. die einzelnen Worte stehen als isolierte Einheiten nebeneinander und werden nicht verändert. Grammatikalische Merkmale wie Anzahl, Fall oder Zeit der Wörter werden durch hinzugefügte kennzeichnende Silben ausgedrückt. Die chinesischen Schriftzeichen basieren auf Abbildungen der Realität. So ähnelt beispielsweise ein Schriftzeichen, das „Mensch“ bedeutet, mit etwas Vorstellungskraft der Statur eines Menschen. Es handelt sich also nicht - wie z. B. im Koreanischen - um eine Lautschrift. Die japanische Schrift ist eine vereinfachte Form der chinesischen Bildschrift.

Im Folgenden werden Merkmale der beiden hauptsächlich untersuchten Schriftsysteme aufgezeigt, die eine Unterscheidung erleichtern und die in den, im Verlauf der Arbeit beschriebenen Systemen, Anwendung finden:

- Dokumente in lateinischer Schrift sind horizontal ausgerichtet und werden von links nach rechts gelesen. Han-basierte Dokumente hingegen können sowohl horizontal als auch vertikal ausgerichtet sein und auch die Leserichtung ist nicht festgelegt.
- Die Unterscheidung zwischen Groß- und Kleinschreibung wie z. B. im Deutschen gibt es in Han-basierten Schriften nicht; die Schriftzeichen sind zumeist identisch groß.
- In Han-Schriftsystemen gibt es keine Leerzeichen zwischen Wörtern, so wie man es im lateinischen Stil gewohnt ist. Worte werden aneinandergereiht und es bleibt dem Leser überlassen, diese zu unterscheiden.

3 Dokumentuntersuchung und – erkennung

3.1 Vorbereitung der Dokumente

Um eine Schrift- und nachfolgend eine Spracherkennung effizient durchführen zu können, müssen die elektronischen Dokumente zunächst vorbereitet werden. Da die Dokumente aus vielen verschiedenen Quellen stammen können und eventuell mit Hilfe diverser Textverarbeitungsprogramme auf der Basis unterschiedlicher Konventionen erstellt worden sind, gilt es diese in einen gemeinsamen Standard zu transformieren, sodass die Schrift- und Spracherkennungssysteme darauf angewandt werden können. Um die Robustheit der Verfahren zu gewährleisten, werden low-level Informationen der Dokumente während des Anpassungsprozesses verwendet. Diese machen die Identifikation unabhängig von qualitativ schlechten und fehlerhaften Dokumenten, z. B. können einzelne Zeilen einen schiefen Winkel relativ zur Ausrichtung des restlichen Dokuments haben. Während des Vorbereitungsprozesses werden diese Fehlerquellen ermittelt und beseitigt.

Connected Components

Zunächst wird das eingescannte Dokument in verschiedene Textfelder unterteilt. Anschließend erfolgt eine Segmentierung des Textes in Paragraphen, Zeilen, Wörter und Buchstaben. Dieses „Herunterbrechen“ des Textes auf seine kleinsten Bestandteile endet auf dem untersten Level mit der Einteilung in Connected Components (Zusammenhangskomponenten) [3]. Es besteht eine Connected Component, wenn sie aus einer Menge von Pixel gebildet wird, deren Elemente jeweils durch einen stetigen Weg miteinander verbunden sind. Ein Buchstabe kann aus mehreren Connected Components bestehen. So bilden z. B. die beiden Komponenten Punkt und Strich den Buchstaben „i“. Bei der Segmentierung spielen weiße Zwischenräume zwischen Wörtern und Buchstaben die entscheidende Rolle. Da die Zwischenräume von Buchstaben eines Wortes in der Regel kleiner sind als diejenigen zwischen ganzen Wörtern, ist diese Untersuchung sehr zuverlässig. In Han-basierten Sprachen, wie bereits oben erläutert, gibt es keine Leerzeichen zwischen Wörtern. Zudem tritt das Problem auf, dass bestimmte Schriftzeichen aus 2 horizontal voneinander getrennten Teilen bestehen. Nichtsdestotrotz funktioniert die Methode der Connected Components auch für diese Sprachfamilie.

[...]

Excerpt out of 23 pages

Details

Title
Classification of Document Languages Using Low-Level Information
College
University of Münster  (Informatik)
Course
Document Analysis and Recognition
Grade
1,3
Author
Year
2003
Pages
23
Catalog Number
V40457
ISBN (eBook)
9783638389679
File size
700 KB
Language
German
Keywords
Classification, Document, Languages, Using, Low-Level, Information, Document, Analysis, Recognition
Quote paper
Kerim Galal (Author), 2003, Classification of Document Languages Using Low-Level Information, Munich, GRIN Verlag, https://www.grin.com/document/40457

Comments

  • No comments yet.
Look inside the ebook
Title: Classification of Document Languages Using Low-Level Information



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free