1
Inhaltsverzeichnis
1 Einleitung. 2
2 Überblick verschiedener Sprach- und Schriftklassen 3
3 Dokumentuntersuchung und - erkennung 5
3.1 Vorbereitung der Dokumente. 5
3.2 Schrift-Klassifizierung. 7
3.2.1 Ausdehnung der Bounding Boxen. 7
3.2.2 Höhenverteilung 8
3.2.3 Horizontale Projektion. 8
3.2.4 Upward Concavity. 9
3.3 Spracherkennung. 11
3.3.1 Shape Coding bei romanischen Sprachen 11
3.3.2 Optical Density bei Han-basierten Sprachen. 13
3.3.3 N-Gram basierter Algorithmus 15
3.4 Testergebnisse ausgewählter Verfahren. 16
3.4.1 Shape Codes 16
3.4.2 N-Gram basierter Algorithmus 20
4 Schluss und Zukunftsausblick. 21
5 Literaturverzeichnis 22
Abbildungsverzeichnis
Abb. 1: Textzonen 6
Abb. 2: Bounding Boxen (Englisch und Chinesisch) 7
Abb. 3: Höhenverteilung der Bounding Boxen. 8
Abb. 4: Horizontale Projektion (Arabische, Han-basierte und lateinische Schrift) 9
Abb. 5: Upward Concavity. 9
Abb. 6: Upward Concavity Verteilungen. 10
Abb. 7: Shape Codes. 12
Abb. 8: Optical Density (Chinesisch) 14
Abb. 9: Optical Density Verteilungen 15
Abb. 10: N-Grams 15
Tabellenverzeichnis
Tab. 3.1: Shape Codes - Konvertierungsregeln 12
Tab. 3.2: Top 5 Word Shape Codes 17
Tab. 3.3 Genauigkeit der Spracherkennung (in ) 18
Tab 3 4 Überschneidungen bei der Spracherkennung 19
2
1 Einleitung
Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumente ausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen.
Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Info rmationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.
3
2 Überblick verschiedene r Sprach- und Schriftklassen
Weltweit existiert eine große Anzahl von Sprachen. Die meisten Sprachen lassen sich in Sprachklassen einteilen. Prominente Vertreter solcher Klassen sind die romanischen Sprachen (z. B. Französisch, Italienisch, Spanisch, Portugiesisch), indogermanische Sprachen (z. B. Englisch, Deutsch) oder Han-basierte Sprachen zu denen Chinesisch, Japanisch und Koreanisch zu zählen sind. Die romanischen Sprachen sind allesamt aus dem Lateinischen hervorgegangen und werden heutzutage von mehr als 650 Millionen Menschen weltweit gesprochen. Chinesisch ist die auf der Welt am häufigsten gesprochene Sprache - gefolgt von Spanisch und Englisch.
Da sich die vorliegende Arbeit mit der Spracherkennung von Dokumenten beschäftigt, spielen die verschiedenen Schriftarten eine herausragende Rolle. Die richtige Erkennung der Schrift ist ein sehr wichtiger Schritt zur Identifikation der Sprache eines Dokumentes. Eine mögliche Definition von Schrift ist: „Ein System von Zeichen, das Be griffe oder Laute zum Zweck der Informationsvermittlung oder -aufbewahrung sichtbar macht. Die Schrift ist ein visuelles Medium, da sie über das Auge wahrgeno mmen wird. Die einzelnen Elemente der Schrift nennt man Schriftzeichen. “ [10] Sowohl die romanischen als auch die indogermanischen Sprachen bedienen sich zur Darstellung der lateinischen Schrift. Sie zeichnet sich im Vergleich zu anderen Schriftsystemen dadurch aus, dass die Anzahl der grafischen Zeichen bzw. Symbole (Buchstaben, Zahlen und Satzzeichen) sehr klein ist. Zudem ist die lateinische Schrift ein lineares Zeichensystem, d. h. es gibt genau eine richtige Reihenfolge, in der man die einze lnen Elemente des Systems zu Wörtern, Sätzen und ganzen Texten zusammenstellen kann. Zusätzlich gibt es in vielen Sprachen, die sich der lateinischen Schrift bedienen, bestimmte Besonderheiten wie z. B. Akzente im Französischen oder Umlaute im Deutschen, die eine Spracherkennung unterstützen.
Die Han-Schriften sind etwa 6000 Jahre alt. Völlig konträr zur lateinischen Schrift (ca.100 Schriftzeichen) bestehen die Han-Schriften aus einer Vielzahl von Schriftze ichen. Ein chinesisches Wörterbuch umfasst z. B. über 56.000 Schriftzeichen, wobei moderne Bücher und Zeitungen mit etwa 3.000 auskommen. Chinesisch ist eine nicht flektierende Sprache, d. h. die einzelnen Worte stehen als isolierte Einheiten nebenein-ander und werden nicht verändert. Grammatikalische Merkmale wie Anzahl, Fall oder Zeit der Wörter werden durch hinzugefügte kennzeichnende Silben ausgedrückt. Die chinesischen Schriftzeichen basieren auf Abbildungen der Realität. So ähnelt beispielsweise ein Schriftzeichen, das „Mensch“ bedeutet, mit etwas Vorstellungskraft der Statur eines Menschen. Es handelt sich also nicht - wie z. B. im Koreanischen - um eine Laut- schrift. Die japanische Schrift ist eine vereinfachte Form der chinesischen Bildschrift.
4
Im Folgenden werden Merkmale der beiden hauptsächlich untersuchten Schriftsysteme aufgezeigt, die eine Unterscheidung erleic htern und die in den, im Verlauf der Arbeit beschriebenen Systemen, Anwendung finden:
• Dokumente in lateinischer Schrift sind horizontal ausgerichtet und werden von links nach rechts gelesen. Han-basierte Dokumente hingegen können sowohl horizontal als auch vertikal ausgerichtet sein und auch die Leserichtung ist nicht festgelegt. • Die Unterscheidung zwischen Groß- und Kleinschreibung wie z. B. im Deutschen gibt es in Han-basierten Schriften nicht; die Schriftzeichen sind zumeist identisch groß.
• In Han-Schriftsystemen gibt es keine Leerzeichen zwischen Wörtern, so wie man es im lateinischen Stil gewohnt ist. Worte werden aneinandergereiht und es bleibt dem Leser überlassen, diese zu unterscheiden.
5
3 Dokumentuntersuchung und - erkennung
3.1 Vorbereitung der Dokumente
Um eine Schrift- und nachfolgend eine Spracherkennung effizient durchführen zu können, müssen die elektronischen Dokumente zunächst vorbereitet werden. Da die Dokumente aus vielen verschiedenen Quellen stammen können und eventuell mit Hilfe diverser Textverarbeitungsprogramme auf der Basis unterschiedlicher Konventionen erstellt worden sind, gilt es diese in einen gemeinsamen Standard zu transformieren, sodass die Schrift- und Spracherkennungssysteme darauf angewandt werden können. Um die Robustheit der Verfahren zu gewährleisten, werden low- level Informationen der Dokumente während des Anpassungsprozesses verwendet. Diese machen die Identifikation unabhängig von qualitativ schlechten und fehlerhaften Dokumenten, z. B. können einzelne Zeilen einen schiefen Winkel relativ zur Ausrichtung des restlichen Dokuments haben. Während des Vorbereitungsprozesses werden diese Fehlerquellen ermittelt und beseitigt.
Connected Components
Zunächst wird das eingescannte Dokument in verschiedene Textfelder unterteilt. Anschließend erfolgt eine Segmentierung des Textes in Paragraphen, Zeilen, Wörter und Buchstaben. Dieses „Herunterbrechen“ des Textes auf seine kleinsten Bestandteile endet auf dem untersten Level mit der Einteilung in Connected Components (Zusammenhangskomponenten) [3]. Es besteht eine Connected Component, wenn sie aus einer Menge von Pixel gebildet wird, deren Elemente jeweils durch einen stetigen Weg miteina nder verbunden sind. Ein Buchstabe kann aus mehreren Connected Components bestehen. So bilden z. B. die beiden Komponenten Punkt und Strich den Buchstaben „i“. Bei der Segmentierung spielen weiße Zwischenräume zwischen Wörtern und Buc hstaben die entscheidende Rolle. Da die Zwischenräume von Buchstaben eines Wortes in der Regel kleiner sind als diejenigen zwischen ganzen Wörtern, ist diese Untersuchung sehr zuve rlässig. In Han-basierten Sprachen, wie bereits oben erläutert, gibt es keine Leerzeichen zwischen Wörtern. Zudem tritt das Problem auf, dass bestimmte Schriftze ichen aus 2 horizontal voneinander getrennten Teilen bestehen. Nichtsdestotrotz funktio- niert die Methode der Connected Components auch für diese Sprachfamilie.
Arbeit zitieren:
Kerim Galal, 2003, Classification of Document Languages Using Low-Level Information, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Kerim Galal hat den Text Classification of Document Languages Using Low-Level Information veröffentlicht
Kerim Galal hat einen neuen Text hochgeladen
Low-Level Radioactive Waste Repositories: An Analysis of Costs
By Oecd Pu Published by Oecd Publishing, OECD Nuclear Energy Agency
The Impact of Low-Level Radioactive Waste Management Policy on Biomedi...
Committee on the Impact of Low-Level Rad, Board on Radiation Effects Research, National Research Council
Low-Level Hexavalent Chromium Treatment Options: Bench-Scale Evaluatio...
P. Brandhuber, M. Frey, M. McGuire
0 Kommentare