Bitte warten
Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.
Autor: Kerim Galal
Fach: Informatik - Angewandte Informatik
Details
Institution/Hochschule: Westfälische Wilhelms-Universität Münster (Informatik)
Tags: Classification, Document, Languages, Using, Low-Level, Information, Document, Analysis, Recognition
Jahr: 2003
Seiten: 23
Note: 1,3
Literaturverzeichnis: ~ 13 Einträge
Sprache: Deutsch
Dateigröße: 392 KB
ISBN (E-Book): 978-3-638-38967-9
Textauszug (computergeneriert)
Classification of Document Languages Using
Low-Level Information
von: Kerim Galal
Inhaltsverzeichnis
1 Einleitung 2
2 Überblick verschiedener Sprach- und Schriftklassen 3
3 Dokumentuntersuchung und – erkennung 5
3.1 Vorbereitung der Dokumente 5
3.2 Schrift-Klassifizierung 7
3.2.1 Ausdehnung der Bounding Boxen 7
3.2.2 Höhenverteilung 8
3.2.3 Horizontale Projektion 8
3.2.4 Upward Concavity 9
3.3 Spracherkennung 11
3.3.1 Shape Coding bei romanischen Sprachen 11
3.3.2 Optical Density bei Han-basierten Sprachen 13
3.3.3 N-Gram basierter Algorithmus 15
3.4 Testergebnisse ausgewählter Verfahren 16
3.4.1 Shape Codes 16
3.4.2 N-Gram basierter Algorithmus 20
4 Schluss und Zukunftsausblick 21
5 Literaturverzeichnis 22
1 Einleitung
Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumente ausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen.
Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low-level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haupt-teil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherken-nung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.
2 Überblick verschiedener Sprach- und Schriftklassen
Weltweit existiert eine große Anzahl von Sprachen. Die meisten Sprachen lassen sich in Sprachklassen einteilen. Prominente Vertreter solcher Klassen sind die romanischen Sprachen (z. B. Französisch, Italienisch, Spanisch, Portugiesisch), indogermanische Sprachen (z. B. Englisch, Deutsch) oder Hanbasierte Sprachen zu denen Chinesisch, Japanisch und Koreanisch zu zählen sind. Die romanischen Sprachen sind allesamt aus dem Lateinischen hervorgegangen und werden heutzutage von mehr als 650 Millionen Menschen weltweit gesprochen. Chinesisch ist die auf der Welt am häufigsten gesprochene Sprache - gefolgt von Spanisch und Englisch. Da sich die vorliegende Arbeit mit der Spracherkennung von Dokumenten beschäftigt, spielen die verschiedenen Schriftarten eine herausragende Rolle. Die richtige Erkennung der Schrift ist ein sehr wichtiger Schritt zur Identifikation der Sprache eines Dokumentes. Eine mögliche Definition von Schrift ist: „Ein System von Zeichen, das Begriffe oder Laute zum Zweck der Informationsvermittlung oder -aufbewahrung sichtbar macht. Die Schrift ist ein visuelles Medium, da sie über das Auge wahrgenommen wird. Die einzelnen Elemente der Schrift nennt man Schriftzeichen.“ [10]
Sowohl die romanischen als auch die indogermanischen Sprachen bedienen sich zur Darstellung der lateinischen Schrift. Sie zeichnet sich im Vergleich zu anderen Schriftsystemen dadurch aus, dass die Anzahl der grafischen Zeichen bzw. Symbole (Buchstaben, Zahlen und Satzzeichen) sehr klein ist. Zudem ist die lateinische Schrift ein lineares Zeichensystem, d. h. es gibt genau eine richtige Reihenfolge, in der man die einzelnen Elemente des Systems zu Wörtern, Sätzen und ganzen Texten zusammenstellen kann. Zusätzlich gibt es in vielen Sprachen, die sich der lateinischen Schrift bedienen, bestimmte Besonderheiten wie z. B. Akzente im Französischen oder Umlaute im Deutschen, die eine Spracherkennung unterstützen.
Die Han-Schriften sind etwa 6000 Jahre alt. Völlig konträr zur lateinischen Schrift (ca.100 Schriftzeichen) bestehen die Han-Schriften aus einer Vielzahl von Schriftzeichen. Ein chinesisches Wörterbuch umfasst z. B. über 56.000 Schriftzeichen, wobei moderne Bücher und Zeitungen mit etwa 3.000 auskommen. Chinesisch ist eine nicht flektierende Sprache, d. h. die einzelnen Worte stehen als isolierte Einheiten nebeneinander und werden nicht verändert. Grammatikalische Merkmale wie Anzahl, Fall oder Zeit der Wörter werden durch hinzugefügte kennzeichnende Silben ausgedrückt. Die chinesischen Schriftzeichen basieren auf Abbildungen der Realität. So ähnelt beispielsweise ein Schriftzeichen, das „Mensch“ bedeutet, mit etwas Vorstellungskraft der Statur eines Menschen. Es handelt sich also nicht - wie z. B. im Koreanischen - um eine Lautschrift. Die japanische Schrift ist eine vereinfachte Form der chinesischen Bildschrift.
Im Folgenden werden Merkmale der beiden hauptsächlich untersuchten Schriftsysteme aufgezeigt, die eine Unterscheidung erleichtern und die in den, im Verlauf der Arbeit beschriebenen Systemen, Anwendung finden:
• Dokumente in lateinischer Schrift sind horizontal ausgerichtet und werden von links nach rechts gelesen. Han-basierte Dokumente hingegen können sowohl horizontal als auch vertikal ausgerichtet sein und auch die Leserichtung ist nicht festgelegt.
• Die Unterscheidung zwischen Groß- und Kleinschreibung wie z. B. im Deutschen gibt es in Han-basierten Schriften nicht; die Schriftzeichen sind zumeist identisch groß.
• In Han-Schriftsystemen gibt es keine Leerzeichen zwischen Wörtern, so wie man es im lateinischen Stil gewohnt ist. Worte werden aneinandergereiht und es bleibt dem Leser überlassen, diese zu unterscheiden.
3 Dokumentuntersuchung und – erkennung
3.1 Vorbereitung der Dokumente
[...]
Kommentare
Dieser Text kann über folgende URL aufgerufen und zitiert werden: