Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumenteausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen. Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Überblick verschiedener Sprach- und Schriftklassen

3 Dokumentuntersuchung und – erkennung

3.1 Vorbereitung der Dokumente

3.2 Schrift-Klassifizierung

3.2.1 Ausdehnung der Bounding Boxen

3.2.2 Höhenverteilung

3.2.3 Horizontale Projektion

3.2.4 Upward Concavity

3.3 Spracherkennung

3.3.1 Shape Coding bei romanischen Sprachen

3.3.2 Optical Density bei Han-basierten Sprachen

3.3.3 N-Gram basierter Algorithmus

3.4 Testergebnisse ausgewählter Verfahren

3.4.1 Shape Codes

3.4.2 N-Gram basierter Algorithmus

4 Schluss und Zukunftsausblick

Zielsetzung und Themen

Die Arbeit befasst sich mit der automatisierten Spracherkennung von Dokumenten auf Basis von "low-level" Informationen, um die Effizienz bei der Kategorisierung und digitalen Archivierung in einer vernetzten Welt zu steigern. Dabei wird untersucht, wie durch Analyse von Schriftmerkmalen und statistischen Modellen die Sprache eines Dokuments vor der Anwendung eines OCR-Systems identifiziert werden kann.

Methoden zur Schriftklassifizierung und Unterscheidung von Schriftsystemen
Einsatz von Shape Coding zur Erkennung romanischer Sprachen
Anwendung der optischen Dichte (Optical Density) bei Han-basierten Schriften
Vergleich von N-Gram basierten Algorithmen zur Sprachidentifikation
Herausforderungen durch Dokumentenqualität und Sprachähnlichkeiten

Auszug aus dem Buch

3.3.1 Shape Coding bei romanischen Sprachen

Unter dem Begriff Shape Coding versteht man ein Verfahren zur Codierung von Zeichen, dass die Erkennung verschiedener romanischer Sprachen vorbereitet und unterstützt. Mit Hilfe dieses Verfahrens codiert man die lateinischen Schriftzeichen, indem sie bestimmten, vereinfachenden und übergreifenden Zeichenklassen (sog. Shape Codes) zugeordnet werden. Zur Einteilung in Klassen verwendet man verschiedene Heuristiken. Es gibt in der Literatur verschiedene Granularitätsstufen der Konvertierung; so reicht die Einteilung der Schriftzeichen in nur 6 bis hin zu 13 verschiedenen Shape Codes. Im Folgenden verwenden wir die Einteilung nach C. Y. Suen et al. [4]:

Die Konvertierungsregeln beziehen sich auf die oben erklärten Connected Components der Schriftzeichen und die Anordnung der Bounding Boxen. Dabei stellen die Anzahl der Connected Components des jeweiligen Zeichens, die Größe der Bounding Boxen und deren Position innerhalb der vier Linien: Unterlänge, Grundlinie, Mittellänge und Oberlänge die Unterscheidungsmerkmale dar. Diese Konvertierung wird auf das gesamte zu untersuchende Dokument angewandt. Es entsteht also ein Dokument, das ausschließlich aus den beschriebenen 13 Zeichen besteht.

Zusammenfassung der Kapitel

1 Einleitung: Beschreibt die steigende Notwendigkeit der automatischen Spracherkennung für die effiziente digitale Verwaltung von Dokumenten und führt in die Problematik bestehender OCR-Systeme ein.

2 Überblick verschiedener Sprach- und Schriftklassen: Differenziert zwischen verschiedenen Sprachfamilien, insbesondere romanischen, indogermanischen und Han-basierten Schriften, und erläutert deren strukturelle Besonderheiten.

3 Dokumentuntersuchung und – erkennung: Erläutert die notwendigen Vorbereitungsschritte und stellt verschiedene technische Verfahren zur Schrift- und Spracherkennung detailliert vor.

4 Schluss und Zukunftsausblick: Reflektiert den aktuellen Forschungsstand, diskutiert die Herausforderungen durch variierende Dokumentenqualität und skizziert künftige Entwicklungsziele.

Schlüsselwörter

Spracherkennung, OCR, Document Analysis and Recognition, Shape Coding, Optical Density, N-Gram, Schriftsysteme, Bounding Boxen, Connected Components, Dokumentenklassifizierung, Sprachidentifikation, Low-Level Informationen, Schrift-Klassifizierung

Häufig gestellte Fragen

Worum geht es in der Arbeit grundlegend?

Die Arbeit untersucht Verfahren zur automatisierten Identifikation der Sprache eines Dokuments mittels low-level Informationen, um den OCR-Prozess bei unbekannten Ausgangssprachen zu verbessern.

Was sind die zentralen Themenfelder?

Zentrale Schwerpunkte sind die Schriftklassifizierung, das Shape Coding für romanische Schriften, die optische Dichte bei asiatischen Schriftzeichen sowie statistische N-Gram Analysen.

Was ist die primäre Forschungsfrage?

Das Hauptziel ist die Entwicklung oder Evaluierung robuster Methoden, die eine eindeutige Unterscheidung von Sprachen ermöglichen, bevor eine zeichenbasierte Texterkennung durchgeführt wird.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit stützt sich auf die Analyse digitalisierter Dokumente durch Segmentierung in Connected Components sowie auf den Vergleich mit statistischen Sprach- und Schriftprofilen.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die Vorbereitung der Dokumente, spezifische Verfahren wie die Analyse von Bounding Boxen, Shape Codes, optische Dichte und N-Gram Analysen sowie deren Validierung durch Testreihen.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Begriffe sind unter anderem Spracherkennung, Shape Coding, N-Gram, Optical Density und die Unterscheidung zwischen lateinischen und Han-basierten Schriftsystemen.

Warum eignet sich Shape Coding für romanische Sprachen, aber nicht für Chinesisch?

Da Han-basierte Schriften aus tausenden komplexen Zeichen bestehen, die oft eine einheitliche quadratische Form besitzen, ist eine Reduktion auf wenige Shape Codes nicht aussagekräftig genug, anders als bei der begrenzten Zeichenanzahl lateinischer Schriften.

Welchen Einfluss hat die Dokumentenqualität auf die Erkennungsrate?

Schlechte Qualität, wie niedrige Auflösung oder Kopierfehler, erschwert die exakte Segmentierung und Zuordnung der Zeichen, was die Fehlerquote der Spracherkennung teilweise signifikant erhöht.

Excerpt out of 23 pages - scroll top

Details

Title: Classification of Document Languages Using Low-Level Information
College: University of Münster (Informatik)
Course: Document Analysis and Recognition
Grade: 1,3
Author: Kerim Galal (Author)
Publication Year: 2003
Pages: 23
Catalog Number: V40457
ISBN (eBook): 9783638389679
Language: German
Tags: Classification Document Languages Using Low-Level Information Document Analysis Recognition
Product Safety: GRIN Publishing GmbH

Quote paper: Kerim Galal (Author), 2003, Classification of Document Languages Using Low-Level Information, Munich, GRIN Verlag, https://www.grin.com/document/40457

Classification of Document Languages Using Low-Level Information