Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumenteausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen. Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.

Excerpt

Inhaltsverzeichnis

1 Einleitung
2 Überblick verschiedener Sprach- und Schriftklassen
3 Dokumentuntersuchung und – erkennung
- 3.1 Vorbereitung der Dokumente
- 3.2 Schrift-Klassifizierung
  - 3.2.1 Ausdehnung der Bounding Boxen
  - 3.2.2 Höhenverteilung
  - 3.2.3 Horizontale Projektion
  - 3.2.4 Upward Concavity
- 3.3 Spracherkennung
  - 3.3.1 Shape Coding bei romanischen Sprachen
  - 3.3.2 Optical Density bei Han-basierten Sprachen
  - 3.3.3 N-Gram basierter Algorithmus
- 3.4 Testergebnisse ausgewählter Verfahren
  - 3.4.1 Shape Codes
  - 3.4.2 N-Gram basierter Algorithmus
4 Schluss und Zukunftsausblick

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit beschäftigt sich mit der automatischen Spracherkennung von Dokumenten, basierend auf low-level Informationen. Das Ziel ist es, Methoden zu entwickeln, die die Sprache eines Dokuments zuverlässig identifizieren können, bevor es durch ein OCR-System verarbeitet wird. Dies soll durch die Analyse von Schriftmerkmalen und -strukturen erfolgen, die unabhängig von der konkreten Sprache des Dokuments sind.

Klassifizierung von Sprach- und Schriftklassen
Untersuchung und Vorbereitung von Dokumenten
Entwicklung von Methoden zur Schrift- und Spracherkennung
Bewertung der entwickelten Verfahren anhand von Testdaten
Zusammenfassung der Ergebnisse und Ausblick auf zukünftige Entwicklungen

Zusammenfassung der Kapitel

Im ersten Kapitel wird die Relevanz des Themas im Kontext der zunehmenden globalen Kommunikation und der Notwendigkeit der Informationsorganisation beleuchtet. Es wird die Bedeutung der elektronischen Datenverarbeitung und der OCR-Systeme für die Dokumentenverwaltung hervorgehoben. Die Arbeit stellt das Problem der Spracherkennung vor, das bei der Anwendung von OCR-Systemen entsteht, da die meisten Systeme eine vorherige Kenntnis der Sprache des Dokuments voraussetzen.

Kapitel 2 bietet einen Überblick über verschiedene Sprach- und Schriftklassen. Es werden wichtige Sprachfamilien wie die romanischen Sprachen, indogermanische Sprachen und Han-basierte Sprachen vorgestellt und ihre charakteristischen Merkmale beschrieben. Die Bedeutung der Schriftarten für die Spracherkennung wird betont, und es wird auf die Unterschiede zwischen der lateinischen Schrift und den Han-Schriften eingegangen.

Im dritten Kapitel werden Methoden zur Dokumentenuntersuchung und -erkennung vorgestellt. Es wird beschrieben, wie Dokumente vorbereitet werden, um die notwendigen Informationen für die Schrift- und Spracherkennung zu extrahieren. Es werden verschiedene Verfahren zur Schriftklassifizierung, wie die Analyse von Bounding Boxen, Höhenverteilungen und horizontalen Projektionen, vorgestellt. Anschließend werden Spracherkennungsmethoden wie Shape Coding für romanische Sprachen, Optical Density für Han-basierte Sprachen und ein N-Gram-basierter Algorithmus diskutiert.

Das vierte Kapitel präsentiert die Testergebnisse ausgewählter Verfahren und zeigt die Leistungsfähigkeit der entwickelten Methoden auf. Es werden die Ergebnisse der Schriftklassifizierung und Spracherkennung anhand von Testdaten analysiert und die Ergebnisse diskutiert.

Schlüsselwörter

Spracherkennung, Dokumentenanalyse, Schriftklassifizierung, Han-Schriften, lateinische Schrift, Optical Character Recognition (OCR), Shape Coding, Optical Density, N-Gram-basierter Algorithmus, low-level Informationen.

Häufig gestellte Fragen

Warum ist Spracherkennung vor der Anwendung von OCR wichtig?

Die meisten OCR-Systeme setzen voraus, dass die Sprache bekannt ist. Bei falscher Spracheinstellung können insbesondere unterschiedliche Schriftsysteme nicht zuverlässig konvertiert werden.

Was sind "low-level Informationen" in der Dokumentenanalyse?

Das sind Merkmale wie die Ausdehnung von Bounding Boxen, die Höhenverteilung von Zeichen oder horizontale Projektionen, die ohne Texterkennung analysiert werden.

Wie werden Han-basierte Sprachen erkannt?

Hierfür wird oft die "Optical Density" (optische Dichte) genutzt, da Han-Schriften im Vergleich zu romanischen Schriften eine andere Verteilung aufweisen.

Was ist Shape Coding?

Shape Coding ist ein Verfahren für romanische Sprachen, bei dem Zeichen basierend auf ihrer Form (z. B. Oberlängen, Unterlängen) klassifiziert werden.

Wie funktioniert der N-Gram-basierte Algorithmus?

Dieser Algorithmus analysiert die Häufigkeit von Zeichenfolgen (N-Gramme), um statistische Profile für verschiedene Sprachen zu erstellen und abzugleichen.

Excerpt out of 23 pages - scroll top

Details

Title: Classification of Document Languages Using Low-Level Information
College: University of Münster (Informatik)
Course: Document Analysis and Recognition
Grade: 1,3
Author: Kerim Galal (Author)
Publication Year: 2003
Pages: 23
Catalog Number: V40457
ISBN (eBook): 9783638389679
Language: German
Tags: Classification Document Languages Using Low-Level Information Document Analysis Recognition
Product Safety: GRIN Publishing GmbH

Quote paper: Kerim Galal (Author), 2003, Classification of Document Languages Using Low-Level Information, Munich, GRIN Verlag, https://www.grin.com/document/40457

Classification of Document Languages Using Low-Level Information