Grin logo
en de es fr
Shop
GRIN Website
Publier des textes, profitez du service complet
Go to shop › Informatique - Informatique appliquée

Classification of Document Languages Using Low-Level Information

Titre: Classification of Document Languages Using Low-Level Information

Exposé Écrit pour un Séminaire / Cours , 2003 , 23 Pages , Note: 1,3

Autor:in: Kerim Galal (Auteur)

Informatique - Informatique appliquée
Extrait & Résumé des informations   Lire l'ebook
Résumé Extrait Résumé des informations

Die heutige Welt ist geprägt ist von einer zunehmenden globalen Kommunikation. In Zeiten der weltweiten Vernetzung findet ein schneller Informationsaustausch statt. Vor allem das Internet bietet eine enorme Fülle an leicht zugänglichen Informationen. Um dieser Fülle an Informationen beizukommen, sind in den letzten Jahren verstärkt Bemühungen unternommen worden diese Informationsflut zu kontrollieren und zu kategorisieren. Das Kategorisieren von Informationen ist am effektivsten und effizientesten, wenn die zu ordnenden Dokumente in elektronischer Form vorliegen. Dies und allgemein die enorm gestiegene Bedeutung der elektronischen Datenverarbeitung haben dazu beigetragen, dass Organisationen aus allen Bereichen versucht sind, ihre Dokumenteausschließlich in digitaler Form zu verwalten. Das erklärte Ziel ist analoge Dokumente in elektronische zu konvertieren [2]. Dieses Bestreben führte zu der Entwicklung von Optical Character Recognition (OCR), Software die es ermöglicht eingescannte Dokumente in elektronische Textfiles zu konvertieren. Jedoch treffen die meisten OCR Systeme die implizite Prämisse, dass die Sprache des zu verarbeitenden Dokumentes im Voraus bekannt ist [2]. Zwar erkennen manche Programme unterschiedliche romanische Sprachen mit einer akzeptablen Zuverlässigkeit, doch sobald ein anderes Schriftsystem auftritt, werden die Dokumente nicht mehr zuverlässig konvertiert. Daher ist es von großem Vorteil, die Sprache eines Dokuments vor der Anwendung eines OCR Systems zu kennen. Die vorliegende Arbeit beschäftigt sich mit der Spracherkennung von Dokumenten basierend auf low- level Informationen. Im ersten Teil wird ein kurzer Überblick über verschiedene Sprach- und Schriftklassen gegeben. Der zweite Teil der Arbeit beschäftigt sich mit der Art und Weise wie ein zu untersuchendes Dokument vorbereitet wird und welche Merkmale zur anschließenden Schrift- und Spracherkennung dienen. Im Haup tteil der Arbeit werden einige Verfahren zur Schriftklassifizierung und zur Spracherkennung vorgestellt. Abschließend folgt ein Abschnitt über ausgewählte Testverfahren, die die Qualität der vorgestellten Systeme beleuchten.

Extrait


Inhaltsverzeichnis

  • 1 Einleitung
  • 2 Überblick verschiedener Sprach- und Schriftklassen
  • 3 Dokumentuntersuchung und – erkennung
    • 3.1 Vorbereitung der Dokumente
    • 3.2 Schrift-Klassifizierung
      • 3.2.1 Ausdehnung der Bounding Boxen
      • 3.2.2 Höhenverteilung
      • 3.2.3 Horizontale Projektion
      • 3.2.4 Upward Concavity
    • 3.3 Spracherkennung
      • 3.3.1 Shape Coding bei romanischen Sprachen
      • 3.3.2 Optical Density bei Han-basierten Sprachen
      • 3.3.3 N-Gram basierter Algorithmus
    • 3.4 Testergebnisse ausgewählter Verfahren
      • 3.4.1 Shape Codes
      • 3.4.2 N-Gram basierter Algorithmus
  • 4 Schluss und Zukunftsausblick

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit beschäftigt sich mit der automatischen Spracherkennung von Dokumenten, basierend auf low-level Informationen. Das Ziel ist es, Methoden zu entwickeln, die die Sprache eines Dokuments zuverlässig identifizieren können, bevor es durch ein OCR-System verarbeitet wird. Dies soll durch die Analyse von Schriftmerkmalen und -strukturen erfolgen, die unabhängig von der konkreten Sprache des Dokuments sind.

  • Klassifizierung von Sprach- und Schriftklassen
  • Untersuchung und Vorbereitung von Dokumenten
  • Entwicklung von Methoden zur Schrift- und Spracherkennung
  • Bewertung der entwickelten Verfahren anhand von Testdaten
  • Zusammenfassung der Ergebnisse und Ausblick auf zukünftige Entwicklungen

Zusammenfassung der Kapitel

Im ersten Kapitel wird die Relevanz des Themas im Kontext der zunehmenden globalen Kommunikation und der Notwendigkeit der Informationsorganisation beleuchtet. Es wird die Bedeutung der elektronischen Datenverarbeitung und der OCR-Systeme für die Dokumentenverwaltung hervorgehoben. Die Arbeit stellt das Problem der Spracherkennung vor, das bei der Anwendung von OCR-Systemen entsteht, da die meisten Systeme eine vorherige Kenntnis der Sprache des Dokuments voraussetzen.

Kapitel 2 bietet einen Überblick über verschiedene Sprach- und Schriftklassen. Es werden wichtige Sprachfamilien wie die romanischen Sprachen, indogermanische Sprachen und Han-basierte Sprachen vorgestellt und ihre charakteristischen Merkmale beschrieben. Die Bedeutung der Schriftarten für die Spracherkennung wird betont, und es wird auf die Unterschiede zwischen der lateinischen Schrift und den Han-Schriften eingegangen.

Im dritten Kapitel werden Methoden zur Dokumentenuntersuchung und -erkennung vorgestellt. Es wird beschrieben, wie Dokumente vorbereitet werden, um die notwendigen Informationen für die Schrift- und Spracherkennung zu extrahieren. Es werden verschiedene Verfahren zur Schriftklassifizierung, wie die Analyse von Bounding Boxen, Höhenverteilungen und horizontalen Projektionen, vorgestellt. Anschließend werden Spracherkennungsmethoden wie Shape Coding für romanische Sprachen, Optical Density für Han-basierte Sprachen und ein N-Gram-basierter Algorithmus diskutiert.

Das vierte Kapitel präsentiert die Testergebnisse ausgewählter Verfahren und zeigt die Leistungsfähigkeit der entwickelten Methoden auf. Es werden die Ergebnisse der Schriftklassifizierung und Spracherkennung anhand von Testdaten analysiert und die Ergebnisse diskutiert.

Schlüsselwörter

Spracherkennung, Dokumentenanalyse, Schriftklassifizierung, Han-Schriften, lateinische Schrift, Optical Character Recognition (OCR), Shape Coding, Optical Density, N-Gram-basierter Algorithmus, low-level Informationen.

Fin de l'extrait de 23 pages  - haut de page

Résumé des informations

Titre
Classification of Document Languages Using Low-Level Information
Université
University of Münster  (Informatik)
Cours
Document Analysis and Recognition
Note
1,3
Auteur
Kerim Galal (Auteur)
Année de publication
2003
Pages
23
N° de catalogue
V40457
ISBN (ebook)
9783638389679
Langue
allemand
mots-clé
Classification Document Languages Using Low-Level Information Document Analysis Recognition
Sécurité des produits
GRIN Publishing GmbH
Citation du texte
Kerim Galal (Auteur), 2003, Classification of Document Languages Using Low-Level Information, Munich, GRIN Verlag, https://www.grin.com/document/40457
Lire l'ebook
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
Extrait de  23  pages
Grin logo
  • Grin.com
  • Page::Footer::PaymentAndShipping
  • Contact
  • Prot. des données
  • CGV
  • Imprint