Ziel dieser Arbeit ist es, die Klassifikationskomponente des am Institut für Informatik entwickelten OCR-Systems zur Erkennung von gerendertem Text durch die Implementierung eines Multi-Classifier-Systems (MCS) weiter zu optimieren.

Diese Arbeit befasst sich mit dem Design und der Implementierung eines Multi-Classifier-Systems, das mehrere verschiedene Klassifikatoren zur Erkennung gerenderter Schriftzeichen kombiniert. Das MCS wird schließlich in das existierende OCR-System integriert, um dessen Effektivität zu verbessern.

Kapitel 2 befasst sich zunächst mit Analyse und Beurteilung des vorliegenden OCR-Systems. Kapitel 2.1 identifiziert hierzu konkrete Eigenschaften gerenderter Texte und die damit einhergehenden
Herausforderungen bei der automatischen Texterkennung. Kapitel 2.2 stellt das bestehende OCR-Systems zur Erkennung von gerendertem Text vor, dessen Komponenten in Kapitel 2.3 analysiert werden, um das weitere Vorgehen im Hinblick auf das Ziel dieser Arbeit zu planen.
Kapitel 3 befasst sich mit der Schaffung der für die Entwicklung des MCS notwendigen Voraussetzungen. Das betrifft insbesondere die dem OCR-System zu Grunde liegenden Trainingsdaten, auf deren Basis es entwickelt und getestet wurde. In Kapitel 3.1 wird dafür zun¨achst eine Kategorisierung von gerendertem Text vorgenommen, anhand der sich die Zusammensetzung bereits existierender Trainingsdaten untersuchen l¨asst. Damit die Trainingsdaten in einem sinnvollen Format vorliegen, wurde die Datenhaltung ¨uberarbeitet. Kapitel 3.2 stellt diese überarbeitung vor. Die identifizierten Kategorien werden dann herangezogen, um in Kapitel 3.3 eine strategische Erweiterung der Datenbasis vorzunehmen.
Kapitel 4 leitet zum Kern der Arbeit über: Auf Basis der Trainingsdaten werden verschiedene Klassifikatoren konstruiert. Um qualifizierte Klassifikatoren konstruieren zu können, ist das
Vorhandensein geeigneter Merkmale entscheidend, anhand der sich die Schriftzeichen klassifizieren lassen. Kapitel 4.1 identifiziert solche Merkmale und konstruiert auf deren Grundlage eine Reihe
von Klassifikatoren. Kapitel 5 befasst sich schließlich mit einer gruppenweisen Kombination der konstruierten Klassifikatoren,
um durch Ausnutzung der Vorteile verschiedener Klassifikatoren einen positiven Beitrag zur Erhöhung der Erkennungsgenauigkeit zu erhalten und somit die Effektivität des bestehenden OCR-Systems zu verbessern.

Extrait

Inhaltsverzeichnis

1 Einleitung

2 Erkennung von gerendertem Text

2.1 Eigenschaften gerenderten Textes

2.2 Bisheriges OCR-System

2.2.1 Vorverarbeitung

2.2.2 Hybride Klassifikation

2.2.3 Nachbearbeitung

2.3 Aktueller Stand und Optimierungsmöglichkeiten

3 Lern- und Testdaten

3.1 Kategorisierung gerenderter Texte

3.2 Format der Datenbanken

3.3 Erweiterung der Datenbasis

4 Konstruktion und Test einzelner Klassifikatoren

4.1 Konstruktion von Klassifikatoren

4.2 Analyse und Vergleich von Klassifikatoren

4.3 Erzielte Testergebnisse

4.3.1 Klassifikatortests

4.3.2 Systemtests

5 Konstruktion und Test von Multi-Classifier-Systemen

5.1 Ansätze zur Kombination mehrerer Klassifikatoren

5.2 Erzielte Testergebnisse

5.2.1 Klassifikatortests

5.2.2 Systemtests

6 Fazit und Ausblick

A Trainingsdaten der Version 2006

A.1 Lern- und Testdaten der Screen-Char-Datenbank

A.2 Testdaten der Screen-Word-Datenbank

A.3 Format der alten Datenbanken

B Trainingsdaten der Version 2007-MCS

B.1 Lern- und Testdaten der Screen-Char-Datenbank

B.2 Testdaten der Screen-Word-Datenbank

C Resultate durchgeführter Testläufe

C.1 Resultate durchgeführter Klassifikatortests

C.2 Resultate durchgeführter Systemtests

Zielsetzung & Themen

Ziel dieser Arbeit ist die Optimierung der Klassifikationskomponente eines bestehenden OCR-Systems zur Erkennung von gerendertem Text. Dies soll durch die Implementierung und Evaluation eines Multi-Classifier-Systems (MCS) erreicht werden, welches die Schwächen einzelner Klassifikatoren durch die Stärken anderer kompensiert, um die Effektivität des Gesamtsystems zu steigern.

Analyse und Optimierung der Klassifikationskomponente mittels Multi-Classifier-Systemen
Kategorisierung und strategische Erweiterung der Trainings- und Testdatenbasis
Konstruktion und Vergleich diverser Klassifikatoren basierend auf unterschiedlichen Merkmalskombinationen
Kombination von Klassifikatoren auf Entscheidungsebene durch verschiedene Fusions- und Selektionsstrategien

Auszug aus dem Buch

2.1 Eigenschaften gerenderten Textes

Gerenderter Text ist bei pixelbasierten Ausgabegeräten wie z.B. Monitoren oder Displays zu finden. Die Darstellung von Schriftzeichen (und anderen Grafikobjekten) auf einem Pixelraster ist Aufgabe des Renderings. Die Informationen über die Konturen eines Schriftzeichens der jeweiligen Schriftart — des jeweiligen Fonts — liegen i.d.R. in Form von Geradensegmenten und Bézierkurven vor. Anhand der vorgegebenen Geometrie finden Entscheidungen darüber statt, welche Pixel der Rastergrafik dem Schriftzeichen und welche dem Hintergrund zuzuordnen sind.

Das optische Erscheinungsbild gerenderter Texte ist gegenüber dem klassischer Anwendungen der automatischen Texterkennung von eingescannten Dokumenten ein anderes. Während klassische OCR-Anwendungen mit Verzerrungen der Textzeilen, verschmutzten Dokumenten und Bildstörungen konfrontiert werden, scheint die Erkennung von „sauber“ gerenderten Texten mit weitaus geringeren Herausforderungen einherzugehen. Tatsächlich sind die Herausforderungen keine geringeren, sondern andere. Im Folgenden werden die durch das Rendering bedingten Eigenschaften vorgestellt, die wesentliche Herausforderungen bei der automatischen Erkennung gerenderter Texte bilden.

Die Bewältigung der Rendering-Aufgabe ist insbesondere bei geringen Auflösungen keinesfalls trivial. Daher gibt es mehrere Techniken, die den Text unter jeweils verschiedenen Gesichtspunkten rendern. Die Wahl der Technik hat einen starken Einfluss auf das resultierende Erscheinungsbild. Abbildung 2.1 zeigt drei geläufige Ansätze: Ein Rendering, das völlig auf Glättung verzichtet, also nur harte Pixel voller Intensität verwendet, erzeugt als Aliasing bezeichnete Treppeneffekte. Dem gegenüber steht das Antialiasing, das verschiedene Pixelintensitäten unterscheidet, um den Stufen des Alias-Effekts entgegenzuwirken.

Zusammenfassung der Kapitel

1 Einleitung: Diese Einleitung erläutert die Relevanz der automatischen Erkennung von gerendertem Text auf pixelbasierten Displays und definiert das Ziel der Arbeit, die Klassifikationskomponente durch ein Multi-Classifier-System zu optimieren.

2 Erkennung von gerendertem Text: Das Kapitel analysiert die spezifischen Eigenschaften gerenderter Schriftzeichen und stellt die Funktionsweise sowie die Komponenten des existierenden OCR-Systems vor.

3 Lern- und Testdaten: Dieses Kapitel behandelt die Kategorisierung der Schriftzeichen, die Anpassung der Datenhaltung sowie die strategische Erweiterung und Versionierung der Datengrundlage.

4 Konstruktion und Test einzelner Klassifikatoren: Hier werden verschiedene Merkmalsgruppen und Klassifikatoren entwickelt und deren Effektivität sowie Analysemethoden evaluiert.

5 Konstruktion und Test von Multi-Classifier-Systemen: Dieses Kapitel beschreibt die Ansätze zur Kombination mehrerer Klassifikatoren mittels Fusion und Selektion und präsentiert die erzielten Testergebnisse.

6 Fazit und Ausblick: Das Fazit fasst die Ergebnisse der Arbeit zusammen und diskutiert mögliche weitere Entwicklungsschritte.

Schlüsselwörter

OCR, Multi-Classifier-System, MCS, Klassifikator, Textsegmentierung, Wortsegmentierung, Zeichenerkennung, gerenderter Text, Zoning, Merkmalsextraktion, Konfusionsmatrix, Klassifikationsgenauigkeit, Trainingsdaten, Bildverarbeitung, Zeichenerkennung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit beschäftigt sich mit der Verbesserung eines automatischen Texterkennungssystems (OCR) für gerenderte Schriftarten auf digitalen Bildschirmen.

Was sind die zentralen Themenfelder?

Die zentralen Schwerpunkte liegen auf dem Design und der Implementierung eines Multi-Classifier-Systems, der Kategorisierung von Trainingsdaten und der Evaluierung verschiedener Kombinationsstrategien für Klassifikatoren.

Was ist das primäre Ziel der Arbeit?

Das Ziel ist die Optimierung der Klassifikationskomponente des bestehenden Systems, um die Erkennungsgenauigkeit durch die Kombination verschiedener Klassifikatoren zu erhöhen.

Welche wissenschaftliche Methode wird verwendet?

Es werden verschiedene Klassifikationsansätze basierend auf Zoning-Methoden und Ableitungsmerkmalen entwickelt und deren Performance durch statistische Tests wie den McNemar-Test und Cochrans Q-Test sowie Kreuzvalidierungen überprüft.

Was wird im Hauptteil behandelt?

Der Hauptteil befasst sich mit der Analyse bestehender Komponenten, der Erstellung eines neuen Datenbanksystems zur Verwaltung der Trainingsdaten, der Konstruktion einzelner Klassifikatoren und deren gruppenweiser Kombination.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die wichtigsten Begriffe umfassen OCR, Multi-Classifier-System, Zeichenerkennung, Merkmalsextraktion und Klassifikationsgenauigkeit.

Warum ist die Erkennung von gerendertem Text schwieriger als die von eingescannten Dokumenten?

Gerenderter Text auf Displays weist eine wesentlich geringere Auflösung und gröbere Rasterung auf, was die Segmentierung der einzelnen Schriftzeichen und deren Unterscheidung bei verschiedenen Rendering-Techniken erschwert.

Was bewirkt die Kombination von Klassifikatoren?

Durch die Kombination lässt sich erreichen, dass die Schwächen eines einzelnen Klassifikators – beispielsweise bei der Erkennung spezifischer Schriftkombinationen – durch die Stärken anderer Klassifikatoren kompensiert werden, was die Gesamterkennungsrate verbessert.

Fin de l'extrait de 106 pages - haut de page

Résumé des informations

Titre: Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text
Université: University of Münster (Institut für Informatik (Computer Vision and Pattern Recognition Group))
Note: 1,0
Auteur: Dipl. Wirt.-Inform. Stefan Fleischer (Auteur)
Année de publication: 2007
Pages: 106
N° de catalogue: V117720
ISBN (ebook): 9783640200832
ISBN (Livre): 9783656524717
Langue: allemand
mots-clé: OCR Texterkennung Multi-Classifier-System MCS gerenderter Text Design Implementierung
Sécurité des produits: GRIN Publishing GmbH

Citation du texte: Dipl. Wirt.-Inform. Stefan Fleischer (Auteur), 2007, Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text, Munich, GRIN Verlag, https://www.grin.com/document/117720

Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text