Inhaltsverzeichnis
Vorwort 3
1. Einführung 4
1.1 Typische Probleme von OCR-Systemen 4
1.2 Häufigkeitstabellen von W. Schönpflug 4
2. Lösungsansatz zur OCR-Fehlerkorrektur 6
2.1 Wörterbuchbasierter Ansatz 6
2.2 Statistikbasierter Ansatz 7
2.2.1 Implementierung der Häufigkeitstabellen 7
2.2.2 Erkennung von OCR-Fehlern 8
2.2.3 Wahrscheinlichkeitsermittlung der Zeichenübergänge 9
2.2.4 Orthografischer Vergleich der Möglichkeiten 10
2.2.5 Erstellen von konkreten Lösungsvorschlägen 11
2.2.6 Überlegungen zur GUI 12
2.2.6.1 Lösungsauswahl von Vorschlägen 12
2.2.6.2 Echtzeit-Vorschläge beim Einlesen 12
2.2.7 Internationalisierung 13
3. Fazit 13
4. Literaturverzeichnis 14
2
Vorwort
Die vorliegende Verschriftlichung ist eine Hauptseminararbeit für die Lehrveranstaltung „Angewandte linguistische Datenverarbeitung“ und beschäftigt sich mit den Erkennungsfehlern, die während einer Texterkennung (OCR) entstehen können. Solche Fehler können die Unterschlagung einiger Buchstaben innerhalb eines Wortes, die falsche Reihenfolge der Zeichen in einer Zeichenkette oder solche sein, die den Sinn des Satzes durch Fehlinformationen entstellen. In der Texterkennungstechnik werden heutzutage mehrere Methoden und Verfahren angewendet, um diesen Problemen entgegenzuwirken, die sich in ihrer Effizienz, Schnelligkeit, Korrektheit und Bedienerfreundlichkeit stark unterscheiden. Diese Arbeit wird sich deshalb nur auf den statistikbasierten Lösungsansatz wenden, dessen Grundlage die aufgestellten Mono-, Di-, Tri- und n-Gramm Tabellen von Wolfgang Schönpflug bilden. Es wird erst auf die typischen OCR-Fehler und ihre Ursachen eingegangen, um danach die Häufigkeitstabellen von Wolfgang Schönpflug auf ihren Aufbau hin zu analysieren. In Kapitel 2 geht es um den Lösungsansatz mit den Häufigkeitstabellen, ihre Implementierung, Form der Darstellung und Vorgehensweise. Die Diskussion über eine Internationalisierung des Verfahrens und die mögliche Erweiterbarkeit schließt die Arbeit ab.
Zur Lektüre werden zur leichten Verständlichkeit Grundkenntnisse in der Programmiersprache Java und ihren Funktionen vorausgesetzt. Die Überlegungen für bestimmte Lösungsrealisierungen nehmen Bezug auf einige Java-spezifische Datenstrukturen und in Java bekannten Algorithmen.
3
1. Einführung
1.1. Typische Probleme von OCR-Systemen
OCR ist die Abkürzung für Optical Character Recognition und meint die maschinelle Texterkennung von Digital- und Printmedien. Als OCR-System werden Computerprogramme bezeichnet, die die Aufgabe der maschinellen Texterkennung übernehmen und als Ziel haben, eine 1:1 Abbildung des eingelesenen Dokuments wiederzugeben. Eine hundertprozentige Übereinstimmung ist jedoch bis heute nicht möglich und bleibt deshalb noch eine Utopie. Die Fehlerkennung kann mehrere Ursachen und Quellen haben. Einerseits dient das Ausgangsdokument als eine Fehlerquelle, andererseits sind die fehlenden technischen Gegebenheiten der Grund für das Auftreten mehrerer Abweichungen. Einige Mängel des Ausgangsmediums lassen ein idealtypisches Dokumentmaterial nicht zu. So bilden Schmutz, graue Hintergründe, schlechte Kontrastverhältnisse, ungünstige Kopien, unebene Seiten, Risse, Kratzer und Flecken die Hauptprobleme dar, die das Erkennen des Textes erschweren und manchmal auch unmöglich machen. Außerdem ist die Schriftart des entsprechenden Textes in dem Sinne sehr wichtig. Denn ältere Werke mit einer Frakturschrift oder neuere Werke mit Design-Schriftarten erfordern ein OCR-System, das die jeweiligen Zeichen und Buchstaben erkennen kann. Darüber hinaus kann das OCR-System selbst die Fehlerquelle sein, das mit niedriger Qualität der Erkennungsalgorithmen, dem Fehlen von Nachkorrekturmechanismen oder der Fremdsprachigkeit des Ausgangsdokuments in Verbindung stehen kann. Typische OCR-Fehler wären unter Anderem das Erkennen des Buchstaben „w“ als doppelten „v“ oder des Buchstaben „m“ als die Kombination „rn“. Das statistikbasierte Verfahren mit n-Gramm Tabellen soll genau diesem Problem entgegenwirken.
1.2. Häufigkeitstabellen von W. Schönpflug
Wolfgang Schönpflug aus dem psychologischen Institut der Ruhr-Universität Bochum präsentiert in seinen drei Aufsätzen n-Gramm-Häufigkeiten in der deutschen Sprache 1,2,3 seine
1 Wolfgang Schönpflug: n-Gramm-Häufigkeiten in der deutschen Sprache. I. Monogramme und Digramme. In: Zeitschrift für experimentelle und angewandte Psychologie XVI (1969), S. 157-183
2 Wolfgang Schönpflug: n-Gramm-Häufigkeiten in der deutschen Sprache. II. Ausgewählte Trigramme. In: Zeitschrift für experimentelle und angewandte Psychologie XVI (1969), S. 345-365
3 Wolfgang Schönpflug: n-Gramm-Häufigkeiten in der deutschen Sprache. III. Ausgewählte Tetragramme. In: Zeitschrift für experimentelle und angewandte Psychologie XVI (1969), S. 488-506
4
statistische Erhebung über die Häufigkeit einzelner Buchstaben und Buchstabenfolgen, getrennt nach deren Position innerhalb eines Wortes für die deutsche Sprache, wie sie es bis 1969 noch nicht untersucht worden ist. Zu seiner Methodik erklärt er, dass dreißig Studierende daraufhin befragt wurden, „welche Bücher, Zeitungen und Zeitschriften sie lesen, welche Theaterstücke und Filme sie besuchen und welche Funk- und Fernsehsendungen sie empfangen 4 “. Insgesamt wurden dabei 100.000 Wörter analysiert 5 , die diese Medienbereiche abdecken, gewichtet nach der Zeit, die die Studenten für das jeweilige Medium nutzen 6 . Übersichtshalber werden die folgenden Tabellen über die Häufigkeitsverteilung nur auf die ersten zehn Ränge beschränkt, sortiert nach der absteigenden absoluten Häufigkeit.
Tabelle 2 zeigt den Aufbau der Ergebnisse, wie es Schönpflug vorgenommen hat. Ob Mono-, Di-, Tri- oder Tetragramm, alle möglichen Buchstabenkombinationen geben Informationen
4 Schönpflug, S. 158
5 vgl. Schönpflug, S. 159
6 Anm.: Weitere Details zur Herangehensweise und Methodik der Erhebung sind dem Aufsatz (S. 158-161) von Schönpflug zu entnehmen.
7 vgl. Shönpflug, S. 163-181
8 vgl. Schönpflug (s. Fußnote 1,2,3)
5
Arbeit zitieren:
Bilal Erkin, 2010, Statistikbasierter Lösungsansatz für die Fehlerkorrektur in OCR-Systemen, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Informatik - Internet, neue Technologien: Statistikbasierter Lösungsansatz für die Fehlerkorrektur in OCR-Systemen ist nun auf dem Buchmarkt erhältlich
Informatik - Internet, neue Technologien: neuer Titel erschienen: Statistikbasierter Lösungsansatz für die Fehlerkorrektur in OCR-Systemen
Bilal Erkin hat einen neuen Text hochgeladen
Kommunikation in Verteilten Systemen (KiVS) 2007
15. Fachtagung Kommunikation i...
Torsten Braun, Georg Carle, Burkhard Stiller
Kommunikation in Verteilten Systemen (KiVS) 2009
16. Fachtagung Kommunikation i...
Klaus David, Kurt Geihs
Informationsverarbeitung in Versicherungsunternehmen
Michael Aschenbrenner, Ralph Dicke, Bertel Karnarski, Franz Schweiggert
Integrierte Informationsverarbeitung 2
Planungs- und Kontrollsysteme ...
Peter Mertens, Marco C. Meier
Oracle Privacy Security Auditing: Includes Federal Law Compliance with...
Arup Nanda, Donald K. Burleson
0 Kommentare