In jüngster Zeit gewinnt mit den so genannten TabletPCs eine Klasse von mobilen Computern zunehmend an Bedeutung, welche dem Benutzer die Verwendung von Stiften zur Dateneingabe ermöglichen. Statt den Computer wie bisher nur mit der gewohnten Kombination aus Tastatur und Maus zu bedienen, können nun insbesondere auch handschriftliche und handgezeichnete Eingaben vorgenommen werden.
Neben diesen TabletPCs existieren weitere Arten von auf Stiften basierenden Computern sowie Computerzubehör, wie etwa PDAs (engl. personal digital assistant), Digitalisiertabletts oder mit speziellen Sensoren ausgestattete papierbasierte Klemmbretter als autonome Geräte.
All diese Geräte gestatten es dem Benutzer, von den Vorteilen der handschriftlichen gegenüber der tastaturbasierten Texterfassung zu profitieren. Insbesondere für Notizen oder Mitschriften in Diskussionen und ähnlichen Situationen kann die Verwendung von Tastaturen als störend empfunden werden. Auch sind die Möglichkeiten, ad hoc grafische Skizzen anzufertigen, mit der Tastatur beschränkt.
Neben den genannten Vorteilen, die stiftbasierte Geräte bieten, existiert eine Reihe von Herausforderungen, die in unterschiedlichem Umfang bereits gelöst wurden, für die zum Teil
aber noch keine praktikablen Lösungen existieren. Speziell für die Speicherung und Weitergabe handschriftlicher digitaler Dokumente mussten entsprechende Datenformate entwickelt werden, deren allgemeine Verbreitung mangels Standardisierung bislang nicht umfassend ist. Desweiteren sind Techniken der Volltextsuche, wie sie für mit Tastaturen erfasste Dokumente
existieren, als Mittel des schnellen Zugriffs innerhalb großer Datenbestände für Handschriftdokumente bisher kaum vorhanden. Insbesondere dieses zuletzt genannte Problem einer leistungsfähigen Volltextsuche für digital erfasste handschriftliche Dokumente ist Gegenstand dieser Arbeit.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Historische Entwicklung der Schrift
- 1.2 Überblick über Schrift am Computer
- 1.3 Ziel dieser Arbeit
- 1.4 Aufbau dieser Arbeit
- 2 Verwandte Arbeiten
- 2.1 Fremde Suchansätze
- 2.1.1 Rubines Algorithmus
- 2.1.2 ScriptSearch
- 2.1.3 Scribble Matching
- 2.1.4 Scribbler
- 2.1.5 Automatische Indexgenerierung für Handschrift
- 2.1.6 Word-Spotting nach Jain & Namboodiri
- 2.1.7 Suche mittels Texterkennung
- 2.1.8 Stiftbasierte Bildersuche
- 2.1.9 Zusammenfassung
- 2.2 Beispielanwendungen des Pen-Computing
- 2.2.1 Audio Notebook
- 2.2.2 Interaktive Whiteboards
- 2.2.3 E-Book- und digitale Notizsysteme
- 2.2.4 Stiftbasiertes Prototyping
- 2.2.5 Zusammenfassung
- 2.1 Fremde Suchansätze
- 3 Gerätetypen und Datenformate
- 3.1 Optische Positionsbestimmung
- 3.2 Elektrostatische und elektromagnetische Positionsbestimmung
- 3.3 Akustische Positionsbestimmung
- 3.4 Resistive-Film-Technologie
- 3.5 Elektromechanische Positionsbestimmung
- 3.6 Dateiformate für On-line Handschriftdaten
- 3.6.1 JOT
- 3.6.2 UNIPEN
- 3.6.3 InkML
- 3.6.4 Weitere Standards und Datenformate
- 3.7 Zusammenfassung
- 4 Aufbau des Systems
- 4.1 Auswahl der Handschriftgeräte
- 4.2 Modulbeschreibung
- 5 Merkmalsgewinnung
- 5.1 Datenvorverarbeitung
- 5.1.1 Entfernen doppelter Abtastpunkte
- 5.1.2 Strokesegmentierung
- 5.1.3 Neuabtastung der Handschrift
- 5.2 Gitterbasierte Richtungsmerkmale
- 5.2.1 Quadratische Gitter
- 5.2.2 Dreiecksgitter
- 5.3 Lokale Schriftrichtung
- 5.4 Lokale Schriftkrümmung
- 5.5 Lokale Schriftneigung
- 5.6 Zusammenfassung
- 5.1 Datenvorverarbeitung
- 6 Suche mit Fehlern
- 6.1 Ähnlichkeiten von Zeichenketten
- 6.1.1 Editierabstand
- 6.1.2 Varianten des Editierabstandes
- 6.2 Approximative Stringsuche mittels dynamischer Programmierung
- 6.3 Alternative Suchalgorithmen
- 6.4 Zusammenfassung
- 6.1 Ähnlichkeiten von Zeichenketten
- 7 Fusion
- 7.1 Überblick über Biometrie und biometrische Fusion
- 7.2 Fusionsstrategien der Handschriftsuche
- 7.2.1 Multi-Sample-Fusion
- 7.2.2 Multialgorithmische Fusion
- 7.3 Zusammenfassung
- 8 Evaluation
- 8.1 Grundlagen
- 8.2 Datenbank
- 8.3 Vorgehen bei der Evaluation
- 8.3.1 Evaluation der Systemteile ohne Fusion
- 8.3.2 Evaluation der Fusionsstrategien
- 8.3.3 Automatische Bestimmung individueller Schwellwerte
- 8.4 Zusammenfassung
- 9 Diskussion der Resultate
- 9.1 Resultate der Suche ohne Fusion
- 9.1.1 Quadratische Gitter
- 9.1.2 Dreiecksgitter
- 9.1.3 Lokale Schriftrichtung
- 9.1.4 Lokale Schriftkrümmung
- 9.1.5 Lokale Schriftneigung
- 9.2 Resultate für Multi-Sample-Fusion
- 9.2.1 Fusion auf Vergleichsebene
- 9.2.2 Fusion auf Entscheidungsebene
- 9.3 Resultate für multialgorithmische Fusion
- 9.3.1 Fusion auf Merkmalsebene
- 9.3.2 Fusion auf Vergleichsebene
- 9.3.3 Fusion auf Entscheidungsebene
- 9.4 Versuch der automatischen Bestimmung individueller Schwellwerte
- 9.5 Resultate verwandter Suchverfahren
- 9.6 Zusammenfassung
- 9.1 Resultate der Suche ohne Fusion
- 10 Fazit und Ausblick
- 10.1 Fazit
- 10.2 Erweiterungen und Verbesserungen
- 10.3 Ausblick
Zielsetzung und Themenschwerpunkte
Diese Arbeit zielt auf die Entwicklung und Analyse neuer Techniken zur Volltextsuche in digital erfassten, handschriftlichen Dokumenten ab. Im Gegensatz zu bestehenden Ansätzen verzichtet das entwickelte Verfahren auf eine inhaltliche Texterkennung und basiert stattdessen auf der geometrischen Gestalt des Schriftbildes. Die experimentelle Evaluation der entwickelten Verfahren auf einer mehrsprachigen Datenbasis bildet einen weiteren Schwerpunkt.
- Entwicklung eines Suchverfahrens für handschriftliche Daten basierend auf geometrischen Merkmalen.
- Experimentelle Evaluation des Verfahrens auf einer mehrsprachigen Datenbasis.
- Anwendung von Fusionsverfahren zur Verbesserung der Suchgenauigkeit.
- Analyse verschiedener Merkmalstypen zur Beschreibung der handschriftlichen Form.
- Vergleich mit bestehenden Handschrift-Suchverfahren.
Zusammenfassung der Kapitel
Kapitel 1 führt in die Thematik ein und beschreibt die Zielsetzung und den Aufbau der Arbeit. Kapitel 2 präsentiert verwandte Arbeiten im Bereich der Handschriftsuche und relevante Pen-Computing-Systeme. Kapitel 3 gibt einen Überblick über verschiedene Technologien zur On-line-Handschrifterfassung und Datenformate. Kapitel 4 beschreibt den Aufbau des entwickelten Suchsystems. Kapitel 5 erläutert die Datenvorverarbeitung und die Extraktion verschiedener Merkmalsarten aus den handschriftlichen Daten. Kapitel 6 beschreibt den Suchalgorithmus, der auf der Ähnlichkeit von Zeichenketten beruht.
Schlüsselwörter
Handschrifterkennung, Dokument-Retrieval, On-line Handschrift, geometrische Merkmale, Fuzzy String Searching, Fusionsverfahren, Multi-Sample-Fusion, multialgorithmische Fusion, Evaluierung, Precision, Recall, F1-Maß, AUC.
- Citation du texte
- Sascha Schimke (Auteur), 2008, Suche in on-line erfassten digitalen Handschriftdokumenten, Munich, GRIN Verlag, https://www.grin.com/document/125036