Die Bestandserhaltung von kulturellem Erbe (durch Schonung von kostbaren und fragilen Originalen) und der Wunsch nach Forschung an direkten Quellen ist in den letzten Jahren immer größer geworden. Durch Brände (Anna Amalia Bibliothek in Weimar), Einsturz von Gebäuden (Stadtarchiv in Köln), aber auch schlecht belüftete Magazine und Archive, Wassereinbrüche und viele andere Ursachen, wird immer wieder deutlich, wie wichtig die Sicherung von kulturellem Gut ist.

Andererseits lässt die Digitalisierung sämtlicher Bestände aus Bibliotheken, Archiven und Museen eine neue Infrastruktur entstehen, die das Internet zu einem Forschungsraum für eine zunehmende digital ausgerichtete Forschung macht. Das Ziel der Digitalisierung ist also nicht nur das Bereitstellen, sondern das Vernetzen von unterschiedlichen Ressourcen im Netz, um eine virtuelle Forschungsinfrastruktur entsteht zu lassen.

Das Digitalisierungsprojekt „Deutsches Textarchiv“ hat es sich zur Aufgabe gemacht, einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 nach den Erstausgaben zu digitalisieren.

Extrait

Inhaltsverzeichnis

1. Einleitung

2. Wie geht die Digitalisierung von statten?

3. DAS Deutsche Textarchiv

3.1 Scannen

3.2 Vorstrukturierung

3.3 Nachbearbeitung

4. Beispiel einer Konvertierung nach XML P5

4.1 Überprüfung der Seitenzahlen

4.2 Strukturierung der Titelblätter

4.3 Interaktive Vorkorrektur

4.4 Fehlerbehebung

4.4.1 Überprüfen der Sonderzeichen/Transkriptionsfehler

4.4.2 Runde s in Antiqua

4.4.3 Falsche Schachtelung der d-Ebenen (Hierarchien)

5. Validierung

6. Qualitätskontrolle

7. DTAQ – Qualitätssicherung

8. Schluss

Zielsetzung und Themen der Arbeit

Die vorliegende Arbeit untersucht den Digitalisierungsprozess und die anschließende Konvertierung von Texten in das XML/TEI-Format am Beispiel des Projekts "Deutsches Textarchiv" (DTA). Ziel ist es, die methodischen Schritte von der Digitalisierung über die Vorstrukturierung bis hin zur Qualitätssicherung darzustellen und die Bedeutung hochwertiger Volltextdaten für die wissenschaftliche Forschung aufzuzeigen.

Grundlagen der Digitalisierung und Retrodigitalisierung
Prozessschritte im Digitalisierungsprojekt "Deutsches Textarchiv"
Methoden der Texterfassung und Vorstrukturierung
Konvertierung in XML/TEI und Fehlerbehebung
Qualitätssicherungsmaßnahmen (DTAQ)

Auszug aus dem Buch

3.1 SCANNEN

Die Arbeiten im DTA werden und wurden durch verschiedene Kooperationspartner unterstützt, unter anderem durch die BBAW, DFG und von unterschiedlichen Bibliotheken, die die Textvorlagen für das DTA gescannt und bereit gestellt haben. Dazu gehörten zum Beispiel, die Staatsbibliothek zu Berlin, die Sächsische Landesbibliothek Dresden, die Herzog August Bibliothek Wolfenbüttel. Die Bilddigitalisierung wurde zum größten Teil von besagten Bibliotheken übernommen, einzelne Werke wurden aber auch im DTA, durch einen selbst gebauten Scanner, direkt digitalisiert (Wissen aus der studentischen Tätigkeit im Projekt). Die Texte wurden, je nach Buchvorlage, von bestimmten Scannern, die möglichst konservatorisch arbeiten, gescannt. Gerade bei sehr alten Drucken, kann es von Vorteil sein, die Scans per Hand durchzuführen, um das Material vor Schäden zu bewahren. Bei der Massendigitalisierung funktioniert das Scannen per Hand aus Kosten- und Zeitgründen in den meisten Fällen jedoch nicht, Scanroboter sollen die Arbeit dann übernehmen. Die Qualität bei der Massendigitalisierung fällt relativ unterschiedlich aus. Manche Texte sind sehr gut anschaulich und nutzbar, andere wiederum sind von einem qualitativ minderen Wert.

„Die Materialität der Drucke wird in ihrer Brisanz für den Scanprozess besonders deutlich, wenn es um die Bearbeitung von Massen geht“(Brantl,S. 6). Markus Brantl stellte dies in seinem Erfahrungsbericht zum VD 16 Projekt, an der Bayerischen Staatsbibliothek, fest. Neben den normalen Buchscannern wurde auch ein Scanroboter eingesetzt und getestet. Das Scannen ging wesentlich schneller von statten, jedoch konnten viele der alten Bücher, aufgrund ihrer Materialbeschaffenheit und der Porosität des Materials, trotz Zeitersparnis, nicht via Scanroboter bearbeitet werden. Diese Problematik tritt natürlich nicht nur bei den VD 16 Drucken, sondern bei einer Vielzahl alter Bücher auf (Erkenntnis wurde persönlich in anderen Digitalisierungsprojekten, unter anderem am Grimm-Zentrum, ebenfalls gewonnen). Müssen Scans per Hand angefertigt werden, dann gibt es auch hier verschiedene Möglichkeiten. Lässt es das Material zu, dann kann am Buchscanner ein beidseitiger Scan vorgenommen werden, ist dies nicht der Fall, dann müssen die Seiten einzeln gescannt und später sortiert (Recto- und Versoseiten), bearbeitet und zusammengefügt werden.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die Relevanz der Bestandserhaltung und der Digitalisierung für die Forschung sowie die Ziele des Projekts im Kontext kulturellen Erbes.

2. Wie geht die Digitalisierung von statten?: Erläutert die grundlegenden Schritte der Digitalisierung von der Korpusauswahl bis hin zur Bedeutung von XML-Standards wie TEI.

3. DAS Deutsche Textarchiv: Stellt das Projekt DTA, dessen Zielsetzung und die angewandten Methoden bei der Erstellung des historischen Volltextkorpus vor.

4. Beispiel einer Konvertierung nach XML P5: Beschreibt detailliert die praktischen Arbeitsschritte bei der Konvertierung vorstrukturierter Daten, inklusive Fehlerbehebung.

5. Validierung: Erläutert den Prozess der Prüfung auf Wohlgeformtheit und Validität der XML-Dateien mittels Oxygen Editor.

6. Qualitätskontrolle: Diskutiert die Notwendigkeit kontinuierlicher Qualitätskontrolle zur Fehlervermeidung bei den repetitiven Arbeitsschritten im Projekt.

7. DTAQ – Qualitätssicherung: Stellt die webbasierte Korrekturumgebung DTAQ als Instrument zur summativen Qualitätssicherung durch Mitarbeiter und externe Nutzer vor.

8. Schluss: Fasst die Ergebnisse zusammen und betont, dass nur durch tiefgehende Erschließung und Qualitätssicherung ein Mehrwert für die wissenschaftliche Forschung entsteht.

Schlüsselwörter

Digitalisierung, Deutsches Textarchiv, DTA, XML, TEI, Bestandserhaltung, Volltextkorpus, Texterfassung, Double-Keying, Vorstrukturierung, Qualitätssicherung, DTAQ, Retrodigitalisierung, OCR, Metadaten

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit befasst sich mit den technischen und methodischen Abläufen bei der Digitalisierung und XML-basierten Aufbereitung von historischen Texten innerhalb des Deutschen Textarchivs.

Was sind die zentralen Themenfelder der Arbeit?

Zentrale Themen sind der Prozess der Digitalisierung, die Arbeit mit XML/TEI-Standards, das Double-Keying-Verfahren zur Texterfassung sowie Ansätze zur Qualitätssicherung und Korrektur.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist die detaillierte Darstellung und Analyse der verschiedenen Arbeitsschritte, die notwendig sind, um ein hochwertiges, historisches Volltextkorpus für die wissenschaftliche Forschung bereitzustellen.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit basiert auf einer prozessorientierten Analyse, die durch eigene praktische Erfahrungen aus der studentischen Mitarbeit im Projekt DTA gestützt wird.

Was wird im Hauptteil behandelt?

Im Hauptteil werden der Scannprozess, die Vorstrukturierung, die Konvertierung nach XML P5, Fehlerbehebungsprozesse sowie die Validierung und die Qualitätssicherung (DTAQ) detailliert beschrieben.

Welche Schlüsselwörter charakterisieren die Arbeit?

Zu den wichtigsten Begriffen gehören Digitalisierung, Deutsches Textarchiv (DTA), XML, TEI, Texterfassung, Double-Keying, Qualitätssicherung (DTAQ) und Bestandserhaltung.

Warum ist das Double-Keying-Verfahren für das DTA so wichtig?

Da das DTA vorwiegend sehr heterogene historische Texte digitalisiert, ist das Double-Keying-Verfahren zuverlässiger als eine rein automatisierte OCR-Erkennung, um eine hohe Textqualität zu erreichen.

Welche Rolle spielt das Projekt DTAQ für die Arbeit?

DTAQ ist die webbasierte Korrekturumgebung des Projekts, die es Mitarbeitern und externen Nutzern ermöglicht, Texte effizient Korrektur zu lesen und so die Qualität des Volltextkorpus weiter zu verbessern.

Was ist die größte Herausforderung bei der Strukturierung der Titelblätter?

Die Titelblätter alter Drucke sind sehr vielseitig und folgen keinem einheitlichen Schema, was eine präzise, manuelle Auszeichnung nach den TEI-Richtlinien erforderlich macht.

Fin de l'extrait de 20 pages - haut de page

Résumé des informations

Titre: Erfassung und Konvertierung nach XML/TEI am Beispiel des Deutsches Textarchivs
Université: Humboldt-University of Berlin (Bibliotheks- und Informationswissenschaft)
Note: 1,0
Auteur: Kristin Schulz (Auteur)
Année de publication: 2016
Pages: 20
N° de catalogue: V377692
ISBN (ebook): 9783668565777
ISBN (Livre): 9783668565784
Langue: allemand
mots-clé: XML TEI Konvertierung Volltextdigitalisierung Digitalisierung Konvertierung von Texten
Sécurité des produits: GRIN Publishing GmbH

Citation du texte: Kristin Schulz (Auteur), 2016, Erfassung und Konvertierung nach XML/TEI am Beispiel des Deutsches Textarchivs, Munich, GRIN Verlag, https://www.grin.com/document/377692

Erfassung und Konvertierung nach XML/TEI am Beispiel des Deutsches Textarchivs