“The idea is to build a library of everything, and the opportunity is to build a great library that offers universal access to all of human knowledge.” Diese Aussage stammt aus einem Interview mit Brewster Kahle aus dem Jahr 2002 und bezieht sich dabei auf die Vision, die hinter dem von ihm ge-gründeten Internet Archive steht. Das Internet Archive ist die größte und wohl bekannteste Initia-tive zur Archivierung von Webseiten weltweit. Und auch wenn die These, das Internet umfasse das ge¬samte menschliche Wissen, zumindest diskutabel ist, zeigt sie doch, welche Bedeutung man den In¬halten des Internets und deren Bewahrung beimessen kann und in welche Richtung dessen Entwicklung gehen könnte.
Als Quasi-Standard zur Toolunterstützung für größere Archivierungsprojekte wird in der Fachliteratur immer wieder auf den Open-Source-Crawler Heritrix in Verbindung mit der Software Wayback verwiesen , welche die spätere Rekonstruktion der Webseiten ermöglicht.
Doch wie hilfreich sind die mit diesen Tools entwickelten Snapshots von Webseiten für konkrete regionale Anwendungsszenarien, die über das Nachempfinden des Look And Feels historischer Seiten hinausgehen? Nicht zuletzt aufgrund mangelnder Qualität der Archivinhalte des Internet Archives zur Domain http://www.stadt.bamberg.de/ hat das Stadtarchiv Bamberg 2009 begonnen, selbst in regelmäßigen Abständen auf konventionellen Weg einen Snapshot vom Internetauftritt der Stadt Bamberg zu erstellen, dessen Qualität zusätzlich durch erhöhten Aufwand mittels manueller Nach¬bearbeitung sichergestellt wird. Zeigt das Beispiel des Internet Archives, dass Tools, die für die Verwendung auf sehr großen Webkollektionen entwickelt wurden, tendenziell eher ungeeignet für kleine Archivierungs¬projekte sind oder bieten sich Heritrix und Wayback auch für das Stadtarchiv Bamberg zur Verwendung an? Ziel der Arbeit ist es, dieser Frage nachzugehen.
Nach einem theoretischen Einstieg in die Methodik der Webarchivierung werden dazu in Kapitel 3 zunächst Architektur und Funktionsumfang von Heritrix und Wayback beleuchtet. Später wird dann ein Snapshot von der Homepage der Stadt Bamberg, welcher vollautomatisch mit Heritrix erstellt wurde, exemplarisch den Snapshots des Stadtarchiv und denen des Internet Archives genübergestellt und hinsichtlich unterschiedlicher Kriterien verglichen. Letztlich sollen die Ergebnisse in einem Fazit bewertet und ein Ausblick auf die weitere Entwicklung von Heritrix und Wayback gegeben werden.
Inhaltsverzeichnis
1 Einleitung
2 Herausforderungen und Methoden der Webarchivierung
2.1 Herausforderungen der Webarchivierung
2.2 Methodik zur Webarchivierung
3 Software-Werkezeuge zur Webarchivierung
3.1 Der Crawler Heritrix
3.1.1 Funktionsweise von Heritrix
3.1.2 Architektur von Heritrix
3.1.3 Modulare Verwendung von Heritrix
3.2 Das ARC-Dateiformat
3.3 Wayback
3.3.1 Query UI
3.3.2 Resource Store
3.3.3 Resource Index
3.3.4 Replay UI
4 Fallbeispiel: Die Homepage der Stadt Bamberg
4.1 Einführung in das Fallbeispiel
4.2 Snapshot des Internet Archive
4.3 Snapshot des Stadtarchivs Bamberg
4.4 Snapshot mit Heritrix und Wayback
4.5 Vergleich der Ergebnisse
5 Fazit und Ausblick
Zielsetzung & Themen
Die Arbeit untersucht die Eignung der Open-Source-Werkzeuge Heritrix und Wayback zur Archivierung von Webseiten am Beispiel des Internetauftritts der Stadt Bamberg. Dabei wird der Frage nachgegangen, inwieweit diese Technologien, die primär für große Webkollektionen entwickelt wurden, auch für die Bedürfnisse kleinerer, regionaler Archivierungsprojekte nutzbar sind.
- Herausforderungen und Methoden der modernen Webarchivierung
- Technische Funktionsweise des Crawlers Heritrix
- Architektur und Komponenten der Wayback-Software
- Vergleichende Analyse von Archivierungs-Snapshots (Internet Archive vs. Stadtarchiv vs. Heritrix/Wayback)
- Potenziale für lokale Archivierungsinitiativen
Auszug aus dem Buch
3.1.1 Funktionsweise von Heritrix
Der grundsätzliche Ablauf beim Crawlen ist dem eines gewöhnlichen Webcrawlers sehr ähnlich. Er arbeitet mit einem Pool an Start-URIs, der Seed. Die URIs darin werden nacheinander kontaktiert und die Inhalte abgerufen. Diese Inhalte werden dann wiederum auf neue URIs analysiert und je nach Strategie verworfen oder der Seed neu hinzugefügt. Der Crawljob endet, sobald alle URIs in der Seed abgearbeitet hat, oder eine andere Abbruchbedingung eintritt.
Zusammenfassung der Kapitel
1 Einleitung: Einführung in die Problematik der digitalen Langzeitarchivierung und Vorstellung der Forschungsfrage hinsichtlich der Eignung von Webarchivierungs-Tools für regionale Institutionen.
2 Herausforderungen und Methoden der Webarchivierung: Darlegung der Schwierigkeiten bei der Webarchivierung aufgrund der Dynamik und Struktur des Internets sowie Erläuterung des theoretischen Prozessmodells nach Masanès.
3 Software-Werkezeuge zur Webarchivierung: Detaillierte technische Untersuchung des Crawlers Heritrix, des ARC-Dateiformats sowie der Wayback-Software zur Rekonstruktion und Bereitstellung der archivierten Daten.
4 Fallbeispiel: Die Homepage der Stadt Bamberg: Praktische Anwendung der untersuchten Technologien auf die Webseite der Stadt Bamberg im Vergleich mit den Ergebnissen des Internet Archives und den manuellen Verfahren des Stadtarchivs.
5 Fazit und Ausblick: Zusammenfassende Bewertung der Eignung von Heritrix und Wayback für lokale Projekte und Ausblick auf zukünftige Entwicklungen sowie Kooperationsmöglichkeiten.
Schlüsselwörter
Webarchivierung, Internet Archive, Heritrix, Wayback, Stadtarchiv Bamberg, Langzeitarchivierung, Crawler, ARC-Dateiformat, digitale Bewahrung, Snapshot, Web-Crawling, digitale Archivierung, Open Source, Informationsmanagement, Webseiten-Rekonstruktion
Häufig gestellte Fragen
Worum geht es in der Arbeit grundlegend?
Es geht um die Methoden und technischen Möglichkeiten der Webarchivierung, speziell im Hinblick auf die Archivierung einer lokalen Webseite durch eine kommunale Institution.
Was sind die zentralen Themenfelder?
Die zentralen Themen sind der Einsatz spezialisierter Software-Tools, die methodischen Herausforderungen bei der Erfassung dynamischer Web-Inhalte und der Vergleich verschiedener Archivierungsstrategien.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist herauszufinden, ob Open-Source-Werkzeuge wie Heritrix und Wayback, die ursprünglich für große Archive konzipiert wurden, für kleinere, regional fokussierte Archivierungsprojekte praktikabel und sinnvoll sind.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit kombiniert eine theoretische Analyse der Funktionsweise von Web-Crawlern mit einem praktischen Fallbeispiel, in dem unterschiedliche Archivierungs-Snapshots der Bamberger Stadt-Homepage verglichen werden.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in eine technische Analyse der Werkzeuge (Heritrix/Wayback) und eine praktische Fallstudie, die verschiedene Snapshot-Methoden gegenüberstellt.
Welche Schlüsselwörter charakterisieren die Arbeit?
Webarchivierung, Heritrix, Wayback, Internet Archive, Stadtarchiv, Snapshot und Langzeitarchivierung sind die zentralen Begriffe der Publikation.
Warum reicht das Internet Archive für das Stadtarchiv Bamberg oft nicht aus?
Das Internet Archive weist meist eine zeitliche Verzögerung von mehreren Monaten auf, bietet keine aktuelle Vollständigkeit für regionale Bedarfe und ist oft nicht auf die spezifischen Qualitätsansprüche eines kommunalen Archivs abgestimmt.
Was sind die technischen Voraussetzungen für den Betrieb von Heritrix und Wayback?
Beide Systeme sind primär für Linux-Umgebungen entwickelt worden und erfordern technisches Fachwissen für die Konfiguration und Installation, da sie nicht mit einfachen Installationsroutinen für Windows-Systeme ausgeliefert werden.
Welchen Vorteil bietet das ARC-Dateiformat?
Es ermöglicht die effiziente Bündelung von Millionen heterogener Dateien in einem streambaren Format, was die Archivierung und spätere Rekonstruktion der Webseite erheblich erleichtert.
- Quote paper
- Anonym (Author), 2011, Methoden der Webarchivierung am Beispiel der Webseite der Stadt Bamberg, Munich, GRIN Verlag, https://www.grin.com/document/169417