Themenstellung:
Im Rahmen eines Projektes zur Erstellung eines Wissensmanagement – Systems soll eine Export – Schnittstelle von der OpenOffice Writer Komponente in ein vorgegebenes XML – Format realisiert werden. Dabei unterteilt sich die Studienarbeit in zwei Kern - Aufgaben. Zum einen soll die Ausgabedatei des OpenOffice Writer eingehend untersucht werden und zum anderen soll die Export - Funktion implementiert werden.
Inhaltsverzeichnis
1 GLOSSAR
2 EINLEITUNG
3 SINN UND ZWECK
4 THEORETISCHE GRUNDLAGEN
4.1 TECHNOLOGIEN (XML)
4.1.1 XML – Xtensible Markup Language
4.1.2 DTD – Data Type Definition
4.1.3 Namespaces
4.1.4 XSL / XSLT – Xtensible Stylesheet Language
4.1.5 XPath – XML Path Language
4.1.6 Xlink – XML Linking Language
4.1.7 XPointer – XML Pointing Language
4.1.8 XSLT - Prozessor
4.1.9 XMLParser
4.2 FORMATE
4.2.1 XHTML
4.2.2 DocBook
4.2.3 Mydoc (Semantic Web)
4.3 APPLIKATIONEN
4.3.1 OpenOffice
4.3.2 Saxparser
4.3.3 Semantic Webbrowser
5 KONZEPTION
5.1 OOO DATEIFORMAT – DAS AUSGANGSFORMAT
5.1.1 Analyse der OpenOffice Writer Datei
5.1.1.1 Metadaten (office:meta)
5.1.1.2 Einstellungen (office:settings)
5.1.1.3 Stilinformationen / Gestaltungselemente (office:styles)
5.1.1.4 Inhalt (office:content)
5.1.2 Office – interne und selbstdefinierte Styles
5.1.3 Ablage und Aufruf von Bildern
5.1.4 Defintion von Internet Links
5.2 XML – FORMAT DES SEMANTIC WEBBROWSERS – DAS ZIELFORMAT
5.3 TRANSFORMATION
5.3.1 Extraktion des Archivs
5.3.2 Erzeugung einer „flachen“ XML - Datei
5.3.3 Transformation in das neue XML - Format
6 UMSETZUNG
6.1 UMSETZUNG EINES OOO EXPORT – FILTER
6.1.1 Verlinkung des OpenOffice Applikationskern
6.1.2 Implementierung einer UNO – basierten OpenOffice API
6.1.3 Nutzung des XML – basierten Dateiformats
6.2 INTEGRATION IN DEN OPENOFFICE WRITER
6.3 IMPLEMENTIERUNG DES XSLT - STYLESHEET
6.3.1 Meta – und Dokumentinformationen
6.3.2 Übernahme von Bildinformationen
6.3.3 Textkörper, Überschriften und besondere Textfelder
6.3.4 Stil – und Farbinformationen
6.3.4.1 Die Problematik der gesonderten Stildefinition
6.3.4.2 Die Problematik des gesonderten Stilinformation
6.3.4.3 Die Problematik der attributbasierten Stilinformation
6.3.4.4 JA! - Extraktion und Verknüpfung mittles boolscher XPath – Anweisung
7 FAZIT
Zielsetzung & Themen
Das Hauptziel dieser Studienarbeit ist die Entwicklung eines effizienten Export-Filters für die OpenOffice Writer-Komponente, um Dokumente in ein flaches, für einen Semantic Webbrowser kompatibles XML-Format zu transformieren.
- Analyse der internen XML-Struktur von OpenOffice Dokumenten.
- Konzeption und Implementierung einer XSLT-basierten Transformationslogik.
- Lösung technischer Hürden bei der Extraktion von Stil- und Metainformationen.
- Nahtlose Integration des Export-Filters in die OpenOffice-Benutzeroberfläche.
Auszug aus dem Buch
6.3.4.4 JA! - Extraktion und Verknüpfung mittles boolscher XPath – Anweisung
Es wird also eine Funktion gesucht, die:
Ohne Arrays oder Variablen ein Set an Werten übergeben kann
Attribute von Elementen auslesen soll, ohne direkt auf diese zugreifen zu können.
Es nun an der Zeit über den Tellerrand von XSLT zu schauen:
Mittels XPath kann auf jedes beliebige Element innerhalb der XML – Datei zugegriffen werden. Unter Angabe des kompletten Pfades des gewünschten Elements kann dieses referenziert werden. Somit bietet es sich also an, innerhalb des Templates, das bei einem Text – Paragraphen aufgerufen wird mittels XPath auf das dazugehörige Stil – Element zuzugreifen. Um dabei das korrekte Style – Element zu erreichen, wird in der XPath – Anweisung der Stil – Name des Text – Paragraphen als Vorgabe angegeben. Der Stilname wird dabei als die konstante Variable 'styleTag' übergeben,
Des weiteren bietet XPath noch eine handvoll String – und Zahlfunktionen, die genutzt werden wollen.
Mit der XPath – Funktion 'test()' ist es möglich das Attribut eines bestimmten Elements auf eine bestimmte Eigenschaft hin zu testen. Als Ergebnis bekommt man einen boolschen Wert. Das besondere daran ist, dass diese Abfrage auch mit Attributen von Kind – Elementen funktioniert. Diese Eigenschaft ist in Literatur, die XPath behandelt selten oder gar nicht dokumentiert.
Somit ist eine gewisse Möglichkeit gegeben, Attributwerte von Kind – Elementen auszulesen. Es muss nur jedes mögliche Attribut auf seine Existenz und seinen Wert hin geprüft werden.
Der Aufruf innerhalb dieses Templates sieht nun folgendermaßen aus:
Zusammenfassung der Kapitel
1 GLOSSAR: Enthält Definitionen der zentralen Fachbegriffe und Abkürzungen, die im Kontext von XML und OpenOffice verwendet werden.
2 EINLEITUNG: Beschreibt den Kontext des Wissensmanagement-Systems und die Notwendigkeit, verschiedene Formate in das XML-Format zu portieren.
3 SINN UND ZWECK: Erläutert die Bedeutung des Semantic Webbrowsers und die Notwendigkeit, OpenOffice Writer-Dateien für diesen Zweck nutzbar zu machen.
4 THEORETISCHE GRUNDLAGEN: Gibt einen detaillierten Überblick über die genutzten XML-Technologien wie DTD, XSLT, XPath und XLink sowie die verwendeten Applikationen.
5 KONZEPTION: Analysiert die Struktur der OpenOffice XML-Dateien und definiert die Anforderungen an das Zielformat sowie den Transformationsprozess.
6 UMSETZUNG: Dokumentiert die technische Implementierung des Export-Filters, die Integration in OpenOffice und die spezifischen Lösungen für die Stil-Transformation.
7 FAZIT: Fasst die Ergebnisse zusammen und bewertet die Herausforderungen bei der Arbeit mit der vorliegenden Dokumentation der XML-Technik.
Schlüsselwörter
OpenOffice, XML, Export-Filter, XSLT, XPath, Semantic Webbrowser, Transformation, Dokumentenformat, DTD, Stilinformationen, API, UNO-Modell, Wissensmanagement, XML-Struktur, Datenkonvertierung
Häufig gestellte Fragen
Worum geht es in dieser Studienarbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der Entwicklung eines Export-Filters, um OpenOffice Writer-Dokumente in ein spezifisches XML-Format für einen Semantic Webbrowser zu überführen.
Welche zentralen Themenfelder werden behandelt?
Die Arbeit fokussiert sich auf die XML-Struktur von OpenOffice-Dokumenten, XSLT-Transformationen und die Anbindung an externe Wissensmanagement-Systeme.
Was ist das primäre Ziel der Arbeit?
Ziel ist eine vollautomatische Generierung einer flachen XML-Datei, die alle relevanten Inhalte, Stile und Metadaten des Originaldokuments gemäß einer vorgegebenen DTD enthält.
Welche wissenschaftliche Methode wird verwendet?
Es wird eine systematische Analyse der Quelldateien (OpenOffice Writer) in Verbindung mit einer praktischen Implementierung eines XSLT-Stylesheets durchgeführt.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretische fundierte Analyse des Dateiformats, die Konzeption der Transformation und die detaillierte Umsetzung des Filters inklusive der Problemlösung bei komplexen Stil-Extraktionen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zu den prägenden Begriffen gehören insbesondere OpenOffice, XML, XSLT, XPath und Transformation.
Warum war die Extraktion von Stilinformationen so problematisch?
Die Stilinformationen sind in OpenOffice-Dateien in separaten, verschachtelten XML-Strukturen abgelegt, auf die der Standard-XSLT-Prozessor nicht ohne spezielle, undokumentierte XPath-Anweisungen zugreifen konnte.
Welche Rolle spielt der Semantic Webbrowser bei der Aufgabenstellung?
Er dient als Zielsystem für die exportierten Daten, welches auf einem semantischen Netzwerk basiert und ausschließlich das durch eine spezielle DTD definierte XML-Format akzeptiert.
- Citar trabajo
- Dominik Heinz (Autor), 2004, Open Office XML Export, Múnich, GRIN Verlag, https://www.grin.com/document/169047