Im Zuge computerlinguistischer Forschung wird der Ruf nach einem universellen Format zur Speicherung großer Textkorpora laut. Die vom W3C entwickelte „Extensible Markup Language“ (XML) bietet die Möglichkeit, Informationen als Text in einem Datenformat zu speichern. Die Anwendung von XML erfreut sich großer Beliebtheit, wie im WWW anhand der Treffer in Google ersichtlich wird: Über 16,7 Millionen Treffer verzeichnete die Suchmaschine Google am 11. Februar 2003 zum Suchwort „XML“ (siehe Abb. 1). Die Verwaltung einer Vielzahl von
[Abb. in Downloaddatei enthalten.]
Abbildung 1: Screenshot von Google mit dem Suchwort „XML“
XML-Dokumenten wird durch XML-Datenbanksysteme erleichtert. Software AG bietet solch ein Datenbankmanagementsystem, das XML-Daten abspeichern und verwalten kann: Tamino1. Zu den Aufgaben eines XML-Datenbanksystems gehört nicht nur die Speicherung und Verwaltung der XML-Dokumente, sondern auch die Extraktion von Informationen durch eine intuitive Anfragesprache wie XPath, die in Tamino bereits in einer eigenen Form mit der Bezeichnung X-Query integriert ist. Die Spezifikation der Anfragesprache XPath ist auf den Seiten des W3C zu finden2. In dieser Seminararbeit zu der Veranstaltung „XML-Anfragesprachen“ im WS02/03 am Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximillians-Universität München unter der Leitung von Prof. Dr. Klaus Schulz und Dr. Holger Meuss wird Tamino, ein XML Datenbankserver, vorgestellt. Die Hausarbeit basiert im Wesentlichen auf der Dokumentation der Tamino Software3. Hilfreich bei der Lektüre dieser Seminararbeit sind Grundkenntnisse in XML und von DTDs, Datenbanken und Query-Sprachen. Zur praktischen Übung kann auch ein laufendes Taminosystem von Nutzen sein4.
Inhaltsverzeichnis
1 Einleitung
2 XML und DTD
2.1 Musikpartitur
2.2 Baumstruktur
2.3 XML-Dokument
2.4 DTD
3 Aufbau der Tamino Module
3.1 Struktur der Tamino Datenbank
3.2 Tamino Manager
3.3 Tamino Schema Editor
3.4 Interactive Interface
3.5 Tamino X-Query
4 Join von Doctypes
4.1 Connecting Doctype
4.2 Zusammenfassung Joins
5 Zusammenfassung
Literaturverzeichnis
Anhang
A Patientendaten in XML
B DTD der Patientendaten
1 Einleitung
Im Zuge computerlinguistischer Forschung wird der Ruf nach einem universellen Format zur Speicherung großer Textkorpora laut. Die vom W3C entwickelte „Extensible Markup Langua- ge“ (XML) bietet die Möglichkeit, Informationen als Text in einem Datenformat zu speichern. Die Anwendung von XML erfreut sich großer Beliebtheit, wie im WWW anhand der Treffer in Google ersichtlich wird: Über 16,7 Millionen Treffer verzeichnete die Suchmaschine Google am 11. Februar 2003 zum Suchwort „XML“ (siehe Abb. 1). Die Verwaltung einer Vielzahl von
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Screenshot von Google mit dem Suchwort „XML“
XML-Dokumenten wird durch XML-Datenbanksysteme erleichtert. Software AG bietet solch ein Datenbankmanagementsystem, das XML-Daten abspeichern und verwalten kann: Tamino1. Zu den Aufgaben eines XML-Datenbanksystems gehört nicht nur die Speicherung und Verwal- tung der XML-Dokumente, sondern auch die Extraktion von Informationen durch eine intuitive Anfragesprache wie XPath, die in Tamino bereits in einer eigenen Form mit der Bezeichnung X-Query integriert ist. Die Spezifikation der Anfragesprache XPath ist auf den Seiten des W3C zu finden2. In dieser Seminararbeit zu der Veranstaltung „XML-Anfragesprachen“ im WS02/03 am Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximillians-Universität München unter der Leitung von Prof. Dr. Klaus Schulz und Dr. Holger Meuss wird Tamino, ein XML Datenbankserver, vorgestellt. Die Hausarbeit basiert im Wesentlichen auf der Dokumen- tation der Tamino Software3. Hilfreich bei der Lektüre dieser Seminararbeit sind Grundkennt- nisse in XML und von DTDs, Datenbanken und Query-Sprachen. Zur praktischen Übung kann auch ein laufendes Taminosystem von Nutzen sein4.
2 XML und DTD
In diesem Kapitel wird ein Beispieldokument und seine Beschreibung erstellt. Dabei soll die Struktur einer Musikpartitur auf ein XML Dokument abgebildet werden und eine DTD dieses Dokument beschreiben.
2.1 Musikpartitur
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Partitur von „Alle meine Entchen“
Die Partitur in Abbildung 2 zeigt die ersten vier Takte des Kinderlieds „Alle meine Entchen“. Die einstimmige Melodie steht im 4/4-Takt und weist eine Wiederholung von Takt 3 und 4 auf. Der Gesang ist syllabisch, d.h. jeder Silbe ist nur eine Note zugeordnet (im Unterschied zu melismatischem Gesang, bei dem eine Silbe über viele Noten geht). Diese Strukturmerkmale werden später im XML-Dokument erscheinen.
2.2 Baumstruktur
Ausgehend von der Beschreibung im letzten Kapitel wird jetzt ein Baum generiert (siehe Abb. 3).
„Partitur“ bildet die Wurzel des Baums. Partitur hat vier Kinder („stimme“, zweimal „takt“ und “wiederholung“). „Stimme“ bezeichnet die Stimmlage, für die die Partitur geschrieben wurde („tenor“). Die Kinder der „takt“-Knoten können „silbe“ oder „pause“ sein. „Takt“ kann auch ein Kind von „wiederholung“ sein. Farblich hell gekennzeichnet ist der Textinhalt der „silbe“- Knoten, der hier als jeweils einziges Blatt von „silbe“ erscheint.
2.3 XML-Dokument
Die Abbildung des im vorangegangenen Kapitel beschriebenen Baums wird nun in XML ko- diert. Bis jetzt sind die Attribute der Nodes (Knoten im Baumdiagramm) noch nicht in Erschei- nung getreten. Diese sind z.B. „titel“ und „metrum“ für „partitur“. Die Takte werden nummeriert und die Silben werden mit Notenwerten und Tonhöhen versehen. Ein weiteres Attribut ist die Anzahl der Wiederholungen (<wiederholung anzahl="2">).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Baum von Partitur
Abbildung in dieser Leseprobe nicht enthalten
2.4 DTD
Im oben aufgeführten XML-Code erscheint in der zweiten Zeile ein Link zu einer weiteren Datei (partitur.dtd), der Document Type Definition (DTD). Diese legt die Struktur des XML- Dokuments fest. Im oben genannten Beispiel müssen innerhalb von <partitur> eine Stim- me, beliebig viele aber mindestens ein Takt oder eine Wiederholung vorkommen:
Abbildung in dieser Leseprobe nicht enthalten
Eine Wiederholung beinhaltet mindestens einen Takt:
Abbildung in dieser Leseprobe nicht enthalten
In einem Takt können beliebig viele Silben oder Pausen stehen:
Abbildung in dieser Leseprobe nicht enthalten
Die Attributnamen der Elemente werden ebenfalls in der DTD explizit angegeben und ihre Ty- pen festgelegt.
Abbildung in dieser Leseprobe nicht enthalten
Diese DTD kann auch für andere Lieder, die als XML-Dokumente vorliegen, verwendet wer- den. Hier noch einmal der gesamte DTD-Code:
Abbildung in dieser Leseprobe nicht enthalten
[...]
1 In dieser Seminararbeit wurde Tamino in der Version 2.3.1 verwendet
2 http://www.w3c.org
3 Software AG: Tamino 2.3.1 Documentation, 2001
4 Eine kostenlose Demoversion von Tamino ist auf der Seite http://www.softwareag.de erhältlich.
- Arbeit zitieren
- Ramon Schalleck (Autor:in), 2003, Tamino XML-Datenbankserver, München, GRIN Verlag, https://www.grin.com/document/11048
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.