Wohlgeformtes XML - kurz und bündig


Skript, 2004

37 Seiten


Leseprobe

Inhalt

1 Einleitung
1.1 Zu diesem Text
1.2 Was ist XML?
1.3 Was heißt wohlgeformt?

2 Arbeitsvorbereitung
2.1 Software
2.2 Dokumente

3 Die XML-Syntax
3.1 Grundlagen
3.1.1 Struktur
3.1.2 Namen
3.2 Elemente
3.2.1 Wurzel-Element
3.2.2 Leere Elemente
3.3 Attribute
3.3.1 XML-Attribute
3.4 Zeichendaten
3.4.1 Zulässige und unzulässige Zeichen
3.4.2 Referenzen
3.4.3 CDATA-Abschnitte
3.5 Kommentar
3.6 Verarbeitungsanweisungen
3.6.1 Allgemeines
3.6.2 Praxisbeispiele

4 Stilfragen und Praxistips
4.1 Element-Inhalt
4.2 Elemente und Attribute
4.3 Aufzählungen
4.4 Zahlen in XML-Dokumenten
4.5 XML und CSS

5 Namensräume
5.1 Einführung
5.2 Formulierung
5.3 Beispiele für angewandte Namensraum-Technik

6 Anhang
6.1 Checkliste Wohlgeformtheit
6.2 Zeichensätze
6.3 Namenserweiterungen für Dateien
6.4 Abbildungsverzeichnis
6.5 Offizielle Quellen
6.5.1 Zitierte Quellen
6.5.2 Weitere Links

1 Einleitung

1.1 Zu diesem Text

XML ist ein unabhängiges Datenformat, das sich in rasend schneller Zeit zum Standard einer übergreifenden Datenübertragung entwickelt. Insbesondere im Datenaustausch zwischen Datenbanken und Webbrowsern oder unter verschiedenen Datenbanken ist XML mittlerweile zu einem wichtigen Werkzeug geworden. Die beiden wichtigsten Datenbanken im professionellen Bereich, Oracle® und der sich schnell verbreitende Microsoft SQL Server®, haben ihre XML-Tools.

Die Literatur zu XML füllt mittlerweile Regalmeter: XML in diesem oder jenem Browser, XML bei dieser oder jener Datenbank, XML-Schema, XPath, XSL(T), usw. usf. Wie bei jeder Fachliteratur ist schnell der Punkt erreicht, daß sie zu einem Forum von Experten wird, die mit Fachbegriffen um sich werfen und sich mit Spezialproblemen befassen; der Laie aber bleibt außen vor oder muß sich mühselig durch Expertenliteratur kämpfen und selbständig auf die Grundlagen zurückschließen, mit den bekannten Gefahren von Mißverständnissen und Lücken.

Dabei ist XML im Kern ein recht einfaches Datenformat, das aus einer klaren, manchmal aber erst auf den zweiten Blick verständlichen Grammatik beruht.

Dieser Text ist eine leicht verständliche Schnelleinführung für Leser, die einfache oder vielleicht noch gar keine Kenntnisse in XML haben. Kurz und bündig wird alles Wissenswerte über wohlgeformtes XML erklärt und so die Grundlage für eine individuelle Weiterbeschäftigung mit dem Thema gelegt.

In diesem Text werden gelegentlich in Fußnoten oder Bemerkungen Vergleiche zu relationalen Datenbanken gegenüber der XML-Modellierung gemacht. Diese Anmerkungen sollen zusätzliche Hilfen für Leser mit entsprechenden Vorkenntnissen sein. Leser ohne Erfahrungen mit Datenbanken können über diese Stellen ohne Informationsverlust bezüglich XML hinweglesen.

Hier erwähnte Softwareprodukte u.a. Produkte sind Marken oder eingetragene Marken der jeweiligen Firmen

1.2 Was ist XML?

XML heißt eXtensible Markup Language (= Erweiterbare Beschreibungs-Sprache). Die Sprache XML ist eine sogenannte Dokumentbeschreibungssprache, denn sie dient dazu, Textdokumente zu verfassen, die neben den Daten als Textinhalt eine Beschreibung der Bedeutung oder Funktion dieser Daten enthalten (deshalb „Beschreibungssprache“). Die grundsätzliche XML-Grammatik besteht fast nur aus wenigen syntaktischen Regeln; es gibt (fast) keinen vorgegebenen Wortschatz, die Datenbeschreibung in XML ist frei formulierbar (deshalb „erweiterbar“).

Kurz: XML-Dokumente sind rein textliche, qualifizierte Datendokumente.

Abbildung in dieser Leseprobe nicht enthalten

Dokument 1

Dokument 1 zeigt ein einfaches XML-Dokument. Das Element <Name> qualifiziert den Dokumentinhalt als Namen. Der Text „Stefan“ wird durch ein weiteres Element als Vorname, der Text „Kayser“ als Nachname qualifiziert. Durch die Struktur wird festgelegt, daß der Name aus dem Vornamen und dem Nachnamen (in dieser Reihenfolge) besteht.

Die Sprache XML wurde vom World Wide Web Consortium (w3c) als Standard formuliert und lizenzfrei zur Verfügung gestellt. Diesem Gremium gehören Vertreter verschiedener Unternehmen und Universitäten an, so daß von Anfang an eine breite Akzeptanz gegeben war. Unter den deutschen Mitgliedern befinden sich die Siemens AG, die SAP AG und die Fraunhofer-Gesellschaft.

Ein großer Vorteil von XML besteht darin, daß es plattformunabhängig ist, d.h. es ist nicht an bestimmte Betriebssysteme oder Programme gebunden. Daten können zwischen unterschiedlichen Systemen ausgetauscht werden. Insbesondere für dynamische Websites ist XML ideal. Daten werden aus der Datenbank ins webfähige XML übertragen und mit Hilfe einer Stylesheetsprache, z.B. dem ebenfalls XML-basierten XSLT, in HTML für Rechner oder WML für Mobiltelefone konvertiert. Positiver Nebeneffekt: Im Gegensatz zur statischen Websprache HTML bleiben qualifizierte Daten und Gestaltung (Wiedergabe als Tabelle in roter, kursiver Schrift) getrennt! Dies bedeutet eine saubere Webprogrammierung und die Wiederverwertbarkeit der Gestaltung (einheitliche Corporate Identity).

Bekannte Softwareprodukte, die mit XML arbeiten, sind u.a.: Microsoft SQL Server®, mySAP®, Oracle®, Borland Kylix 2®.

Der zweite große Vorteil von XML ist, daß es eine Syntax für Beschreibungssprachen ist, da es an keine bestimmten Themen oder Projekte gebunden ist. XML ist damit auch eine Metasprache zur Entwicklung weiterer plattformunabhängiger Sprachen, die einen vorgegebenen Wortschatz haben und auf bestimmte Bedürfnisse und Anwendungszwecke zugeschnitten sind.

Zu den Sprachen der XML-Familie gehören:

HTML

Hyper-Text Markup Language. Sprache zur Erstellung browserfähiger Webseiten. Unter dem Namen XHTML ist nun auch die strikte Einhaltung der XML-Syntax etabliert.

WML

Wireless Markup Language. Sprache zur Erstellung von Webseiten für Mobiltelefone.

MathML

Sprache zur Formulierung mathematischer Ausdrücke.

SVG

Skalierbare Vektor-Graphik. Sprache zur Beschreibung von Bildern.

Von übergreifender Bedeutung sind:

XML-Schema

Grammatiksprache für XML-Dokumente oder sogar neuer XML-basierter Sprachen. Regelt u.a. Dokument-Gliederung, Element-Schachtelung (nesting) und Datentypen. Insbesondere bei der Zusammenarbeit mit Datenbanken geeignet.

XSL

eXtensible Stylesheet Language. Sprache zur Konvertierung von Dokumenten.

XSL gliedert sich in die beiden Teile XSL-FO und XSLT. Mit XSL-FO (Formatting Objects) können z.B. XML-Dokumente in pdf-Dokumente konvertiert werden. Mit XSLT (XSL Transformation) werden XML-Dokumente in andere XML-basierte Dokumente transformiert, z.B. XML-Bestellungen in XML-Rechnungen oder aber beliebige XML-Dokumente in XHTML- oder WML-Dokumente zur Webdarstellung.

XLink

Methode zur Formulierung und Einbindung von Links, also direkten elektronischen Verknüpfungen von Ressourcen, in XML-Dokumente.

XML ist damit zur Grundlage für das sogenannte „semantische Web“ und das Resource Description Framework (RDF) geworden, eine zukunftsträchtige Entwicklung, die eine starke semantische Beschreibung von Daten im Netz und damit zu einer Anbindung der Ausdrucksweise der Informatik an die übliche menschliche Kommunikation anstrebt.

1.3 Was heißt wohlgeformt?

Wie erwähnt, ist XML eine Sprache zur Erstellung qualifizierter Textdokumente ohne thematische Beschränkung. Daraus folgt, daß XML (fast) keinen vorgegebenen Wortschatz hat. Die XML-Grammatik besteht also fast nur aus Vorschriften zur Formulierung.

Weiterhin wurde erwähnt, daß das w3c XML als unabhängigen Standard formuliert hat, also eine Normierung im Kundeninteresse anstrebt. Weil sich Softwareproduzenten diesem Standard anschließen sollen, müssen für sie und ihre Kunden aber klare, verläßliche Regeln gelten, auf deren Grundlage Software-Produkte entwickelt werden können. Die XML-Grammatik ist damit also strikt einzuhalten!

Wenn ein XML-Dokument alle Regeln der XML-Grammatik einhält, nennt man es wohlgeformt (engl. „well-formed“). Ebenso können einzelne Bestandteile wie Textstücke oder Elemente zur Datenqualifizierung wohlgeformt genannt werden, wenn sie für sich genommen vollständig zum Regelwerk von XML passen.[1]

Wenn ein XML-Dokument oder ein Bestandteil daraus wohlgeformt ist und darüber hinaus zu einem inhaltlichen Regelwerk, das z.B. im erwähnten XML-Schema formuliert ist, paßt, heißt es gültig (engl. „valid“). Gültigkeit ist aber nicht Thema dieses Textes.

2 Arbeitsvorbereitung

2.1 Software

Es gibt mittlerweile eine Reihe sogenannter XML-Parser. Das sind Programme, die die Erstellung von XML-Dokumenten durch fortgeschrittene Editor-Werkzeuge unterstützen sowie die Wohlgeformtheit und ggf. auch Gültigkeit von Dokumenten prüfen und durch Fehlermeldungen bei deren Korrektur helfen.

Da dieser Text aber eine einfache und schnelle Einführung darstellt und den Leser in die Lage versetzen will, zügig mit XML arbeiten zu können, wollen wir uns auf einfache und meist auf jedem handelsüblichen Rechner vorhandene Software beschränken.

Zur Erstellung von XML-Dokumenten ist nahezu jeder beliebige Editor geeignet. Der Leser mag sich hier denjenigen aussuchen, der seinen Ansprüchen und Gewohnheiten am nächsten kommt.

Zur Darstellung der Dokumente und Prüfung ihrer Wohlgeformtheit genügt ein Internetbrowser. Hier wird der Microsoft Internet Explorer® ab Version 5.x, besser ab Version 6.x empfohlen. Für diesen Browser sprechen mehrere Argumente:

1. Er hält sich ziemlich genau an die Vorgaben des w3c.
2. Er bietet eine sehr übersichtliche und komfortable Darstellung von XML-Dokumenten.
3. Verstöße gegen Wohlgeformtheitsregeln werden mit meist brauchbaren Fehlermeldungen angezeigt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: XML-Dokument in der Browseransicht

Abb. 1 zeigt das Dokument aus der Einführung im Browserfenster. Elemente und Textstücke sind durch verschiedene Schriftstärken und Farben leicht voneinander zu unterscheiden. Wenn man mit dem Mauszeiger auf das Minuszeichen vor dem Element <Name> klickt, wird der Inhalt dieses Elementes eingeklappt, und das Minus verwandelt sich in ein Plus. Diese Darstellungstechnik, die schon aus der Dateiansicht des Betriebssystems bekannt ist, erleichtert die Durchsicht insbesondere umfangreicher Dokumente.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Browseransicht – eingeklapptes Element

Abb. 2 zeigt das Element <Name> eingeklappt. Durch Klick auf das Pluszeichen wird es wieder ausgeklappt.

Das XML-Dokument aus der Einführung wird jetzt so verändert, daß das Element <Name> an seinem Ende umbenannt wird, an seinem Anfang jedoch nicht. Diese unterschiedliche Benennung an Anfang und Ende ist ein Regelverstoß, der XML-Code ist nicht mehr wohlgeformt.

Abbildung in dieser Leseprobe nicht enthalten

Dokument 2: fehlerhaftes Dokument

Der Browser meldet diesen Fehler:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Browseransicht – Fehlermeldung

2.2 Dokumente

Es wird empfohlen, ein Verzeichnis für Dokumente einzurichten. Darin sollte zunächst ein Blanko-Dokument als Vorlage für weitere Dokumente erstellt werden. XML-Dateien haben die Namenserweiterung .xml. Ein Blanko wie z.B. eine Datei 000Vorlage.xml (bei alphabetsicher Sortierung immer vorne) kann so aussehen:

Abbildung in dieser Leseprobe nicht enthalten

Dokument 3: XML-Vorlagedatei

Die erste Zeile in diesem Code ist die sogenannte XML-Deklaration. Sie sagt aus, daß hier mit XML der Version 1.0 gearbeitet und der Zeichensatz ISO-8859-1 benutzt wird, der die Sonderzeichen der deutschen Sprache (u.a. westeuropäischer Sprachen) wie ä, ö, ü und ß zuläßt. Genauere Angaben folgen später.

Die XML-Deklaration muß an allererster Stelle im Dokument stehen.

3 Die XML-Syntax

3.1 Grundlagen

3.1.1 Struktur

Die Hauptbestandteile von XML-Dokumenten sind Elemente, Attribute und Texte. Dabei sind die Texte die Daten, also der Inhalt der Dokumente, während die Elemente die Dokumente gliedern und strukturieren sowie einzelne Texte qualifizieren, also in ihrer Funktion oder Bedeutung benennen.

Die optionalen Attribute sind an Elemente gebunden. Sie unterstützen die Elemente bei ihrer Aufgabe, indem sie zusätzliche Informationen zu den Elementen liefern oder sogar Daten detailliert auszeichnen.

Abbildung in dieser Leseprobe nicht enthalten

Dokument 4: Dokument mit Attribut

Im bekannten Einführungsdokument hat das Element <Name> ein Attribut lfdNr erhalten, das den Wert 1 hat.

XML und alle von XML abgeleiteten Sprachen unterscheiden zwischen Groß- und Kleinbuchstaben. Man sagt, sie sind „case sensitive“. Daraus folgt, daß „Wert“ und „wert“ zwei verschiedene Bezeichnungen sind.

3.1.2 Namen

Elemente und Attribute (und einige weitere, weniger wichtige Teile von XML-Dokumenten) haben also einen Namen.

XML-Namen dürfen nur aus Buchstaben, Ziffern und den Sonderzeichen Punkt, Bindestrich und Unterstrich bestehen. Das erste Zeichen muß ein Buchstabe oder ein Unterstrich sein. Namen, die mit „xml“ in beliebiger Groß-/Kleinschreibung beginnen, sind reserviert für vorgegebene Namen.[2]

Praxistip: Auf Punkte und Bindestriche sollte in Namen verzichtet werden, besonders wenn man mit Datenbanken zusammenarbeiten will; denn viele Datenbank-Systeme unterstützen diese Zeichen nicht bei Namen für Tabellen und Spalten.

Aus diesem Grunde sollte man auch dann bei den strengeren Einschränkungen für Namen bleiben, falls die geplante Version XML 1.1 die Regeln für Namen lockern wird.

3.2 Elemente

Elemente sind die Hauptbestandteile von XML zur Beschreibung und Gliederung von Daten. Ein Element wird gemäß XML-Regeln dargestellt, indem sein Name durch spitze Klammern <> eingeschlossen wird. Diese Schreibweise wird „Tag“ (Etikett) genannt.[3]

Ein Tag gliedert sich dabei i.d.R. in das Start-Tag (auch Beginn-Tag genannt) und das End-Tag, welche die Daten, die das Element beschreibt, als Inhalt einschließen. Zur Unterscheidung wird dabei im End-Tag der Elementnamen hinter einen Schrägstrich gesetzt.[4]

Abbildung in dieser Leseprobe nicht enthalten

Dokument 5

Das Element <Titel> zeichnet den Text „Parkhaus Nord“ als einen Titel aus. Das Element <Projekt> zeichnet die Elemente <Titel>, <Anfang>, <Ende> und <Bauleiter> in dieser Zusammensetzung als Projekt aus.

Praxistip: Ein Element sollte immer nur andere Elemente oder Text zum Inhalt haben. Ein gemischter Inhalt ist zwar syntaktisch zulässig, ist aber schlechter Stil und zeigt eine unvollständige Strukturierung des Dokumentes an. Bei der Zusammenarbeit mit Datenbanken kann es sogar zu Problemen kommen.

Dokument 5 zeigt im Inhalt des Elementes <Projekt> weitere Elemente. Bei der Verschachtelung (engl. nesting) von Elementen spricht man von Vater- und Kind-Elementen. Im Beispiel ist <Projekt> das Vater-Element von <Titel>, <Anfang> usw. Diese sind die Kind-Elemente von <Projekt>.

Wie in der Biologie kann auch hier ein Vater mehrere Kinder, aber jedes Kind nur einen Vater haben. Eine unvollständige Verschachtelung oder Überlappung nimmt den beteiligten Elementen wie auch dem gesamten Dokument die Wohlgeformtheit.

Abbildung in dieser Leseprobe nicht enthalten

Dokument 6: fehlerhaftes Dokument

3.2.1 Wurzel-Element

Jedes XML-Dokument muß genau ein Element haben, das alle anderen Elemente und alle Texte mittelbar oder unmittelbar einschließt. Dieses Element nennt man Wurzel-Element[5] [6] oder Dokument-Element.

Das Wurzel-Element ist also das einzige Element in einem Dokument, das kein Vater-Element hat.

Abbildung in dieser Leseprobe nicht enthalten

Dokument 7

Im Einführungsdokument ist <Name> das Wurzel-Element des Dokumentes.

3.2.2 Leere Elemente

Elemente ohne jeden Inhalt, leere Elemente also, können als unmittelbare Aufeinanderfolge von Start- und End-Tag oder vereinfacht als Leer-Tag geschrieben werden. Im Leer-Tag steht hinter dem Elementnamen ein Schrägstrich.[7]

Abbildung in dieser Leseprobe nicht enthalten

Dokument 8

Leere Elemente können auch Daten auszeichnen, nämlich mit Hilfe von Attributen wie das Element <Bezeichnung> im Beispiel.

Ein leeres Element kann aber auch durch sein bloßes Vorhandensein etwas bewirken. Wenn Dokument 8 als Webdokument eingesetzt wird, kann ein Stylesheet dafür sorgen, daß immer dann, wenn das leere Element <Logo/> auftaucht, das Firmenlogo im Browser angezeigt wird.

[...]


[1] Vgl. w3c: XML 1.0 (3), Abschnitt 2.1.

[2] Vgl. w3c: XML 1.0 (3), Abschnitt 2.3, Def. [5].

[3] In der Literatur wird der Begriff „Tag“ oft synonym zu „Element“ verwandt.

[4] Vgl. w3c: XML 1.0 (2), Abschnitt 3.1.

[5] Vgl. w3c: XML 1.0 (3), Abschnitt 2.1.

[6] In der Umgangssprache wird das Wurzel-Element auch kurz Wurzel genannt. Diese Bezeichnung ist zumindest unglücklich und mißverständlich, weil in XPath mit „Wurzel“ (root) das Dokument selber gemeint ist.

[7] Vgl. w3c: XML 1.0 (3), Def. [44]

Ende der Leseprobe aus 37 Seiten

Details

Titel
Wohlgeformtes XML - kurz und bündig
Autor
Jahr
2004
Seiten
37
Katalognummer
V26360
ISBN (eBook)
9783638287197
ISBN (Buch)
9783638649056
Dateigröße
1717 KB
Sprache
Deutsch
Anmerkungen
Stefan Kayser ist selbständiger Dozent und Berater. Seit über 15 Jahren hat er Erfahrung in der Vorbereitung und Durchführung von Schulungen. Zuletzt hatte er in einer Consulting als Dozent und Analyst in den Bereichen Webentwicklung, Programmierung, SAP uvm. gearbeitet. Ein Schwerpunkt seiner Arbeit ist seitdem XML.
Schlagworte
Wohlgeformtes
Arbeit zitieren
Stefan Kayser (Autor:in), 2004, Wohlgeformtes XML - kurz und bündig, München, GRIN Verlag, https://www.grin.com/document/26360

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Wohlgeformtes XML - kurz und bündig



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden