Das Internet ist eine gigantische Sammlung von Informationen aller Art. Von Kochrezepten bis Bombenbauplänen kann man hier fast jede Information finden...wenn man genug Geduld und Zeit aufbringt. Die pure Anzahl von Web-Sites wird für den Nutzer zu einem Problem. So meldete z.B. Yahoo im August 2005 eine Indexgröße von 19,2 Milliarden Seiten. [Rahm, S.260] Dabei ist ein erheblicher, und meist der qualitativ hochwertigere, Teil der Informationen noch nicht einmal zugänglich, da er auf Anfrage dynamisch aus Datenbeständen zusammengesucht und auf dynamisch generierten Seiten angezeigt wird. Darüber hinaus sind vielfältige Informationen derzeit in privaten Datenbanken, denen von Unternehmen oder Behörden, in digitalen Bibliotheken oder Intranets der breiten Nutzung entzogen. Diese Datenmengen in einem anderem als dem ursprünglich vorgesehenen Kontext oder in Kombination anwenden zu können, böte verschiedenste Möglichkeiten, davon zu profitieren.
Inhaltsverzeichnis
1. Einführung
1.1 Das semantische Web als Fortentwicklung des bestehenden Netzes
1.2 Probleme bei der Etablierung eines semantischen Webs
1.3 Lösungsansätze
1.4 Gliederung
2. Syntaktische Standards
2.1 Hyper Text Markup Language - HTML
2.2 Extensible Markup Language - XML
2.3 XML-Schemata
2.4 Ressource Description Framework - RDF
2.5 RDF-Schemata
2.5.1 Klassen
2.5.2 Beziehungen
2.5.3 Einschränkungen
2.5.1 weitere Primitive
3. Heterogenität auf struktureller und semantischer Ebene
3.1 Heterogenitätskonflikte zwischen Datenmodellen
3.2 Heterogenitätskonflikte zwischen Daten-Schemata
3.2.1 bilaterale Konflikte
3.2.2 multilaterale Konflikte
3.2.3 Meta-Level Konflikte
3.3 Heterogenitätskonflikte zwischen Daten-Instanzen
3.3.1 Datenkonflikte
3.3.2 Domänenkonflikte
4. Semantische Integration
4.1 Wrapper und Mediatoren
4.2 Erfassen von Semantik über die Struktur
4.2.1 structure resemblance (Ähnlichkeit)
4.2.2 definition of terms (Term-Definition)
4.2.3 structure enrichment (Anreicherung)
4.2.4 Meta-Annotation
4.3 Zugang über natürlichsprachliche Verarbeitung des Ursprungstextes
4.4 Semantische Modelle
5. Semantische Modelle darstellen und vergleichen
5.1 Namen und Bezeichner
5.2 Termnetzwerke
5.3 Konzepthierarchien
5.4 Ontologien
Zielsetzung & Themen
Die vorliegende Arbeit untersucht die Herausforderungen bei der Integration heterogener Informationsquellen im Internet und erforscht den Lösungsansatz des semantischen Webs, um Daten für eine automatisierte maschinelle Verarbeitung zugänglich zu machen und deren Bedeutung (Semantik) explizit zu repräsentieren.
- Grundlagen der syntaktischen Standards wie HTML, XML und RDF.
- Analyse der verschiedenen Ebenen der Heterogenitätskonflikte (Datenmodell, Schema, Instanz).
- Untersuchung von Integrationsstrategien mittels Wrappern, Mediatoren und semantischen Modellen.
- Vergleich von Methoden zur semantischen Wissensrepräsentation, einschließlich Termnetzwerken und Ontologien.
- Diskussion über das Information Retrieval im Web und die Bedeutung von natürlicher Sprachverarbeitung.
Auszug aus dem Buch
1. Einführung
Das Internet ist eine gigantische Sammlung von Informationen aller Art. Von Kochrezepten bis Bombenbauplänen kann man hier fast jede Information finden...wenn man genug Geduld und Zeit aufbringt. Die pure Anzahl von Web-Sites wird für den Nutzer zu einem Problem. So meldete z.B. Yahoo im August 2005 eine Indexgröße von 19,2 Milliarden Seiten. [Rahm, S.260] Dabei ist ein erheblicher, und meist der qualitativ hochwertigere Teil der Informationen noch nicht einmal zugänglich, da er auf Anfrage dynamisch aus Datenbeständen zusammengesucht und auf dynamisch generierten Seiten angezeigt wird. Darüber hinaus sind vielfältige Informationen derzeit in privaten Datenbanken, denen von Unternehmen oder Behörden, in digitalen Bibliotheken oder Intranets der breiten Nutzung entzogen. Diese Datenmengen in einem anderem als dem ursprünglich vorgesehenen Kontext oder in Kombination anwenden zu können, böte verschiedenste Möglichkeiten, davon zu profitieren.
Zusammenfassung der Kapitel
1. Einführung: Diese Einleitung beleuchtet die Problematik der schieren Datenmenge im Internet und die Notwendigkeit, Informationen für eine maschinelle Verarbeitung durch das semantische Web nutzbar zu machen.
2. Syntaktische Standards: In diesem Kapitel werden grundlegende Technologien wie HTML, XML, XML-Schemata und RDF vorgestellt, die als technisches Fundament für die Strukturierung von Daten dienen.
3. Heterogenität auf struktureller und semantischer Ebene: Der Abschnitt erläutert die verschiedenen Konfliktarten, die bei der Integration verteilter Datenquellen entstehen, unterteilt in Datenmodelle, Daten-Schemata und Daten-Instanzen.
4. Semantische Integration: Hier werden technische Lösungen wie Wrapper und Mediatoren sowie Ansätze zur semantischen Erschließung mittels Struktur-Analyse und natürlichsprachlicher Verarbeitung diskutiert.
5. Semantische Modelle darstellen und vergleichen: Dieses Kapitel betrachtet die verschiedenen Möglichkeiten zur Repräsentation von Wissen, von einfachen Termnetzwerken bis hin zu komplexen Ontologien und deren Vergleichbarkeit.
Schlüsselwörter
Semantisches Web, Semantic Integration, Information Sharing, RDF, XML, Heterogenität, Datenintegration, Ontologien, Information Retrieval, Metadaten, Schema Matching, Wrapper, Mediatoren, Wissensrepräsentation, Interoperabilität.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der Herausforderung, heterogene und verteilte Datenquellen im Internet zu integrieren und durch den Aufbau eines semantischen Webs für Software-Tools maschinenlesbar und interpretierbar zu machen.
Was sind die zentralen Themenfelder der Publikation?
Die Arbeit behandelt syntaktische Standards für den Datenaustausch, die Identifikation von Heterogenitätskonflikten, Methoden der semantischen Integration sowie den Vergleich und die Darstellung semantischer Modelle.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist es aufzuzeigen, wie durch die explizite Darstellung von Metadaten und die Nutzung semantischer Modelle eine automatisierte Nutzung und Verknüpfung heterogener Informationsquellen im Web realisiert werden kann.
Welche wissenschaftliche Methode verwendet die Arbeit?
Es handelt sich um eine systematische Analyse von Ansätzen aus der Literatur, die den Stand der Technik und die Herausforderungen bei der Entwicklung des semantischen Webs auf Basis der Schichtenmodell-Architektur des W3C darlegt.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die Vorstellung technischer Grundlagen (HTML, XML, RDF), eine detaillierte Klassifizierung von Integrationsproblemen (Struktur-, Schema-, Instanzebene) sowie die Diskussion spezifischer Lösungsansätze wie Wrapper/Mediatoren und Ontologien.
Welche Schlüsselwörter charakterisieren die Arbeit am besten?
Zentrale Begriffe sind Semantisches Web, Semantic Integration, Heterogenität, Ontologien, RDF, XML und Interoperabilität.
Was unterscheidet Wrapper von Mediatoren in diesem Kontext?
Wrapper dienen dazu, den Inhalt einer spezifischen Datenquelle in ein einheitliches Format (z.B. XML) zu transformieren, während Mediatoren auf diesen aufbauen, um verschiedene Quellen zu kombinieren und Anfragen gegen ein globales Schema zu ermöglichen.
Warum sind Ontologien für die Integration wichtig?
Ontologien ermöglichen eine formale Repräsentation von Wissen, die über einfache Schemata hinausgeht, indem sie Klassen, Eigenschaften und komplexe Beziehungen definieren und somit eine präzise Interpretation durch Maschinen unterstützen.
Was versteht man unter dem in der Arbeit genannten "Schichtenmodell"?
Es handelt sich um das vom World Wide Web Consortium (W3C) definierte Modell, das aufeinander aufbauende Ebenen beschreibt (von URI/Unicode bis hin zu Trust), um schrittweise ein semantisches Web zu installieren.
Welche Rolle spielen "Datenkonflikte" bei der Integration?
Datenkonflikte (z.B. unterschiedliche Währungen oder Skalierungen) treten auf der Instanzenebene auf und erschweren den Vergleich von Informationen aus verschiedenen Quellen, da unterschiedliche Maßstäbe für dieselben realen Objekte verwendet werden.
- Quote paper
- Stefan Köpke (Author), 2007, Semantische Integration, Munich, GRIN Verlag, https://www.grin.com/document/90188