In der heutigen Informationsgesellschaft erweist sich der effiziente Umgang mit dem Produktionsfaktor Wissen als entscheidender Wettbewerbsfaktor. Aufgrund der geringeren Halbwertszeit des Wissens tritt das reine Faktenlernen zunehmend in den Hintergrund, das Lernen von Zusammenhängen gewinnt demgegenüber an Bedeutung.
Diese Dissertationsschrift beschreibt einen auf der deutschen Wikipedia basierenden Prototyp, der zum einen zum automatisierten Abfragen von Zusammenhängen genutzt werden kann und zum anderen ein neuartiges didaktisches Konzept zum Lernen von Assoziationen einführt.
Zur Definition von Wissensdomänen werden Algorithmen vorgestellt, die die einem Wikipedia-Artikel zugeordneten Kategorien auf vordefinierte Hauptkategorien aggregieren. Da Daten zu inhaltlichen Zusammenhängen zwischen verschiedenen Wikipedia-Einträgen bisher noch nicht erhoben wurden, stellt diese Arbeit solche Assoziationen anhand der semantischen Ähnlichkeit her, die durch zwei Programme namens Findlink und SENTRAX berechnet wird. Die so generierte Liste ähnlicher Artikel formt ein spezielles Netz, in dem die Knoten einzelne Wikipedia-Artikel darstellen und die Kanten inhaltliche Zusammenhänge abbilden. Die Assoziationen werden anschließend in die Oberfläche des Prototyps integriert und um Mechanismen zum Tracken der Benutzerinteraktion erweitert.
Ein Kernproblem des Versuchsaufbaus stellt der Korpusumfang dar. Einerseits führt die enorme Artikelanzahl bei der Ähnlichkeitsberechnung durch Findlink zu Performanceproblemen, andererseits zeigen sich aufgrund der Vielzahl der Einträge Anomalien in der Netzstruktur der ähnlichen Artikel in Form vieler untereinander kaum verbundener Teilnetze. Als Problemlösungen werden mehrere Filterkriterien definiert und deren Auswirkungen auf den Korpusumfang skizziert. Zusätzlich wird ein eigenes Gütemaß eingeführt, das sich als hilfreich bei der Beurteilung der Relevanz eines Artikels erweist.
Die im entwickelten Prototyp implementierten Konzepte ermöglichen das spielerische Lernen von Zusammenhängen durch die Bearbeitung zufälliger oder vordefinierter Navigationsaufgaben. Darüber hinaus kann der erstellte Prototyp als Ausgangspunkt für weitere Forschungen zum Lernen von Zusammenhängen dienen. Das implementierte Tracking der Benutzerinteraktion legt die Basis für spätere Auswertungsalgorithmen.
1 EINLEITUNG
2 EINFÜHRUNG UND FORSCHUNGSAUFBAU
2.1 Problem der Informationsflut
2.2 Ökonomische Betrachtung
2.3 Definition Wissen/Wissensmanagement
2.4 Einordnung in den Forschungszusammenhang
2.5 Forschungsaufbau
3 DIE FREIE ENZYKLOPÄDIE WIKIPEDIA
3.1 Entwicklung und Organisationsstruktur
3.1.1 Wikipedia in Zahlen
3.1.2 Interne Organisation
3.2 Schwesterprojekte
3.2.1 Wikibooks
3.2.2 Wikinews
3.2.3 Wikiquote
3.2.4 Wikisource
3.2.5 Wikispecies
3.2.6 Wikiversity
3.2.7 Wiktionary
3.2.8 Verwandte Projekte
3.3 Kollaborative Wissensgenerierung – Analyse eines revolutionären Konzeptes
3.3.1 Der Grundgedanke
3.3.2 Vandalismus, „Edit Wars“ und Maßnahmen zur Qualitätssicherung
3.3.3 Verwendbarkeit von Wikipedia als Quelle
3.4 Wikipediaforschung
3.4.1 Community und Motivation der Benutzer
3.4.2 Gütekriterien und Zeitreihenanalysen
3.5 Technischer Aufbau und Konfiguration der Testumgebung
3.5.1 Genutzte Technologien
3.5.2 Konfiguration der Testumgebung
4 ABLEITUNG VON KATEGORIEN ZUR ABBILDUNG VON WISSENSDOMÄNEN
4.1 Zielsetzung
4.2 Das Kategoriesystem in Wikipedia
4.3 Forschungsgebiet Kategorisierung
4.4 Implementierung des eigenen Algorithmus
4.4.1 Grundlagen und Datenbankaufbau
4.4.2 Arbeitsweise des Programms
4.5 Ergebnisse
5 BERECHNUNG DER ÄHNLICHKEIT ZWISCHEN ARTIKELN
5.1 Zielsetzung
5.2 Forschungsgebiet Ähnlichkeitsbestimmung
5.3 Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln
5.4 Vorstellung Findlink-Programm
5.4.1 Genutzte Konzepte zur Ähnlichkeitsbestimmung
5.4.2 Einbindung in die Problemstellung
5.5 Notwendige Vorarbeiten vor Ähnlichkeitsberechnung
6 KONSTELLATIONEN VERSUCHSAUFBAU
6.1 Beeinflussbare Versuchsparameter
6.2 Versuch 1: Einbeziehung aller Daten
6.3 Versuch 2: Reduktion der Textmenge
6.4 Versuch 3: Einfluss „MAX_HITS“ Parameter
6.5 Exkurs 1: Identifikation wichtiger Artikel
6.6 Versuch 4: Einführung Gütemaß „Wertung“
6.7 Versuch 5: Eliminierung von Datumsangaben
6.8 Exkurs 2: Ansätze zum Aufbrechen der Netzstruktur
6.9 Versuch 6: Filterung häufiger Substantive
6.10 Versuch 7: Einbeziehung themenfremder Artikel
6.11 Versuch 8: Kombination der Konfigurationsdateien
6.12 Zusammenfassung
7 AUFBAU UND BENUTZEROBERFLÄCHE DES PROTOTYPS
7.1 Anbindung des Prototyps an die Mediawiki-Software
7.1.1 Benutzermanagement
7.1.2 Einbindung ähnlicher Artikel
7.1.3 Erfassung der Navigationsdaten
7.2 Sentrax-Engine als Alternative zum Prototyp
7.2.1 Probleme herkömmlicher Suchalgorithmen
7.2.2 Funktionen und Einsatzgebiete der SENTRAX
7.2.3 Ähnlichkeitsberechnung über die Sentrax
7.3 Zusammenfassung
8 ZUSAMMENFASSUNG UND AUSBLICK
8.1 Ergebnisse
8.2 Ansätze zur Weiterentwicklung
8.2.1 Variationen der Aufgabenstellung
8.2.2 Erweiterung der Oberfläche
8.2.3 Betrachtungsperspektiven für eine spätere Auswertung
Zielsetzung & Themen
Die Arbeit untersucht, wie personalisierte Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie abgeleitet und für Lernzwecke genutzt werden können. Durch die Implementierung eines Prototyps namens „Simpedia“ wird erforscht, ob Navigationspfade eines Nutzers Rückschlüsse auf dessen Wissensstand zulassen.
- Automatische Ableitung von Wissensdomänen aus Wikipedia-Kategorien.
- Methoden zur Bestimmung semantischer Ähnlichkeit zwischen Artikeln.
- Konzeption und Implementierung eines Prototyps zur spielerischen Navigation.
- Tracking und Auswertung von Benutzerinteraktionen zur Wissensermittlung.
- Optimierung von Algorithmen zur Performance-Verbesserung bei großen Datenmengen.
Auszug aus dem Buch
3.3.1 Der Grundgedanke
Wikipedia selbst kann als das umfassendste Projekt zur kollaborativen Zusammenarbeit und Inhalteerstellung angesehen werden. Oft fällt in diesem Zusammenhang der Begriff Wisdom of Crowds (Weisheit der Vielen). Er entstammt dem 2004 von James Surowiecki veröffentlichten Werk „The Wisdom of Crowds – Why the Many Are Smarter Than the Few and How Collective Wisdom Shapes Business, Economies, Societies and Nations“ (Surowiecki 2004). Seine Argumentation mündet in der These, dass die Aggregation von Informationen durch eine Gruppe zu einem Ergebnis führt, das meist näher an der Wahrheit liegt als die Schätzungen der einzelnen Individuen. Übertragen auf die Inhalte einer Enzyklopädie sollte deren Qualität durch die Einflussnahme vieler verschiedener Benutzer positiv geprägt werden. Inzwischen hat sich die Informationswissenschaft dieses Phänomens angenommen und es umfassend untersucht (vgl. Kapitel 3.4).
Theoretisch ließe sich aufgrund der hohen Mitgliederanzahl von Wikipedia die These aufstellen, dass das vorhandene Artikelspektrum die verschiedenen wissenschaftlichen Fachrichtungen gleichmäßig abdecken müsste. Wie Kapitel 3.4.1 jedoch aufzeigt, handelt es sich hierbei um eine falsche Schlussfolgerung. Trotz des breiten Nutzerspektrums existieren Nischen, die von dem positiven Effekt der Weisheit der Vielen ausgenommen bleiben.
Zusammenfassung der Kapitel
EINLEITUNG: Die Einleitung thematisiert die Herausforderungen der Informationsflut in der modernen Gesellschaft und stellt die Forschungsfrage zur automatisierten Abfrage von Wissen über Zusammenhänge.
EINFÜHRUNG UND FORSCHUNGSAUFBAU: Dieses Kapitel erörtert die ökonomische Bedeutung von Wissen und begründet die Wahl des konstruktivistischen Forschungsansatzes für das Projekt.
DIE FREIE ENZYKLOPÄDIE WIKIPEDIA: Der Abschnitt bietet einen tiefen Einblick in die Organisationsstruktur von Wikipedia, die Schwesterprojekte und die Prinzipien der kollaborativen Wissensgenerierung.
ABLEITUNG VON KATEGORIEN ZUR ABBILDUNG VON WISSENSDOMÄNEN: Hier werden Algorithmen zur Aggregation von Wikipedia-Kategorien vorgestellt, um Artikel strukturiert zu erfassen und Wissensdomänen abzubilden.
BERECHNUNG DER ÄHNLICHKEIT ZWISCHEN ARTIKELN: Dieses Kapitel konzentriert sich auf die Berechnung semantischer Ähnlichkeiten zwischen Wikipedia-Artikeln, unter anderem durch den Einsatz des Findlink-Programms.
KONSTELLATIONEN VERSUCHSAUFBAU: Dieser Teil dokumentiert die verschiedenen Versuchskonstellationen und Optimierungen zur Performance-Steigerung bei der Ähnlichkeitsberechnung innerhalb der Datenbasis.
AUFBAU UND BENUTZEROBERFLÄCHE DES PROTOTYPS: Das Kapitel beschreibt die technische Integration der Software in die Mediawiki-Plattform und die Gestaltung der Benutzerschnittstelle für Simpedia.
ZUSAMMENFASSUNG UND AUSBLICK: Der Abschluss fasst die wesentlichen Forschungsergebnisse zusammen und skizziert Ansätze für künftige Entwicklungen und Datenauswertungen.
Schlüsselwörter
Wikipedia, Wissensmanagement, Information Retrieval, Wissensdomänen, Prototyp, Simpedia, Mediawiki, Ähnlichkeitsberechnung, Findlink, SENTRAX, Navigationsaufgaben, Wissensgenerierung, Benutzerinteraktion, Wissensbasis, Kategorisierung.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit?
Die Arbeit beschäftigt sich mit der automatisierten Erschließung und spielerischen Vermittlung von Zusammenhängen in großen Informationsbeständen, konkret am Beispiel der deutschsprachigen Wikipedia.
Welche zentralen Themenfelder werden behandelt?
Zentrale Themen sind Wissensmanagement, Information Retrieval, die algorithmische Analyse von Wikipedia-Strukturen und die Entwicklung didaktischer Lernkonzepte.
Was ist das primäre Forschungsziel?
Das Ziel ist die Entwicklung eines Software-Prototyps („Simpedia“), der durch ein neuartiges Navigationskonzept in Wikipedia-Artikeln Rückschlüsse auf das Wissen eines Anwenders zulässt.
Welche wissenschaftliche Methode kommt zum Einsatz?
Die Arbeit folgt primär dem konstruktionswissenschaftlichen Paradigma und nutzt Methoden wie Prototyping, Simulation und Modellierung.
Welche Inhalte umfasst der Hauptteil?
Der Hauptteil behandelt die Kategorisierung von Wikipedia-Artikeln, die algorithmische Berechnung der Ähnlichkeit zwischen Artikeln, die Konfiguration der Software-Testumgebung sowie die Entwicklung der Benutzeroberfläche.
Welche Keywords charakterisieren die Arbeit am besten?
Schlüsselbegriffe sind Wissensdomänen, Wikipedia, Information Retrieval, Prototyping, Ähnlichkeitsanalyse und Benutzer-Tracking.
Warum wird die Wikipedia als Basis genutzt?
Sie stellt den derzeit umfangreichsten Bestand an Lexikonartikeln dar und bietet durch ihre quelloffene Mediawiki-Software ideale Voraussetzungen für die Modifikation zu Forschungszwecken.
Was ist das „Simpedia“-Konzept?
Simpedia ist ein didaktischer Ansatz, bei dem Nutzer Navigationsaufgaben innerhalb eines Netzwerks inhaltlich ähnlicher Artikel lösen müssen, wodurch implizites Wissen über Zusammenhänge abgefragt und gefördert wird.
Wie unterscheidet sich Findlink von der Sentrax-Engine?
Findlink ist auf die Häufigkeitsanalyse von Begriffen spezialisiert, während die Sentrax-Engine zusätzlich Kookkurrenzanalysen nutzt, um komplexere semantische Zusammenhänge über Konzeptwolken zu visualisieren.
- Arbeit zitieren
- MSc Marcel Minke (Autor:in), 2012, Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“, München, GRIN Verlag, https://www.grin.com/document/208590