Mittels der u.a. in JAVA programmierten, barrierefreien Open Source Webapplikation PaGe werden aus Corpora beliebiger UTF8 codierbarer Sprachen, die in eine MySQL Datenbank gespeichert werden, automatisch linguistische Paradigmen ermittelt. Die Methode ist die der strukturellen Semantik, die auf Ferdinand de Saussure zurückgeht. Die Methode, das Programm PaGe und Hintergrund ist in der Arbeit theoretisiert. Die Webapplikation ist erreichbar unter:
http://pascal.selfip.org/Paradigmenbildung/
Inhaltsverzeichnis
1. Einleitung
2. Linguistische Fundierung
2.1. Semantik
2.1.1. Genealogische Skizze
2.1.2. Definitionen
2.1.3. Problematik
2.2. Paradigma
2.2.1. Genealogische Skizze
2.2.2. Definitionen
2.2.3. Problematik
2.3. Selbstlernende Systeme
2.3.1. Definitionen
2.3.2. Problematik
3. Die Webapplikation PaGe
3.1. Softwareumgebung
3.1.1. Server und Servlet Container
3.1.2. Datenbank
3.1.3. Client
3.2. Aufbau und Bedienung
3.2.1 Servlet und Java Beans
3.2.2. Datenbank
3.2.3. Client
3.3. Algorithmen und Performanz
3.3.1. Aussagekräftige Kotexte
3.3.2. Performanz
3.3.3. Algorithmuswahl
3.3.3.1. Beschreibung des komplexen Algorithmus
3.3.3.2. Beschreibung des redundanten Algorithmus
3.3.3.3. Beschreibung des vereinfachten redundanten Algorithmus
3.3.3.4. Berechnug der Relationen
4. Zusammenfassung der Ergebnisse und Ausblick
Zielsetzung & Themen
Das primäre Ziel dieser Arbeit ist die Entwicklung einer Software namens PaGe, welche in der Lage ist, automatisch Paradigmen auf Basis eines linguistischen Korpus zu generieren. Hierbei wird untersucht, wie durch die maschinelle Analyse sprachlicher Daten deklaratives Wissen gewonnen und mittels einer niedrigschwelligen Schnittstelle für Anwender zugänglich gemacht werden kann, wobei insbesondere die Herausforderungen der strukturellen Semantik und der Computabilität von Paradigmen im Vordergrund stehen.
- Grundlagen der strukturellen Semantik und Paradigmenbildung
- Konzeption und technische Umsetzung der Webapplikation PaGe
- Methoden der automatisierten Datengewinnung aus Korpora
- Diskussion von Algorithmen zur Performanzoptimierung
- Herausforderungen bei der Disambiguierung und Datenpersistierung
Auszug aus dem Buch
3.3. Algorithmen und Performanz
Wie noch zu zeigen ist, ist die Wahrscheinlichkeit eines Auftretens gleicher Kookkurrenzen mit hoher Kotextbreite äußerst gering. Die qualitative Aussagekraft jedoch steigt non-linear mit der Zunahme der Kotextbreite. Aus diesen beiden Tatsachen erklärt sich das Ziel vorliegender Arbeit, das in der Verarbeitung eines Korpus von mehr als 100 Millionen Worten bestand. Für die Realisierung bedeutet das die Entwicklung äußerst performanter Algorithmen, bzw. der Einsatz geeigneter Speicherstrategien (wie etwa Datenbanken). Die im Laufe der Entwicklung von PaGe entworfenen Algorithmen werden in diesem Kapitel dargestellt.
Algorithmen und Daten lassen sich nicht separat betrachten. Algorithmen arbeiten auf Daten. Rolshoven (2002:3) stellt fest:
Die Objektorientierung betont den Primat der Struktur, speziell der Datenstruktur und sieht den Prozess oder Algorithmus (in Gestalt von Methoden) als Komponente der Struktur dieser untergeordnet.
Die Datenstrukturierung determiniert den Algorithmus, dessen Aufbau und auch dessen Performanz. Zudem hängt der Output eines Algorithmus nicht nur vom Aufbau des Algorithmus selbst und vom Aufbau der Datenstruktur ab - auch die Datenstrukturinhalte (kurz: die Daten), die er verarbeitet, bedingen die Ausgabe. Die Datenstruktur und die Datengrundlage des PaGe-Algorithmus wirkt also bestimmend auf die Ergebnisse. Da zudem die Datenstrukturierung der Korpora und die Datengrundlage durch Selektion geeigneter Korpora für den Anwender leichter zu manipulieren ist als die Manipulation am Code des Algorithmus wird im Folgenden die Datenextraktion und der Aufbau der generierten Datenstruktur näher beleuchtet.
Zusammenfassung der Kapitel
1. Einleitung: Motivation und Zielsetzung zur automatisierten Organisation digitaler Dokumente durch Paradigmenbildung.
2. Linguistische Fundierung: Theoretische Herleitung der Begriffe Semantik, Paradigma und deren strukturalistische Einordnung.
3. Die Webapplikation PaGe: Detaillierte Beschreibung der Softwarearchitektur, der Datenbankimplementierung sowie der algorithmischen Verfahren.
4. Zusammenfassung der Ergebnisse und Ausblick: Kritische Reflexion der entwickelten Lösung und Identifikation zukünftiger Verbesserungspotenziale.
Schlüsselwörter
Paradigmenbildung, Informatik, Linguistik, Strukturalismus, Semantik, PaGe, Kookkurrenzanalyse, Datenbank, Algorithmus, Korpus, Taxonomie, Distribution, Wortfeld, Softwareumgebung, Sprachverarbeitung
Häufig gestellte Fragen
Worum geht es in dieser Magisterarbeit?
Die Arbeit befasst sich mit der Entwicklung eines Software-Systems, das automatisch linguistische Paradigmen aus Korpora extrahiert, um die Organisation und Auffindbarkeit digitaler Informationen zu verbessern.
Welche zentralen Themenfelder werden behandelt?
Die Arbeit verknüpft die theoretische Linguistik (insbesondere den Strukturalismus und die Semantik) mit der Informatik (Softwareentwicklung, Datenbanken, Algorithmen).
Was ist das primäre Forschungsziel?
Das Hauptziel ist die Realisierung einer „niedrigschwelligen“ Webapplikation, die mittels distributioneller Analysen Wortparadigmen generiert, ohne auf manuelle Eingriffe angewiesen zu sein.
Welche wissenschaftliche Methode kommt zum Einsatz?
Die Arbeit nutzt die strukturalistische Methode des Substitutionstests und der Kookkurrenzanalyse, um auf rein datengetriebener Basis (unsupervised learning) Zusammenhänge zwischen Wörtern innerhalb eines Wortfeldes zu bestimmen.
Was ist der Inhalt des Hauptteils?
Der Hauptteil konzentriert sich auf die technische Realisierung der Anwendung PaGe, die Implementierung von Algorithmen zur effizienten Datenverarbeitung und die Diskussion der Performanz bei großen Datenmengen.
Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?
Die zentralen Schlagworte sind Paradigmenbildung, Strukturalismus, Semantik, Kookkurrenzanalyse und Korpuslinguistik.
Was ist das Besondere an dem in PaGe verwendeten Lernverfahren?
Es handelt sich um ein unüberwachtes Lernverfahren (unsupervised learning), bei dem das System ohne menschliche Evaluation und ohne vorab definierte Klassifizierungen eigenständig Strukturen aus rohen Textdaten ableitet.
Welche Rolle spielt die Datenbank in PaGe?
Die Datenbank dient zur persistenten Speicherung der extrahierten Kotexte und ist entscheidend für die Performanz, da sie bei großen Korpora den Speicherbedarf optimiert und den Zugriff auf berechnete Ergebnisse beschleunigt.
- Quote paper
- Pascal Christoph (Author), 2006, Paradigmenbildung in einem selbstlernenden System, Munich, GRIN Verlag, https://www.grin.com/document/186151