Die vorliegende Seminararbeit thematisiert einen Bereich der Informatik, genauer gesagt der Datenwissenschaft, der in dem letzten Jahrzehnt immer mehr an Bedeutung gewonnen und große Fortschritte erzielt hat – Text Mining.

Im Zeitalter Big Data nimmt das Aufkommen von digitalen Informationen enorm zu, das aufgrund der günstigen und unbegrenzt verfügbaren Speicherung ermöglicht wird.

Experten gehen jedoch davon aus, dass bis zu 80 Prozent aller Unternehmensinformationen in Form unstrukturierter Textdokumente gespeichert sind. So liegen Kundenrezensionen, Patentanmeldungen oder Geschäftsberichte unstrukturiert vor. Mithilfe von linguistischen, statischen und mathematischen Verfahren sollen durch das Text Mining gezielt Muster und Strukturen gefunden und Informationen extrahiert werden. Im Vordergrund der folgenden Seminararbeit stehen die im Kontext Text Mining möglichen Analysemethoden Textklassifikation und Textclustering und mögliche Visualisierungstechniken. Ziel der Arbeit ist es, den Einsatz von Visualisierungen zu veranschaulichen und den Nutzen hervorzuheben.

Um einen ersten Einblick in die Thematik zu bekommen, werden im ersten Teil der Arbeit die Begriffe Text Mining und Informationsvisualisierung definiert und eingeordnet. Dabei liegt das Hauptaugenmerkt einerseits auf den typischen Prozessschritten des Text Mining und auf die Abgrenzung vom Text Mining zum Data Mining, andererseits auf den positiven Zugewinn durch die visuelle Wahrnehmung von Informationen und deren Strukturen und die Unterscheidung von Informationsvisualisierung und wissenschaftlichen Visualisierungen. Anschließend werden zwei Methoden innerhalb des Text Mining vorgestellt: Textklassifikation, welches die Sentimentanalyse beinhaltet, und Textclustering, das das Topic Modeling einschließt. Weiterhin werden vier Visualisierungstechniken vorgestellt, wovon die letzten beiden jeweils für die Sentimentanalyse und für das Topic Modeling vorgesehen sind. Abschließend werden im Resümee die Ergebnisse zusammengefasst.

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Hauptteil

2.1. Begriffliche Klärungen

2.1.1. Text Mining

2.1.2. Informationsvisualisierung

2.2. Text Mining Methoden

2.2.1. Textklassifikation: Sentimentanalyse

2.2.2. Textclustering: Topic Modeling

2.3. Visualisierungstechniken

2.3.1. Word cloud: Inhalt auf Wortlevel

2.3.2. Word Tree: Stichwort im Kontext

2.3.3. Emotionen im Zeitverlauf

2.3.4. Topic Map: interaktive Graphen-basierte Topic Cloud

3. Resümee und Ausblick

4. Literaturverzeichnis

Zielsetzung & Themen

Die vorliegende Arbeit untersucht Methoden des Text Mining – namentlich Textklassifikation und Textclustering – sowie deren effektive visuelle Repräsentation. Ziel ist es, den Nutzen verschiedener Visualisierungstechniken zur Gewinnung von Erkenntnissen aus unstrukturierten Textdaten zu veranschaulichen und aufzuzeigen, wie komplexe Datenstrukturen durch visuelle Interaktionen besser erfassbar werden.

Grundlagen und Definitionen von Text Mining und Informationsvisualisierung.
Analysemethoden für Textdaten (Sentimentanalyse und Topic Modeling).
Einsatz von Visualisierungstechniken zur besseren Dateninterpretation.
Detaillierte Analyse von Word Clouds, Word Trees, Zeitreihendiagrammen und Topic Maps.

Auszug aus dem Buch

2.3.2. Word Tree: Stichwort im Kontext

Der große Nachteil der word cloud, nämlich die fehlende Darstellung von Wortbeziehungen und des Kontextes, ist die grundlegende positive Charakteristik der Visualisierung word tree, ein klassisches „keyword-in-context“ Modell. Word trees fassen Textdokumente in einem Syntaxbaum zusammen, indem Sätze dort aggregiert werden, wo Wörter übereinstimmen, und indem Sätze dort in Zweige getrennt werden, wo sich die entsprechend Wörter unterscheiden (Vgl. Ebd.; Vgl. Wattenberg/Viégas, 2008, S. 1222).

In dem Vorteil des Kontextüberblicks ist die weite Verbreitung begründet. Hierarchische Strukturen legen Informationsräume sinnvoll an, ermöglichen vereinfachte Zuordnungen zu Kategorien und dienen der Wissensstrukturierung (Vgl. Preim/Dachselt, 2010, S. 451).

So zeigt Abbildung 2 alle Vorkommnisse von „if love“ in Romeo and Juliet, gefolgt von den entsprechenden Teilsätzen (Vgl. Wattenberg/Viégas, 2008, S.1222)

Zusammenfassung der Kapitel

1. Einleitung: Diese Einleitung führt in die Relevanz von Text Mining im Big-Data-Zeitalter ein und umreißt die methodische Herangehensweise sowie das Ziel der Arbeit, den Nutzen von Visualisierungen hervorzuheben.

2. Hauptteil: Der Hauptteil erläutert zunächst grundlegende Begriffe, analysiert Methoden wie Textklassifikation und Textclustering und präsentiert vier spezifische Visualisierungstechniken für diese Analyseformen.

3. Resümee und Ausblick: Das Schlusskapitel fasst die Erkenntnisse über die untersuchten Analysemethoden und Visualisierungstechniken zusammen und unterstreicht die Bedeutung der Datenvisualisierung für das Verständnis komplexer Informationsbestände.

4. Literaturverzeichnis: Dies ist das vollständige Verzeichnis der in der Seminararbeit zitierten Quellen.

Schlüsselwörter

Text Mining, Textklassifikation, Textclustering, Informationsvisualisierung, Sentimentanalyse, Topic Modeling, Word Cloud, Word Tree, Zeitreihenanalyse, Topic Map, Big Data, Unstrukturierte Daten, Datenanalyse, Datenvisualisierung, Mustererkennung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit thematisiert den Bereich der Datenwissenschaft, insbesondere das Text Mining, und die damit verbundenen Möglichkeiten zur Analyse und Visualisierung von unstrukturierten Textinformationen.

Welche zentralen Themenfelder werden behandelt?

Die Schwerpunkte liegen auf der begrifflichen Definition von Text Mining, der Erläuterung von Klassifikations- und Clustering-Verfahren sowie der Vorstellung moderner Visualisierungstechniken.

Was ist das primäre Ziel oder die Forschungsfrage?

Ziel der Arbeit ist es, den Einsatz von Visualisierungen im Kontext des Text Minings zu veranschaulichen und deren Nutzen für das Erkenntnisgewinnungspotenzial hervorzuheben.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit nutzt eine literaturbasierte Analyse und methodische Aufarbeitung aktueller Ansätze im Bereich des Text Minings, unter anderem überwachte Lernverfahren wie die Sentimentanalyse und unüberwachte Lernverfahren wie das Topic Modeling.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in eine theoretische Einführung der Fachbegriffe, eine Erläuterung der Data-Mining-Methoden auf Textdokumenten und eine detaillierte Vorstellung spezifischer Visualisierungstools wie Word Clouds, Word Trees, Zeitreihen-Sentimentgraphen und Topic Maps.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die zentralen Begriffe sind Text Mining, Textklassifikation, Textclustering, Informationsvisualisierung, Sentimentanalyse und Topic Modeling.

Was sind die Vor- und Nachteile der Word Cloud?

Die Word Cloud ist eine schnell lesbare, grafische Zusammenfassung von Wortfrequenzen, scheitert jedoch daran, komplexe Wortbeziehungen oder den Kontext innerhalb eines Textes aufzudecken.

Wie unterscheidet sich die Topic Map von einem klassischen Topic Model?

Während ein Topic Model meist ein statistisches Wahrscheinlichkeitsmodell ist, stellt die Topic Map eine interaktive, graphen-basierte Visualisierung dar, die Themen und zugehörige Stichworte verbindet, um eine intuitive thematische Untersuchung zu ermöglichen.

Ende der Leseprobe aus 24 Seiten - nach oben

Details

Titel: Text Mining und mögliche Visualisierungstechniken. Textklassifikation und Textclustering
Hochschule: Technische Universität Bergakademie Freiberg
Note: 1,3
Autor: Anonym (Autor:in)
Erscheinungsjahr: 2019
Seiten: 24
Katalognummer: V469053
ISBN (eBook): 9783668945029
ISBN (Buch): 9783668945036
Sprache: Deutsch
Schlagworte: Text Mining Textklassifikation Textclustering Visualisierung Visualisierungstechniken
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Anonym (Autor:in), 2019, Text Mining und mögliche Visualisierungstechniken. Textklassifikation und Textclustering, München, GRIN Verlag, https://www.grin.com/document/469053

Text Mining und mögliche Visualisierungstechniken. Textklassifikation und Textclustering