Text Mining und Semantic Web. Eine betriebliche Perspektive


Hausarbeit, 2017

26 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

Einleitung

1 Grundlagen des Text Mining
1.1 Definitionsansätze
1.2 Interdisziplinärst und typische Aufgaben des Text Mining

2 Methoden des Text Mining
2.1 Textklassifikation
2.2 Informationsextraktion

3 Übergeordnete Anwendungsbereiche
3.1 Wissensmanagement und Text Mining
3.2 Text Mining für das Semantic Web

4 Fazit und Ausblick

Literaturverzeichnis

Zusammenfassung

Angesichts des heutigen Informationsüberflusses ist Text Mining eine Möglichkeit, Prozes­se der Informationsverarbeitung und Informationserschließung eines Dokumentes zu unter­stützen. Das Text Mining kann einen großen Beitrag zu Wissensmanagement und Semantic Web leisten. Demzufolge bietet Text Mining einen potenziellen Nutzen in unternehmeri­schem Bereich an. In diesem Beitrag wird auf das Text Mining und dessen Zusammenhang mit Wissensmanagement und Semantic Web eingegangen und mit Anwendungsbeispielen der Nutzen des Text Mining in betrieblichem Umfeld vorgestellt.

Einleitung

Mit den heutigen Möglichkeiten der digitalen Medien und modernen Informationstechno­logien ist eine Zunahme der online verfügbaren Dokumente aufgetreten. Heute ist es, trotz des Einsatzes von Suchmaschinen, einfacher als je zuvor, sich in dieser enormen Informati­onsflut zu verlieren. Das liegt daran, dass die bestehenden Verfahren lediglich das Auffinden von Texten unterstützen [MW05, S. 1].

In diesem Sinne entsteht offensichtlich ein Spannungsfeld zwischen der immer wachsen­den Informationsflut und der ungenügenden Funktionalität der bestehenden Methoden. Sie sind unzufriedenstellend, weil sie das Bedürfnis einer computergestützten Informationsver­arbeitung bzw. Informationstransformation nicht erfüllen. Dieses Bedürfnis ist nicht nur eine Konsequenz der Informationsexplosion, sondern wird durch die steigende Bedeutung digi­talisierter Inhalte gefördert [MW05, S. 1].

Angesichts der Komplexität, Vielfältigkeit und des Überflusses von vorhandenen Inhalten bietet das Text Mining diverse Methoden, welche die Verarbeitung von textuellen Daten un­terstützt [AZ12a, S. 2].

Die größte Herausforderung des Text Mining besteht darin, mit den Feinheiten einer Sprache umzugehen. Doppeldeutigkeiten und Anaphern sind sehr gute Beispiele für diese Feinheiten. Der Rechner sollte über bestimmte Algorithmen und Methoden diese Feinheiten erkennen und richtig deuten können [KP07, S. 1].

Da der Anwendungsbereich des Text Mining sehr breit ist, liegt der Fokus dieses Beitra­ges auf dem Thema Text Mining aus der betrieblichen Perspektive. Die Zielsetzung dabei ist, den potenziellen Nutzen des Text Mining im betrieblichen Umfeld darzulegen, indem Klarheit geschaffen wird über:

- den Begriff Text Mining, dessen interdisziplinären Charakter und Aufgabenbereiche
- text Mining und dessen Zusammenhang mit Wissensmanagement und Semantic Web
- methoden und Anwendungsbeispiele des Text Mining im betrieblichen Umfeld

Um eine inhaltliche Strukturierung vorzunehmen, wurde dieser Beitrag in drei Kapitel gegliedert. Im ersten Kapitel werden die wesentlichen Begrifflichkeiten des Text Mining präsentiert. Im anschließenden zweiten Kapitel werden die Methoden Textklassifikation, Informationsextraktion und deren Algorithmen behandelt. Auf Grundlage dessen wird im dritten Kapitel der Beitrag des Text Mining zum Semantic Web und Wissensmanagement thematisiert und mit Anwendungsbeispielen aus der betrieblichen Praxis veranschaulicht.

1 Grundlagen des Text Mining

1.1 Definitionsansätze

Da die Entwickler des Text Mining aus verschiedenen Disziplinen kommen und unabhängig arbeiten, formulieren sie aus der Perspektive ihrer Forschungsgebiete, eine unterschiedliche Definition für den Begriff Text Mining. Dies führt zu einer großen Vielfalt an Definitionsan­sätzen [HNP05, S. 4].

„Text mining is the discovery and extraction of interesting, non-trivial knowledge from free or unstructured text[KP07, S. 1].“

Die bereits erwähnte Definition ist sichtlich vom Begriff des Data Mining beeinflusst. Der Ansatz, in dem Text Mining als eine Form des Data Mining gesehen wird, wird von Mehler et al. die Daten-Mining-Perspektive genannt [MW05, S. 3].

Data Mining bezeichnet den Verarbeitungsschritt im Prozess des „Knowledge Discovery in Databases“ (KDD) [FPSS96, S. 41]. Aus der Perspektive dieses Forschungsgebietes dient das Text Mining der Extraktion und Entdeckung vom Wissen aus textuellen Daten.

Im Vordergrund dieser Interpretation steht die Analogie vom Text Mining zum KDD. Wäh­rend die Ähnlichkeiten hervorgestellt werden, wird eine klare Unterscheidung zwischen die­sen Begriffen leider nicht klar genug getroffen [MW05, S. 3].

Aus der Perspektive des Information Retrieval (IR) werden hingegen die Definitionen IR und Text Mining nicht als gleichwertig betrachtet. Bei diesem Ansatz dient das Text Mining der Verbesserung des Information Retrieval [MW05, S. 3].

Während das Hauptthema beim Information Retrieval der Informationszugang ist, besteht das wesentliche Ziel des Text Mining darin, die Informationsverarbeitung, Informationsana­lyse und Informationstransformation durchzuführen. In diesem Sinne geht Text Mining über den Informationszugang hinaus und hilft den Anwendern, den Inhalt zu analysieren und zu verarbeiten und erleichtert daher Entscheidungsprozesse [AZ12a, S. 2 ].

Das Text Mining beinhaltet, in diesem Zusammenhang, eine ergänzende Funktion. Denn das Suchen nach komplexen Inhalten ist nur der Anfang einer Reihe von Schritten, die nötig sind, um Texte zu analysieren, Zusammenhänge zu erkennen oder Erkenntnisse zu gewin­nen.

Obwohl das Text Mining eine Erweiterungs- und Verbesserungsmöglichkeit für das Informa­tion Retrieval darstellt, sind einige Text Mining Methoden in der Lage, Muster, Trends oder Ausreißer ohne Suchanfragen zu finden [AZ12a, S. 2]. Dies deutet daraufhin, dass Text Mi­ning methodisch unabhängig von Information Retrieval agiert, denn nur eine Schnittmenge der Text-Mining-Methoden, welche dem Text Mining angehören, basieren auf Information Retrieval.

„Text mining or knowledge discovery from text (KDT) [...] deals with the machine sup­ported analysis of text. It uses techniques from information retrieval, information extraction as well as natural language processing (NLP) and connects them with the algorithms and methods ofKDD, data mining, machine learning and statistics[HNP05, S. 5].“

Bei diesem Ansatz wird der interdisziplinarischen Charakter des Text Mining sichtbar. Neu bei dieser Definition ist die Erwähnung vom Natural Language Processing (NLP), welches ein ingenieurwissenschaftliches Anwendungsgebiet der Computerlinguistik ist [CFL13, S. 2].

Zusammenfassend kann behauptet werden, dass Text Mining sich mit der computergestütz­ten Analyse und Verarbeitung von textuellen Daten in strukturierter oder unstrukturierter Form befasst und auf Methoden des Information Retrieval, Data Mining, maschinellen Ler­nens als auch Algorithmen der Computerlinguistik, Statistik u.a. zurückgreift.

Diese Verfahren ermöglichen die Umwandlung vom Text in elementare Zeichnen (z.B. Zah­len). Auf diese Weise wird die Information in Textform auf die syntaktische Ebene reduziert, damit sie vom Rechner algorithmisch zu verarbeiten ist. Texte in unterschiedlichem Umfang (von Wörtern ausgehend, über Einzeldokumente bis zu Datensätze) können über diese Al­gorithmen analysiert oder verarbeitet werden [Mi12, S. 30].

1.2 Interdisziplinarität und typische Aufgaben des Text Mining

Es ist praktisch unmöglich den Begriff Text Mining nur aus einer Perspektive zu definieren. Es ist aufgrund des interdisziplinären Charakters vom Text Mining nötig, dessen verwandte Forschungsgebiete zu erwähnen [HNP05, S. 4].

In der Abbildung 1.1 ist das Text Mining als Schnittmenge zwischen Data Mining, Statistik, Computerlinguistik, Informationswissenschaft, Datensätze und Data Mining dargestellt. In­teressant ist die Beobachtung, dass Information Retrieval eine Teilmenge vom Text Mining ist. Dies bestätigt den Definitionsansatz, in dem Data Mining eine Erweiterung des Informa­tion Retrieval ist.

Innerhalb des Kreises sind die Aufgabenbereiche, welche das Text Mining umfasst, Infor­mation Retrieval, Web Mining, Concept Extraction, Natural Language Processing, Informa­tionsextraktion, Textklassifikation und Document Clustering.

Diese Aufgaben sind zwar differenzierbar aber sie weisen eine gegenseitiger Wechselwir­kung auf. Dies spiegelt sich zum Beispiel in der Durchführung eines Text-Mining-Projekts wider. Denn dabei müssen typischerweise mehr als eine von diesen Aufgaben bewältigt wer­den. Diese Definition der Aufgabenbereiche im Text Mining dient in dieser Hinsicht nur zum Verständnis und ist eine praktische Orientierung. Dennoch ist sie keine formale Unterteilung des Text Mining [Mi12, S. 30].

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1.1: Text Mining, Aufgabensbereiche und verwandte Forschungsgebiete [Mi12] Suche und Information Retrieval (Informationswiedergewinnung)

Wenn ein Anwender nach Informationen in Textform sucht, ist er mit dem Aufgabenbereich des Information Retrieval konfrontiert. Information Retrieval umfasst alle Methoden, welche die Suche und maschinelle Wiedergewinnung von bereits gespeicherten Daten ermöglichen [Mr84, S. 1].

Dies umfasst zum Beispiel den Einsatz von Suchmaschinen oder die Stichwortsuche [Mi12, S. 33].

Document Clustering

Wenn die Aufgabe des Anwenders darin besteht, vorliegende Dokumente oder Textabschnit­ten zu klassifizieren, dann kommen das Document Clustering, Document Classification und Web Mining in Frage. Müssen die Kategorien vom Algorithmus selber entdeckt werden, dann kommt das Dokument Clustering in Betracht [Mi12, S. 32].

Die Algorithmen und Methoden des Document Clustering dienen dazu, eine Bündelung von ähnlichen Inhalten vorzunehmen und demzufolge die Abgrenzung von anderen differen­zierbaren Gruppen zu identifizieren. Dafür wird auf Algorithmen des Data Mining und der Statistik zurückgegriffen [AZ12b, S. 77].

Andere Clustering Verfahren suchen auf effiziente Weise die Inhalte, die am ehesten thema­tisch mit einem vorgegebenen Text verwandt sind [BL96, S. 97]. Diese Verfahren stehen ersichtlich mit den Aufgabengebieten Suche und Information Retrieval in Zusammenhang. Dies deutet darauf hin, dass die Algorithmen des Text Mining nicht nur bei einem bestimm­ten Aufgabenbereich einzuordnen sind.

Textklassifikation

Sind die Kategorien vom Anwender festgelegt, dann kommen die Textklassifikation und Web Mining in Frage. Sowohl bei der Textklassifikation als auch bei Web Mining werden die Inhalte gesucht, die jeweils in eine Kategorie einzuordnen sind [Mi12, S. 33].

Unter Textklassifikation ist die Aufgabe der Gruppierung und Kategorisierung von nicht verknüpften Textabschnitten oder Dokumenten zu verstehen. Hierbei werden Data-Mining- Klassifikationsverfahren verwendet. Wenn die Dokumente eine Verknüpfung per Hyperlink enthalten, dann ist diese Aufgabe mit Hilfe des Web Structure Mining zu lösen [Mi12, S. 32].

Web Mining und Informationsextraktion

„Web Mining ist ein Prozess, bei dem es darum geht, nützliche, interessante und bis an- hin unbekannte Informationen und Wissen mittels verschiedener Data-Mining-Techniken aus dem Internet zu extrahieren [Li05, S. 64].“

Der Fokus des Web Mining liegt insofern auf der Vernetzung der Inhalte im Internet [Mi12, S. 32]. Innerhalb des Web Mining können die Bereiche Web Content Mining, Web Structure Mining und Web Usage Mining unterschieden werden:

- Beim Web Content Mining kommen Verfahren des Text Mining zur Extraktion von Wissen und Informationen aus Inhalten zum Einsatz, die in Webseiten zur Verfügung stehen. Untersuchungsgegenstände des Web Content Mining sind zum einen die effi­ziente Suche der Inhalte und zum anderen die Verarbeitung der Information, die eine gewisse Webseite enthält [Li05, S. 64]. •
- Das Web Usage Mining bezieht sich schließlich auf die Analyse des Rezeptionsver­haltens von Web-Nutzern und ist daher nicht im engen Sinne Bestandteil des Text Mining [MW05, S. 8].

Wenn der Anwender ein Einzeldokument betrachtet und spezifische Fakten extrahieren möch­te, dann steht er vor der Aufgabe der Informationextraktion. Wenn das Anliegen des An­wenders das Nachvollziehen eines Textes im Hinsicht auf dessen Struktur oder Bedeutung ist, dann müssen Techniken des Natural Language Processing oder Concept Extraction be­trachtet werden [Mi12, S. 32]. Informationsextraktion ist ein Bereich der Natural Language Processing, der sich mit der Suche nach Fakten in frei verfasstem Text befasst. Unter Fakten sind strukturierte Elemente gemeint. Sie werden durch eine Zuordnungsbeziehung von At­tributen zu einer Entität strukturiert, wie dies bei Datenbanken die übliche Praxis ist. Zum Beispiel wird einem Unfall, eine Uhrzeit, Anzahl der Beteiligten und die Anzahl der Verletz­ten zugewiesen [PY13, S. 24]. In diesem Zusammenhang dient die Informationsextraktion zur Umwandlung von unstrukturierten und semistrukturierten Daten in strukturierte Daten [Mi12, S. 32].

Natural Language Processing und Concept Extraction

Natural Language Processing (NLP) ist, wie bereits erwähnt, ein Anwendungsgebiet der Computerlinguistik [CFL13].

Die Computerlogistik findet im Bereich des Text Mining seine Anwendung, weil sie sich mit der Frage befasst, wie natürliche Sprache computerunterstützt verarbeitet werden kann [BKL82]. Dabei werden linguistische Konzepte, wie Substantiv, Verb, Adjektiv und gram­matikalische Struktur, angewandt. Werkzeuge, wie die Bedeutung und grammatikalischen Eigenschaften eines Wortes, grammatikalische Regeln, Ontologien von Entitäten und Ak­tionen oder Synonymwörterbücher, werden ebenfalls verwendet [KP07, S. 1].

Mit dem NLP können Aufgaben der Sprachverarbeitung und die Erkennung der semanti­schen Struktur innerhalb eines Textes bewältigt werden. Dies ist besonders nützlich, wenn der Anwender sich für das Verständnis der Inhalte interessiert und diese Aufgabe computer­unterstützt bewältigen möchte [Mi12, S. 32].

Durch Concept Extraction ist es möglich, Ansichten über die Bedeutung eines Textes zu gewinnen. Anhand von statistischen Methoden und Techniken der Computerlogistik wer­den Wörtern und Phrasen in semantisch ähnliche Gruppen eingeordnet [Mi12, S. 32], um Stichwörter und die wichtigsten Aussagen des Textes zu extrahieren [Ts10, S. 165]. Die­se Ergebnisse können beispielsweise für die Erstellung einer Zusammenfassung des Textes verwendet werden.

2 Methoden des Text Mining

2.1 Textklassifikation

Zur Textklassifikation stehen zahlreiche Methoden zur Verfügung, die auf den Techniken des maschinellen Lernens aufbauen. Bei diesen Verfahren müssen in der Regel Attribute in stetig-numerische Werte umgewandelt werden, damit eine maschinelle Verarbeitung ge­währleistet ist [Na98, S. 11]. Unter diese Kategorie fallen die Verfahren Diskriminanzanaly­se, K-Nächste-Nachbarn (KNN), Entscheidungsbäume, Bayes-Klassifikator unter anderem [HNP05] [Na98].

Die Diskriminanzanalyse ist eine multivariante Analyse, die der Unterscheidung von zwei oder mehreren Gruppen dient. Dafür werden bestimmte Merkmale berücksichtigt, um eine lineare Grenze zwischen den Klassen matematisch abzubilden [EKR02, S. 289].

Beim KNN-Verfahren steht die effiziente Durchführung einer Prognose im Vordergrund. Das Verfahren basiert auf dem Prinzip Lernen durch Analogien. Dabei wird eine Klassen­zuordnung unter Berücksichtigung der nächsten Nachbarn vorgenommen. Wenn ein neues Dokument zugeordnet werden muss, werden dessen Merkmale und die Merkmale der Ka­tegorie verglichen. Die Zuweisung des Dokuments erfolgt in die Kategorie, die ähnliche Merkmale aufweist [Na98, S. 13].

Entscheidungsbäume sind Klassifikatoren, welche aus Regeln bestehen. Die Regeln werden sequenziell eingesetzt, sodass am Ende des Algorithmus eine Entscheidung über die Klas­sifizierung zustande kommt. Die Trainingsdokumente M mit annotierten Wörtern werden in zwei Gruppen gespalten. Dieser Prozess wird wiederholt, bis alle Dokumente in der Teil­menge der gleichen Klasse angehören [HNP05].

Beim Bayes-Klassifikator wird die Annahme getroffen, dass die Wörter in einem Dokument über einen Wahrscheinlichkeitsmechanismus abzubilden sind [HNP05, S. 11]. Die Ereig­nisse von diesem Mechanismus können als das Auftreten eines Wortes im Text verstanden werden [NM12, S. 53].

Die Grundlage für den Bayes-Klassifikator ist logischerweise der Satz von Bayes, in dem die bedingte Wahrscheinlichkeit eine wichtige Rolle spielt. Für den Bayes-Klassifikator wird an­genommen, dass die Kategorie L(di) vom Dokument di in gewisser Weise die Wörter in die­sem Dokument entsprechen. Dies wird mit der bedingten Wahrscheinlichkeit p(t1,..., tn\L(di)) von ni Wörtern mathematisch beschrieben. Dementsprechend wird durch den Satz von Bayes die bedingte Wahrscheinlichkeit einer bestimmten Kategorie unter vorhandenen Wörtern ei­nes Dokumentes aufgestellt [HNP05, S. 11].

Abbildung in dieser Leseprobe nicht enthalten

Hier beschreibt der Zähler die Multiplikation der bedingten Wahrscheinlichkeit und die A-priori-Wahrscheinlichkeit für die betrachtete Kategorie L(di). Der Nenner hingegen wird als die Summe aller bedingten und A-priori-Wahrscheinlichkeiten für jede mögliche Kate­gorie formuliert ([Yu11], S. 7). Wie viele Klassen betrachtet werden sollen, ist in dem Sinne nicht Bestandteil des Algorithmus und muss daher festgelegt werden.

Die A-priori-Wahrscheinlichkeit p(L) kann als die Wahrscheinlichkeit interpretiert werden, dass ein beliebiges Dokument zur Klasse Lc gehört. Dies ist unabhängig von den Wör­tern, aus dem das Dokument besteht. Es wird häufig angenommen, dass diese A-priori- Wahrscheinlichkeiten für alle betrachteten Kategorien gleich sind ([HNP05], S. 12).

Ein weitere Annahme ist, dass die Reihenfolge der Wörter für die Klassifikation irrele­vant ist. Wichtig für den Algorithmus ist, welche Wörter das Dokument enthält und wie oft sie im Dokument vorkommen. Die Tatsache, dass eine Klassifikation über ein Wahrschein­lichkeitsmechanismus abgebildet werden kann bedeutet, dass gewisse Wörter mit größerer Wahrscheinlichkeit als andere in einer gewissen Kategorie (Lc) vorkommen. Dies kann auf folgende Weise mathematisch beschrieben werden ([HNP05], S. 12).

Abbildung in dieser Leseprobe nicht enthalten

Der Bayes-Klassifikator benötigt einen Schritt für die Einschätzung der p(tj\Lc) Wahr­scheinlichkeiten. Dies wird mit Hilfe von Trainingstexten für jede Kategorie ermittelt, in­dem die relativen Häufigkeiten von Wörtern für Texte innerhalb jeder Kategorie bestimmt werden ([HNP05], S. 12).

Obwohl dieses Modell mit Annahmen behaften ist, liefert es eine gute Klassifikation. Ein Vorteil des Bayes-Klassifikators ist die Einfachkeit, mit der der Algorithmus verbessert und erweitert werden kann ([HNP05], S. 12).

Die Ergebnisse der Tabelle 2.1 sind Resultat der Auswertung einer Benchmarkstudie, in der die relative Qualität der Klassifikatoren Fj ermittelt wird. Anhand dessen kann behauptet werden, dass der Bayes-Klassifikator zwar eine gute Klassifikation liefert aber, von anderen Methoden, wie der K-Nächste-Nachbarn, übertroffen wird ([HNP05], S. 15).

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.1: Leistung von unterschiedlichen Klassifikatoren. Angelehnt an [HNP05]

[...]


1 Web Structure Mining zielt auf die Klassifizierung von Webdokumenten mit Hilfe deren Linkstrukturen, indem bestimmte Clusteringseigenschaften untersucht werden [MW05, S. 8].

Ende der Leseprobe aus 26 Seiten

Details

Titel
Text Mining und Semantic Web. Eine betriebliche Perspektive
Hochschule
Technische Universität Ilmenau
Note
1,3
Autor
Jahr
2017
Seiten
26
Katalognummer
V1050346
ISBN (eBook)
9783346471482
ISBN (Buch)
9783346471499
Sprache
Deutsch
Schlagworte
Text Mining, Semantic Web, Wissensmanagement
Arbeit zitieren
Daniela Rocio Cely Hernandez (Autor:in), 2017, Text Mining und Semantic Web. Eine betriebliche Perspektive, München, GRIN Verlag, https://www.grin.com/document/1050346

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Text Mining und Semantic Web. Eine betriebliche Perspektive



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden