Text Mining in der elektronischen Postverteilung einer Bundesbehörde


Masterarbeit, 2018
157 Seiten, Note: 2,0

Leseprobe

Inhalt

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung
1.1 Themeneinführung
1.2 Aufbau der Arbeit
1.3 Ziele der Arbeit

2 Projektplanung
2.1 Strukturplanung
2.2 Zeitplanung

3 Politische und wissenschaftliche Relevanz
3.1 Politik
3.2 Wissenschaft

4 Stand der Forschung
4.1 Text Mining
4.1.1 Definition
4.1.2 Abgrenzung
4.2 Verfahrensarten
4.3 Übersicht der Methoden
4.4 Prozess
4.4.1 Suche
4.4.2 Datenvorverarbeitung
4.4.3 Bewertung und Selektion
4.4.3.1 Klassifikation
4.4.3.2 Clustering-Verfahren
4.4.4 Informationsextraktion
4.5 Praxis
4.5.1 Anwendungsgebiete
4.5.2 Postverteilung

5 Erhebung von Expertenwissen
5.1 Untersuchungsgegenstand
5.2 Forschungsdesign
5.3 Qualitative Datenerhebung
5.3.1 Interview-Leitfaden
5.3.2 Interviewpartner
5.3.3 Durchführung und Protokollierung
5.3.4 Analyse

6 Interpretation der Ergebnisse
6.1 Teilergebnis: Ist-Prozess
6.2 Teilergebnis: Qualität Ist-Prozess
6.3 Teilergebnis: Potential von Text Mining
6.4 Teilergebnis: Erfolgsfaktoren

7 Handlungsempfehlungen

8 Fazit
8.1 Kritische Würdigung
8.2 Zusammenfassung
8.3 Ausblick

Literaturverzeichnis

Anhang 1: Projektstrukturplan

Anhang 2: Gantt-Diagramm Teil 1

Anhang 3: Gantt-Diagramm Teil 2

Anhang 4: Datenschutzvereinbarung

Anhang 5: Gesprächsprotokoll 1

Anhang 6: Gesprächsprotokoll 2

Anhang 7: Gesprächsprotokoll 3

Anhang 8: Gesprächsprotokoll 4

Anhang 9: Gesprächsprotokoll 5

Anhang 10: Gesprächsprotokoll 6

Anhang 11: Kategoriensystem

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Business-Intelligence-Werkzeuge

Abbildung 2: Merkmale von Big Data

Abbildung 3: Die Zweiteilung von Text Mining

Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete

Abbildung 5: Text-Mining-Prozess

Abbildung 6: Grundannahme der Klassifikation

Abbildung 7: Binäres Clustering

Abbildung 8: Hierarchisches Clustering

Abbildung 9: Self-Organization Map

Abbildung 10: Markante Kriterien zur Informationsextraktion

Abbildung 11: Forschungsdesign

Abbildung 12: Operationalisierung

Abbildung 13: Auswahl Interviewpartner

Abbildung 14: Ablauf der qualitativen Inhaltsanalyse

Abbildung 15: Kategorien-Schema

Abbildung 16: Auswertungs-Kodierungsschema

Abbildung 17: Ist-Prozess Postverteilung E-Mail Teil 1/2

Abbildung 18: Ist-Prozess Postverteilung E-Mail Teil 2/2

Abbildung 19: Ist-Prozess Postverteilung Papierpost Teil 1/6

Abbildung 20: Ist-Prozess Postverteilung Papierpost Teil 2/6

Abbildung 21: Ist-Prozess Postverteilung Papierpost Teil 3/6

Abbildung 22: Ist-Prozess Postverteilung Papierpost Teil 4/6

Abbildung 23: Ist-Prozess Postverteilung Papierpost Teil 5/6

Abbildung 24: Ist-Prozess Postverteilung Papierpost Teil 6/6

Abbildung 25: Graphische Darstellung der Expertenmeinungen

Abbildung 26: Induktive Kategorienbildung

Abbildung 27: Mind-Map der Erfolgsfaktoren

Abbildung 28: Abstrakte Darstellung des Verwaltungsablaufs

Tabellenverzeichnis

Tabelle 1: MoSCoW-Priorisierung

Tabelle 2: Darstellung der Zugriffe

Tabelle 3: Beispiel für Tokenisierung

Tabelle 4: Rechercheergebnis

Tabelle 5: Darstellung der Fragestellungen

Tabelle 6: Kapitelzuordnung der Schritte der Datenerhebung

Tabelle 7: Bewertung Interviewpartner

Tabelle 8: Kategorienzuordnung

Tabelle 9: BPMN Modellerläuterung

Tabelle 10: Quantifizierung der Eingangskanäle

Tabelle 11: Qualitätseinschätzung der Experten

Tabelle 12: Meinungen zum Text Mining

1 Einleitung

1.1 Themeneinführung

?Wir ertrinken in Information, aber wir hungern nach Wissen.“1

Bisher unbekanntes Wissen aus unstrukturierten Texten zu extrahieren ist Ziel von Text Mining. Es wird oft als Methode, Verfahren, Konzept oder Werkzeug bezeich­net. In sogenannten unstrukturierten Texten stößt man auf bisher nicht bekannte In­halte, die durch geeignete Methoden erforscht werden können. Das Nutzen dieser Methoden wird daher auch zu Maßnahmen des Wissensmanagements gefasst.2

Eine Statistik der International Data Corporation (IDC) besagt, dass Unternehmen weiterhin mit dem Wachstum von Daten mit unstrukturiertem Inhalt rechnen. Sie zäh­len zu den am stärksten wachsenden Datenquellen.3

In behördlichen Einrichtungen ist es nicht unüblich unstrukturierte Dokumente digital zu verwalten. Der Plan der Bundesregierung ist bis zum Jahr 2020 in allen Bundes­Verwaltungen Dokumente bzw. Akten in elektronischer Form zu führen.4 Die Opti­mierung von Verwaltungsabläufen ist im Rahmen dieser Digitalisierungsinitiative nicht nur sinnvoll,5 sondern gleichzeitig auch eine gesetzliche Vorgabe im Rahmen des E-Government-Gesetzes (EGovG).6

Man sollte an erster stelle, an der Dokumente mit dem Unternehmen zusammen­treffen, also der Poststelle, beginnen.7 So sagt auch Thomas Kleiner, CEO des Un­ternehmens iXenso, in einem Interview mit dem ECMguide: ?Irrläufer und schlecht lesbare oder falsch interpretierte Dokumente sorgen nicht nur für Frust beim Emp­fänger, sondern verschlechtern auch die Qualität der Prozesse“.8 Es wird deutlich, welche Bedeutung der Posteingang für ein Unternehmen hat. Gerade für Behörden, bei denen ein Tätigwerden oftmals nur durch Anträge oder Anfragen begründet wird, ist dieses Problem enorm.

In dem Zusammenhang liest man immer wieder von Text Mining, das zur Lösung für automatisierte Postverteilung genutzt werden kann.9 Für die erfolgreiche Einführung einer solchen Technologie sind jedoch Erfolgsfaktoren zu identifizieren.10

Hohe Investitionen in Digitalisierungsprojekte und Veränderungen von bewährten Prozessen werden in der Verwaltung eher schwergängig vorangetrieben. Daher wird mit dieser Thesis ein Grundstein für ein weiteres Vorgehen gelegt.

1.2 Aufbau der Arbeit

Zunächst wird der Stand der Forschung von Text Mining, inklusive theoretischen Hintergründen und aktuellen Einsatzgebieten, vorgestellt. Anschließend wird eine Verbindung von Text Mining zur Postverteilung hergestellt. Im weiteren Verlauf wird die Methode aus der Management-Sicht betrachtet.

In Kapitel 5.1 werden Annahmen gebildet, die in eine zentrale Forschungsfrage zu­sammenlaufen. Die Fragestellung dient im weiteren Verlauf als Leitfaden für jegliche Ausarbeitungen. Um die Frage zu beantworten, werden Experteninterviews geführt und ausgewertet. Es wird ein Ist-Prozess der Postverteilung mit der Prozessmodel­lierungssprache Business Process Modelling Notation 2.0 (BPMN 2.0) modelliert. Des Weiteren werden Aspekte, die bei der Einführung einer solchen Technologie zu beachten sind, im Rahmen der Interviews erfragt und über eine qualitative Inhalts­analyse ausgewertet. In Kapitel 7 werden Handlungsempfehlungen aus den Erfolgs­faktoren abgeleitet, die dem Management notwendige Schritte bei der Einführung einer solchen Technologie aufzeigen. Diese leiten sich aus den Punkten der quanta- tiven Datenerhebung ab.

1.3 Ziele der Arbeit

Die Projektziele stellen den Leitfaden des Projektes dar.11 Das Ergebnis dieser Ar­beit soll die Aufbereitung der theoretischen Grundlagen in einer verständlichen For­mulierung, die Ableitung von Erfolgsfaktoren und das Erstellen von Handlungsemp­fehlungen für die Einführung einer solchen Technologie sein. Da das Management als Adressat dieser Arbeit gilt, werden keine intensiv technischen oder mathemati- sehen Ausführungen getroffen.

Da innerhalb dieser Arbeit das Thema nicht in vollem Umfang bearbeitet werden kann, ist eine Priorisierung erforderlich. Die nachfolgende Tabelle 1 zeigt eine Auf­listung der Projektziele nach der MoSCoW-Methode:12

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung Tabelle 1: MoSCoW-Priorisierung

Aus der Methode lassen sich gewisse Priorisierungsstufen ableiten, die in Tabelle 1 in der linken Spalte dargestellt sind. Im Kontext mit den einzelnen Projektzielen, dar­gestellt auf der rechten Spalte, steht ?must have“ für: unbedingt erforderlich, ?should have“ für: sollte umgesetzt werden, ?could have“ für: kann umgesetzt werden und ?won’t have“ für: vorgemerkt für die Zukunft.13

2 Projektplanung

Ein Projekt ist kein dauerhaftes oder routinemäßiges Vorhaben und sollte daher im­mer individuell betrachtet werden. Es handelt sich um Tätigkeiten, die innerhalb ei­nes Zeitrahmens anfallen. Der Zeitrahmen besitzt somit einen Anfangs- und einen Endzeitpunkt. Weitere Merkmale eines Projektes sind, dass Ressourcen finanzieller sowie personeller Art anfallen. Je nach Ziel und Bedeutung benötigen Projekte ein organisiertes Team und ein Vorgehensmodell.14

Eine Projektplanung ist von großer Bedeutung, da eine Entscheidung über einen Projektantrag durch die Entscheidungsträger nur mit notwendigen Informationen, un­ter anderem den Ressourcen, die das Projekt bindet, getroffen werden kann. Eine Planung kann insbesondere für die Leitung oder das mittlere Management die ein­zige Möglichkeit sein, Erfolg oder Misserfolg von Projekten zu messen oder zu steu- ern.15 Der nachfolgende Projektstrukturplan unterteilt das Gesamtprojekt in Ab­schnitte und quantifiziert die Arbeitsschritte. Anschließend werden die Abschnitte zur Visualisierung innerhalb eines Gantt-Diagramms dargestellt. Finanzielle Ressourcen werden bei der Darstellung nicht einbezogen, da ausschließlich interne Ressourcen verwendet und diese nicht verrechnet werden.

2.1 Strukturplanung

Der Projektstrukturplan gilt als Plan der Pläne, da er für eine grundlegende Struktur des Projektes sorgt.16 Die Abschnitte, die innerhalb des Projektes festgelegt werden, befinden sich auf der zweiten Ebene des Projektstrukturplans. Durch ihn wird eine Visualisierung der Projektphasen erreicht (siehe Anhang 1).17

2.2 Zeitplanung

Der nun entwickelte Projektstrukturplan gilt als Grundlage für die zeitliche Planung. Die Abschnitte werden in einem Gantt-Diagramm dargestellt (siehe Anhang 2 und 3). Ziel des Gantt-Diagrammes ist eine visuelle Planung von zeitlichen und anderen Ressourcen in Verbindung mit den definierten Schritten.18

3 Politische und wissenschaftliche Relevanz

Innerhalb dieses Kapitels werden die politischen und wissenschaftlichen Rahmenbe­dingungen dargelegt und gleichzeitig damit die Relevanz des Themas verdeutlicht. Die Digitalisierungsprogramme der Bundesregierung werden beschrieben und die Themen zu der Aktenbearbeitung und dem Umgang mit Dokumenten konkretisiert. Des Weiteren wird eine Einordnung der Thematik in die Wissenschaft der Wirt­Schaftsinformatik durchgeführt und ein Bezug zu der aktuellen Relevanz in Zeiten von Big Data vorgenommen.

3.1 Politik

Die “Digitale Agenda“, eine Broschüre der Bundesregierung und Teil der öffentlich­keitsarbeit, beinhaltet einzelne Etappen, Vorsätze und Ansichten der Regierung mit dem Hauptziel, ein einheitliches Verständnis von Politik und Digitalisierung zu errei- Chen.19 In ihr werden sowohl Punkte über Wirtschaft und Gesellschaft andiskutiert als auch Aspekte, die den Staat als Institut und öffentlichen Dienstleister betreffen.

Als wichtige Punkte ergeben sich insbesondere die Digitalisierung und das Electro­nic Government (E-Government). Im Regierungsprogramm “Digitale Verwaltung“ werden diese Punkte näher behandelt.20

Die “Digitale Verwaltung 2020“, ausgegeben vom Bundesministerium des Innern, setzt auf die Digitale Agenda21 und ihre Prinzipien im Bereich “Innovativer Staat“ auf. Es werden Handlungsfelder und Maßnahmen beschrieben, die gleichzeitig im EGovG festgeschrieben wurden. Die Maßnahmen sind breit gefasst und haben durch die Festschreibung im EGovG den Charakter eines formellen Gesetzes. Der ?Aktionsplan E-Akte“ beschreibt, die Vorgehensweise der Bundesbehörden bei der Umstellung von papierbasierten auf elektronische Akten. Die Regierung will die Ver­waltung im Rahmen ihrer Möglichkeiten unterstützen und innerhalb der gemeinsa­men IT des Bundes, eine E-Akte beschaffen und zur Verfügung stellen.22

Das EGovG hat das Ziel, die elektronische Verwaltung zu fördern und weiterzuent­wickeln. Das Gesetz definiert Vorgaben zur Digitalisierung von Verwaltungsabläu- fen.23 Der Geltungsbereich dieses Gesetzes ist auf die öffentlich-rechtliche Verwal­tungstätigkeit der Bundesbehörden oder behördenähnlichen Organisationen des Bundes beschränkt. Der§ 6 EGovG legt die rechtliche Grundlage zur elektronischen Aktenführung in den Bundesbehörden fest. Die technischen Maßnahmen müssen weiterhin die Grundsätze ordnungsgemäßer Aktenführung erfüllen.24

In der Beispielbehörde soll die Einführung der E-Akte mit Unterstützung eines Doku- menten-Management-Systems (DMS) erreicht werden. Das DMS hat dabei Aspekte wie Revisionssicherheit, Rechtssicherheit, Datenschutz und Langzeitarchivierung zu beachten. Durch technische aber auch organisatorische Vorgaben, werden die Grundsätze ordnungsgemäßer Aktenführung festgelegt.25

Im Onlinezugangsgesetz (OZG) wird in § 1 Abs. 1 festgehalten, dass Behörden ne­ben den bisherigen Eingängen, nun auch elektronische Zugänge bereitstellen sol- len.26 Hieraus wird deutlich, dass bisherige, also klassische Zugänge weiterhin be­stehen bleiben sollen. Sowohl in den Digitalisierungsprogrammen, als auch in den gesetzlichen Vorgaben wurden keine konkreten Vorgaben zur Digitalisierung der Eingangspost formuliert und stellen somit noch eine Lücke in den aktuellen Vorga­ben dar.

Der IT-Planungsrat, als politisches Steuerungsgremium, beschäftigt sich mit der Ko­ordination von Bund und Ländern im Bereich Informationstechnik. Hierzu zählen fachübergreifende IT-Fragestellungen sowie der Steuerung von E-Government-Pro- jekten.27 Zudem werden Fachkongresse zusammen mit den beteiligten stellen und individuellen Schwerpunktthemen geleitet. Ein Thema im Kongress 2018 ist auch die Digitale Poststelle und die automatisierte Erkennung und Zuordnung von Geschäfts­gang und Akte.28 Hieraus wird deutlich, dass sich der Staat bereits mit der Digitali­sierung und Optimierung von Posteingängen beschäftigt, jedoch noch keine Voga- ben definiert hat.

3.2 Wissenschaft

Innerhalb dieses Unterkapitels wird Text Mining in die Wirtschaftsinformatik einge­ordnet und hiermit die Relevanz verdeutlicht.

Text Mining ist keine neue Technologie. Jedoch besagen die Google Trends, dass Text Mining weiterhin eine stetige Relevanz in Suchanfragen besitzt. So war Text Mining 2004 an einem Höhepunkt angelangt. Dieser fällt bis in das Jahr 2009. Seit diesem Zeitraum ist eine minimale Steigerung der Bedeutung weltweit anzusehen.29

Business Intelligence, ein Schlagwort der Wirtschaftsinformatik, ist nach Chen der Sammelbegriff für Techniken zur Bereitstellung, Analyse und Konsolidierung von Da­ten zur Entscheidungsunterstützung.30

Bange untersucht die Werkzeuge von Business Intelligence und klassifiziert diese in Datenbereitstellung (Backend), Informationsgenerierung sowie Informationsverar­beitung (Frontend) und Querschnittsaufgaben. Text Mining ist den Analysetools zu­zuordnen und zählt wie in Abbildung 1 dargestellt, zu den Frontend-Werkzeugen.31

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Bange, c. (2006), s. 64.

Abbildung 1: Business-Intelligence-Werkzeuge

Nach Felden ist Text Mining, als Teil des Business Intelligence, eine Methode, die Informationsflut im Unternehmen bewältigen zu können. Neben den Massen an Da­ten und Dokumenten im Unternehmen kommen zunehmend Informationen und Texte aus dem World Wide Web hinzu. Entscheidungsträger benötigen gewisse Fil­ter, um relevante Informationen zu identifizieren.32

Business-Intelligence-Lösungen scheitern jedoch an Big Data, daher müssen an­dere Lösungen bereitgestellt werden.33 Big Data steht für den T rend an Zuwachsen­den Daten.34 Aus Daten oder Informationen kann nur durch den Einsatz geeigneter Methoden wertvolles Wissen generiert werden.35

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Weber. J., Urbanski, J. (2012), s. 19. Abbildung 2: Merkmale von Big Data

Wie in Abbildung 2 dargestellt, besitzt Big Data vier Facetten. Die Facette “Volume“ beschreibt die Datenmenge, die von Terabytes bis hin zu Petabytes reichen kann. “Variety“ steht für die Datenvielfalt der Unternehmen im Hinblick auf die Datenquellen und Datenformate. Die Datenformate unterteilen sich in die Kategorien unstruktu­riert, semistrukturiert und strukturiert. Unternehmensinterne Daten werden durch ex­terne Daten, wie zum Beispiel aus sozialen Netzwerken, ergänzt. “Velocity“ beinhal­tet den Bereich Geschwindigkeit und steht für die stetig wachsende Anforderung der Verarbeitungszeit von Auswertungen der Daten. In dem Zusammenhang besteht ebenfalls die Anforderung der Datenverarbeitung in Echtzeit. Gefordert sind Analy­sen mit Antworten in Sekundenzeit sowie die Datengenerierung und Übertragung in hoher Geschwindigkeit. Die Facette “Analytics“ umfasst Methoden zur automatisier­ten Erkennung und Nutzung von Bedeutungen, Zusammenhängen und Mustern. Dazu gehören statistische Verfahren, Optimierungsalgorithmen, Vorhersagemo­delle, Data Mining und Text- sowie Bildanalytik.36

Unter Big Data fallen nicht ausschließlich die großen Datenmengen als solches, son­dern auch die Analyse derer. Dies wird auch unter der Bezeichnung “Big Data Ana- lyties“ gefasst. Es beinhaltet sowohl die Anwendung von Text Mining, als auch von Data Mining.37

Zusammenfassend ist festzustellen, dass Text Mining sowohl im Bereich Business Intelligence, als auch Big Data ein Werkzeug ist, das in der heutigen Zeit des “Infor­mation Overload“ weit verbreitet eingesetzt wird. Das Phänomen Information Over­load zwingt Unternehmen dazu, ihre unternehmensinternen Daten mit Softwareun­terstützung zu analysieren.38 Der Begriff stammt von Jacoby und steht für die über­lastung von Kommunikationsprozessen und damit das Entstehen einer großen Menge von irrelevanten Informationen. Die Überlastung entsteht durch den Fakt, dass Menschen nur begrenzte Informationen aufnehmen und verarbeiten können.39

Ein Beispiel ist die Analyse von Kundeninformationen aus Customer-Relationship- Management-Systemen in Verbindung mit dem Kaufverhalten der Kunden. Diese Systeme nutzen die Logik des Data Mining und erlauben den Zugriff auf strukturierte

Informationen und Analyseergebnisse.40 Wird jedoch unstrukturierter Text, wie Korn- munikation oder ein Freitext, zu Grunde gelegt, eignet sich hingegen das Text Mi- ning.41 Es ist daher besonders relevant für Wissenschaft und Praxis.

4 Stand der Forschung

Zunächst wird der Stand der Forschung von Text Mining dargestellt. Der Fokus liegt auf der Methode an sich, deren verschiedener Definitionen und die Verknüpfung mit der elektronischen Postverteilung. Anhand der nachfolgenden Ausarbeitung soll ins­besondere verdeutlicht werden welche Möglichkeiten Text Mining bietet, welche Zu­sammenhänge sich darstellen und wie diese anwendbar sind.

Anschließend wird aufgezeigt wie Text Mining bereits in der Praxis angewendet wird und welche Softwareprodukte zur Automatisierung der Postverteilung eingesetzt werden können.

4.1 Text Mining

Durch die Datenhaltung im Internet und Hochverfügbarkeit von jeglichen Informati- onsre-ssourcen steigen auch die Anforderungen an die Informationssysteme. Die Bedeutung für Hilfsmittel, die den Umgang mit diesen Informationsquellen realisie­ren, nimmt zu.42 Die Datenmengen liegen in zunehmender Form als Text vor. Von Organisationen werden jedoch wenig Ressourcen bereitgestellt, um diese zu analy­sieren. Eine Lösung kann der Einsatz einer speziellen Analysesoftware sein. Da diese jedoch nicht das Interpretationsvermögen eines Menschen besitzt, ist dies eine große Herausforderung für Wissenschaft und Praxis.43 Schätzungen zufolge werden im Internet ca. eine Million neue Dokumente pro Tag veröffentlicht, Tendenz stei- gend.44

Nach Dörre wächst die Nutzung von Text Mining und damit auch die darunter fallen­den Methoden (siehe Kapitel 4.3) aufgrund der Weiterentwicklung von Intranet sowie Internet.45 In den letzten Jahren gab es einige Statistiken zur Bewertung der Wachs­tumsraten von strukturierten und unstrukturierten Daten.46 Eine Statistik ist derTDWI Research Report. Dieser ging im Zeitraum von 2007 bis 2010 von einer Wachstums­rate zwischen 61 bis 81 Prozent für unstrukturierte Daten aus. Die Anzahl an struk­turierten Daten sinkt hingegen zwischen 15 bis 46 Prozent.47

Richard und Herschel gehen von einem Gesamtvorkommen von 80 Prozent unstruk­turierter Daten, im Vergleich zu strukturierten Daten, aus.48 Wenn man die Anzahl der Steigerung von unstrukturierten Daten nun noch mit der generellen Steigerung von Daten ins Verhältnis setzt, wird deutlich warum geeignete Verfahren zur Analyse und Aufbereitung notwendig sind. Die Menschheit hat zudem im Jahr 2011 allein 1,8 Zettabyte neue Daten produziert.49

Das in Textform vorhandene Wissen kann u.a. wissenschaftliche Aufsätze, Fachbü­Cher, Lexika, produktbezogene oder technische Dokumentationen, Handbücher, rechtliche Grundlagen, Verträge, Organisationsanweisungen, Korrespondenzen50, Präsentationen oder Projektunterlagen betreffen.51

Der Begriff Wissen umfasst die auf Erfahrungen beruhende und verifizier- bzw. fal­sifizierbare Kenntnis von Fakten, die zur Problemlösung eingesetzt werden.52 Das Verwalten dieses Wissens, auch Wissensmanagement genannt, sorgt für die Erfas­sung und Strukturierung des Wissens, der Wissensträger und der Aufbereitung zum positiven Nutzen für das Unternehmen.53

4.1.1 Definition

Ende der 90er Jahre hat sich Text Mining als ein Oberbegriff für eine Vielzahl von Methoden zur Wissensgewinnung aus Text etabliert. Feldman und Dagan prägten 1995 zunächst den Oberbegriff Knowledge Discovery in texts.54 Hinzu kamen die Begriffe: Text Knowledge Engineering,55 Text Data Mining,56 Knowledge Discovery in Texts57 und Textual Data Mining58.

Für die Benennung im Rahmen der Thesis wird der Begriff Text Mining nach Tan59 verwendet. Dieser hat sich bis heute in Wissenschaft und Praxis durchgesetzt. Für die Entwicklung einer einheitlichen Definition werden Definitionen verschiedener Au­toren in einer zeitlichen Entwicklung dargestellt.

Nach Frawle und Piatetsky ist die knowledge discovery, bzw. die Wissensentde­ckung, als nichttrivialer Prozess zur Entdeckung von unbekanntem, implizitem sowie potentiell nützlichem Informationen aus Daten definiert.60 Feldman und Dagan er- ganzen diese Definition mit dem Zusatz, dass die Wissensentdeckung auf textuellen Datenbanken Anwendung findet.61

Nach Hearst sowie Behme und Multhaupt steht der Begriff für eine Sammlung von Techniken zur Identifikation und Extraktion von bisher unbekannten Informationen aus Texten.62 Anhand dieser Definition ist erkennbar, dass es sich beim Datenmate­rial um unstrukturierten Text handeln muss.

Mehler und Wolff definieren Text Mining hingegen als Technologie, die Textanalysen durchführt und daraus gezielt Daten exploriert und aufbereitet.63

Felden schließt sich Hearst an und sieht in Text Mining nur den Übergriff von Tech­niken, die aus verschiedenen wissenschaftlichen Disziplinen angewandt werden. Hierzu gehören zum Beispiel Data Mining, Information Retrieval, Computerlinguistik, Statistik oder intelligente Software-Agenten.64

????? ?.a. stellt klar, dass keine einheitliche Definition für Text Mining vorhanden ist. Vielmehr umfasst es eine Sammlung an computergestützten Verfahren sowie Me­thoden und Ansätzen, die semantische Analysen durchführen, Texte (semi-)automa- tisch strukturieren und neue Informationen daraus extrahieren.65

Nach Feldman und Sanger identifiziert und erforscht Text Mining, analog zum Data Mining, nützliche Informationen von interessanten Mustern. Im Gegenzug zum Data Mining, sind beim Text Mining die Datenquellen Dokumentensammlungen. Interes­sante Muster finden sich also nicht in formalisierten Datenbanksystemen, sondern in unstrukturierten Textdaten.66

Ebenso stellt sich heraus, dass die Anwendung von Text-Mining-Methoden ein au­tomatisiertes Werkzeug darstellt, um der Informationsflut der heutigen Zeit gerecht zu werden.67

Aggarwal unterscheidet strukturierte und textuelle Daten. In dem Zusammenhang wird klargestellt, dass strukturierte Daten durch Datenbanksysteme verwaltet wer­den. Unstrukturierte Textdaten können hingegen nur durch Suchmaschinen verar­beitet werden. Neben der Erleichterung der Informationsbeschaffung ist das primäre Ziel durch Analysen Muster in Texten zu entdecken. Viele Text-Mining-Anwendun- gen identifizieren und analysieren interessante Muster, einschließlich deren Ausrei­ßer und Trends.68

Anhand der bisher genannten Formulierungen wird innerhalb dieser Thesis Text Mi­ning wie folgt definiert: Text Mining ist der Oberbegriff für die Analyse und das Durch­suchen von unstrukturierten Texten anhand verschiedener Methoden, mit dem Ziel unbekanntes Wissen zu extrahieren.

4.1.2 Abgrenzung

Die verschiedenen Definitionen von Text Mining und deren Bedeutung bedürfen ei­ner Abgrenzung. Immer wieder werden andere Disziplinen erwähnt und verschie­dene Begrifflichkeiten verwendet. Insbesondere stellt sich heraus, dass Text Mining als Disziplin des Data Mining zu verstehen ist. Es existieren darüber verschiedene Meinungen, die neben weiteren Begriffen nachfolgend definiert und abgegrenzt wer­den.

Der Begriff Data Mining wurde zur International Conference on Artificial Intelligence eingeführt69 und wird seitdem im Großteil der Literatur als Synonym für Knowledge Discovery in Databases geführt.70 Daher wird der einschlägige Begriff auch im Rah­men dieser Thesis verwendet.

Frawley u.a. verstehen unter Data Mining das nichttriviale Extrahieren von impliziten, bisher unbekannten und möglicherweise nützlichen Informationen aus Daten.71 Fa- yyad u.a. schließen sich dieser Definition an und sprechen von Wissensentdeckung in Datenbanken. Der Prozess sorgt für die Identifizierung valider, neuer, potentiell nützlicher und auch verständlicher Muster in Daten.72

Nach Feldman und Sanger leitet Text Mining viel aus der Forschung von Data Mining ab. Text-Mining- und Data-Mining-Systeme weisen viele Ähnlichkeiten auf. Eine identische Eigenschaft der Systeme besteht bei den Vorverarbeitungsroutinen, Mus­tererkennungsalgorithmen und den Präsentationsschichtelementen.73 Die Auffas­sung, dass Text Mining als Teil-Disziplin von Data Mining angesehen wird, vertreten auch einige Autoren in der Literatur.74 Weiterhin stellt Text Mining eine Erweiterung des Data Mining dar.

Das wesentliche Unterscheidungskriterium liegt somit im zu analysierenden Daten­material. Im Bereich Data Mining werden strukturierte und im Bereich Text Mining teil- oder unstrukturierte Daten als Grundlage verwendet.75 Nach Heyer u.a. werden strukturierte Daten, im Gegensatz zu unstrukturierten Daten, innerhalb einer Daten­bank “strukturiert“ verwaltet.76 Opic u.a. ergänzen und beschreiben strukturierte Da­ten als Daten, die innerhalb einer relationalen Datenbank allein schon strukturiert sind, da dort eine Unterteilung in Tabellen und Spalten erfolgt.77 Ein einfacher Fließ­text, der natürlich-sprachige Inhalte aufweist, ist daher unstrukturiert. Dies können Freitextfelder oder Volltexte von Schriftgut und E-Mails sein.78 Unstrukturierte Daten werden in der Regel in Content- oder Dokumenten-Management-Systemen verwal­tet. Dort erfolgt eine Archivierung, Verschlagwortung, Versionierung sowie Visuali­sierung, die maximal semistrukturiert sein kann.79

Hinzu kommt nach Behme und Multhaupt, dass Text Mining die automatische Er­kennung von Textmerkmalen, zum Beispiel Eigennamen, zusammengehörige Wort­kombinationen, Abkürzungen und somit Sprachanalyse durchführen kann.80

Zusammenfassend wird festgestellt, dass Data Mining und Text Mining ähnlich funk­tionieren und gleiche Ziele verfolgen. Das Anwendungsgebiet bzw. das zu analysie­rende Material ist unterschiedlich. Text Mining versucht neues Wissen aus unstruk­turierten und Data Mining aus strukturiertem Datenmaterial zu generieren.81 Die spe- ziehe Herausforderung von Text Mining liegt in dem zuvor notwendigen Prozess der Datenaufbereitung.82 Die unterschiedlichen Arten des Datenmaterials und deren Zu­griffe werden zur Verdeutlichung in nachfolgender Tabelle 2 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 5. Tabelle 2: Darstellung der Zugriffe

Ein zusätzlicher Begriff in der Literatur ist das Web Mining. Es handelt sich dabei um die Anwendung von Mining-Methoden auf den Anwendungsfall des Internets.83 Nach Mehler und Wolff ist Web Mining eine Weiterentwicklung des Text Minings. Die Texte liegen meist in einer spezielleren Form der Strukturierung vor und gelten als semi­strukturiert. Es kommt dafür die HypertText Markup Language oder die extensible Markup Language in Betracht.84

Insgesamt können verschiedene Konzepte, je nach Strukturierungsgrad und Ur­sprung des Datenmaterials, angewendet werden. Welche Methoden betroffen sind, wird nachfolgend erläutert. Aufgrund des konkreten Anwendungsfalls unstrukturier­ter Daten, werden die Methoden und Verfahren des ?Minings“ dem Bereich von Text Mining zugeordnet und nicht als Werkzeuge von Data Mining betrachtet. Zu jedem Datenmaterial oder Analysemethode wurden unterschiedliche Algorithmen entwi- ekelt.85 Im Rahmen dieser Arbeit werden sie jedoch nicht vorgestellt, da sie für das Ziel, der verständlichen Darstellung von Text Mining, nicht notwendig sind.

4.2 Verfahrensarten

Als Grundlage für die Analysen werden, wie in Abbildung 3 dargestellt, statistische und musterbasierte Verfahren verwendet.86

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Abbildung 3: Die Zweiteilung von Text Mining

Unter die statistischen Verfahren fallen die Differenzanalyse, Kookkurenzanalyse und Clusteranalyse. Differenzanalysen ordnen Text, durch sprachstatistische Ge­setzmäßigkeiten und anhand verschiedener Kriterien, Merkmale zu. Die Kookku- renzanalyse sowie Clusteranalyse berechnen semantische Abhängigkeiten zwi- sehen Begriffen. Die musterbasierten Verfahren identifizieren innerhalb einer Aus­wähl von Texten allgemeingültige und relevante Muster. Die Texte sowie Textpas­sagen werden anhand zuvor definierter Muster identifiziert. Als Beispiel werden Merkmale, wie der Personen- oder Firmenname, angeführt. Diese Merkmale oder auch Attribute, werden mit Hilfe von Tags strukturiert, zum Beispiel: <Vorname>, <Nachname> oder <Firmenname>. Im Anschluss an die Strukturierung von Text, können mit Text-Mining-Werkzeugen Anfragen gestartet werden.87 Diese vorge­schaltete Datenvorverarbeitung und Strukturierung ermöglicht das Analysieren des Textes, ohne eine menschliche Interpretation.88

4.3 Übersicht der Methoden

Text Mining ist keine alleinstehende Methode. Die verschiedenen Verfahren, die die Extrahierung beschreiben, wurden in Kapitel 4.2 dargestellt. Daneben Stehen eine Vielzahl von Methoden oder auch Werkzeugen, die unter den Begriff Text Mining fallen.89 Daher kann im Rahmen dieser Arbeit keine umfassende Darstellung dieser erfolgen.

Nach Hippner und Rentzmann werden die Techniken von Text Mining grob in vier Forschungsgebiete unterteilt: Natural Language Processing (NLP), Information Extraction, Information Retrieval und Künstliche Intelligenz.90

Grobelnik und Mladenic sowie Hotho u.a. gehen von einem interdisziplinären Ansatz aus und beschreiben als Inhalte von Text Mining: Maschinelles Lernen, Data Mining, Statistik und statistisches Lernen, NLP sowie Information Retrieval.91

Miner u.a. schließen sich dem interdisziplinären Ansatz an und stellen in dem Venn­Diagramm in Abbildung 4 die insgesamt sieben Anwendungsbereiche des Text Mi­ning dar. Diese sind im zentralen blaugefärbten Kreis fett dargestellt.92

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Miner, G. u.a. (2012), s. 31.

Abbildung 4: Venn-Diagramm zur Unterteilung in sechs Gebiete

Im Venn-Diagramm sind neben der Oberkategorie Text Mining, die Bereiche Com­puter Linguistik, Bibliotheks- und Informationstechnik, Datenbanken, Data Mining, Artificial Intelligence sowie Machine Learning und Statistik in Ovalen dargestellt. Durch die Überlappung wird deutlich, dass alle sechs Gebiete zwar thematische Überschneidungen haben, aber auch ohne den Begriff Text Mining bestehen kön­nen. Die Schaffung dieses Gebiets sorgt lediglich dafür, dass sie als Teil-Disziplinen zusammengefasst werden.93

Die unterschiedlichen Auffassungen des Inhalts von Text Mining (siehe Definitionen in Kapitel 4.1.1), bzw. seinem Ursprung, Stehen erst recht für seine Interdisziplinarität als solches. Dies wird zudem anhand der Anwendungsgebiete deutlich. Es kommen neben den verschiedenen gewollten Startszenarien,94 auch verschiedene Branchen, wie Naturwissenschaften,95 Informationswissenschaften,96 Medizin, öffentlichkeits­arbeit, Marketing oder Finanz- und Rechtswissenschaften,97 zum Einsatz.

4.4 Prozess

Für die Anwendung von Text Mining existieren verschiedene Prozessmodelle. So sieht Visa einen sehr kompakten Prozess, bestehend aus einer Datenvorverarbei- tung, der Zusammenfassung und einer Kodierung. Hierbei muss jeder Prozessschritt auf das Zwischenergebnis des vorherigen Prozessschrittes zurückgreifen.98

Sullivan sieht den Prozess ausformulierter und unterteilt ihn in vier Schritte. Diese sind in Abbildung 5 dargestellt und beinhalten die Suche, Vorverarbeitung, Bewer­tung und Extrahierung bzw. Mustererkennung.99 Auf der linken Seite befinden sich die Prozessschritte, während sich auf der rechten Seite die dort eingesetzten Tech­nologien befinden.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Sullivan, D. (2001), s. 324.

Abbildung 5: Text-Mmmg-Prozess

Der Prozess von Sullivan erscheint am relevantesten für die Praxis und wird daher als Grundlage für die Einordnung von Text-Mining-Methoden in den nachfolgenden Unterkapiteln gewählt und weiter beschrieben.

4.4.1 Suche

Im ersten Schritt des Prozesses erfolgt die Suche.100 Hierbei sollen aus einer großen Menge von Dokumenten, durch eine eingrenzende Benutzeranfrage, ein Teil von relevanten Dokumenten zurückgeliefert werden. Genutzt wird das Information Ret- rievai oder auch die Volltextsuche.101 Es wird keine Struktur im Datenmaterial beno- tigt. Die Hauptaufgabe ist es Dokumente aufzufinden, die Antworten auf eine kon­krete Fragestellung bieten könnten. Der Prozess begünstigt jedoch nur das Auffin­den von Dokumenten. Die Beantwortung der Fragestellung ist ein Nebenziel des Anfragenden.102 Manninger schließt sich dem an und versteht unter Information Ret- rievai, das Auffinden von Dokumenten unstrukturierter Natur, die einen Informations­bedarf befriedigen.103 Konkret werden anhand von definierten Suchbegriffen Doku­mente aus einem großen Datenbestand herausgefiltert.104 Das Information Retrieval leistet bei der Zielerreichung des Prozesses einen entscheidenden Beitrag, da Me­tadaten über die einzelnen Dokumente erzeugt werden.105

Historisch gesehen ist diese Methode entstanden, um das (Wieder-)auffinden von wissenschaftlicher Literatur zu verbessern. Dies macht auch die Definition von Sal­ton und McGill deutlich. Demnach ist Information Retrieval die Repräsentation, Spei­cherung, Organisation und der Zugriff auf den Informationsbedarf.106 Information Retrieval besitzt demnach zwei Aspekte, zum einen die Konstruktion eines Indexes für alle möglichen Dokumente und zum anderen das Abrufen dieses Indexes. Für die Analyse, der in Frage kommenden Texte, werden alle Fachbegriffe inklusive ihrer Position im Text ermittelt und in einem Index gespeichert.107 Das Ziel der Speiche­rung der Begriffe in einem sogenannten Schlagwortverzeichnis, ist die Information in welchem Dokument und in welcher Textstelle sie Vorkommen, um schnellere Ant­Wortzeiten zu generieren.108 Die Suchanfrage gibt die Dokumente jedoch unverar­beitet aus, d.h. es ist dem Suchanfragenden nicht ohne weiteres möglich, alle Infor­mationen ohne weitere Analyse aufzunehmen.109

Da auch unscharfe Suchbegriffe Vorkommen können, muss die Suche in der Lage sein auch die Flexion eines Terms zu entdecken. Hierfür werden Techniken der Da- tenvorverarbeitungsphase verwendet (siehe Kapitel 4.4.2).110

4.4.2 Datenvorverarbeitung

Trotz der Vorsortierung durch das Information Retrieval Stehen für den Benutzer noch zu viele Dokumente für seine Anfrage zur Verfügung. Daher sind Werkzeuge zur Erkennung von Strukturen in Text und Möglichkeiten zur Informationsextrahie­rung notwendig.

Hierfür können Techniken des NLP zum Einsatz kommen. Dies ist nach Manning und Schütze der Oberbegriff für die Suche nach Mustern in Sprache, die in Textform vorliegt.111 Außerdem ist sie die Fähigkeit von Computerprogrammen, menschliche Sprache, egal ob geschrieben oder gesprochen, zu verstehen. Eine möglichst struk­turierte Sprache erleichtert der Software eine Erkennung und das eindeutige Verste­hen. Die menschliche Sprache ist jedoch nicht immer objektiv, sondern zum Beispiel durch eine soziale oder regionale Komponente beeinflusst.112 Nach Kao und Poteet ist hierbei der Kern wer hat was, von wem, wann, wo, wie und warum durchgeführt.113

Zunächst erfolgt als erster notwendiger Schritt des NLP eine Tokenization bzw. To- kenisierung.114 Dabei wird der Text in einzelne Token unterteilt. Wobei Token nicht für das Wort, sondern für eine Instanz einer Folge von Zeichen in einem bestimmten Dokument steht.115 Manning U.a. geben hierfür folgendes Beispiel:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Manning, c. D. u.a. (2009), s. 59. Tabelle 3: Beispiel für Tokenisierung

In Tabelle 3 wird deutlich, wie einzelne Satzstücke eingeteilt und Satzzeichen ent­fernt werden.116 Ein hingegen nicht-triviales Beispiel für die Tokenisierung wäre ein

Apostroph im Nachnamen oder die Abkürzung ?Dr.“, die ohne ihre Interpunktion nicht den vollen Sinn ergibt.117

Anschließend erfolgt das Entfernen von sogenannten Stoppwörtern. Dies beinhaltet Wörter oder Wortteile, die für die Analyse keine Bedeutung besitzen.118 Dies sind Konjunktionen, Präpositionen oder Artikel. Solche Stoppwörter werden zum Beispiel bei der Eingabe in Suchmaschinen herausgefiltert.119 Ein Ansatz zur Identifikation der Stoppwörter sind die Messung der Häufigkeit. So werden besonders häufige120 oder auch besonders seltene Wörter in eine Stoppwortliste aufgenommen.121 Teil­weise können auch bereits vordefinierte Listen herangezogen werden.122 Durch die Reduzierung der Stoppwörter wird die inhaltliche Qualität erhöht und der Analyse­aufwand reduziert.123

Nach der Reduktion des Datenmaterials kann eine Erweiterung erfolgen. Dies ge­schieht durch sogenanntes Part-of-speech-Tagging (POS-Tagging).124 Hierbei er­folgt die Vergabe von Wortarten (zum Beispiel Substantiv, Adjektiv oder Verb) je Token.125 Ein Beispiel wäre das Wort ?kreativ“, dies fällt demnach unter die Wortart Adjektiv.126

Das Tagging kann Namen von Organisationen, Orten oder Personen leichter her­ausfiltern und entsprechend untersuchen.127 Allerdings können auch doppeldeutige Wörter auftreten, die zum Beispiel als Adjektiv und Verb eingestuft werden kön- nen.128 Nach Jurafsky und Martin können regelbasierte Tagger auf Basis von Lexika oder manuell erstellten Datenbanken bei dem Prozess unterstützen.129

Danach werden diese Wörter auf Ihren Wortstamm zurückgeführt und mit Markié- rungen versehen, dies erfolgt entweder beim stemming oder der Lemmatisierung.

Durch die Markierungen werden den Wörtern Wortarten zugeordnet sowie Parser, die die Wortstellung in einem Satz, bestehend aus Subjekt, Prädikat und Objekt, ermitteln. Diesen Vorgang nennt man Parsing. Die Erfassung der Wortarten erfolgt durch den Zugriff auf Lexika.130 Abschließend erfolgt eine semantische Analyse zur bedeutungsabhängigen Zerlegung von Texten.131 Hierfür existieren vollautomati- sehe Verfahren. Wauschkuhn hat 1996 bereits mit seinem Werkzeug eine Abde­ckung von 85,7 Prozent in deutschsprachigen Sätzen erreichen können.132

Bei der Lemmatisierung ist das Ziel, Verben auf ihre Grundform und Nomen auf die singuläre Form zu bringen.133 Der Vorteil dabei ist, dass bei der Suchabfrage keine Wortformen beachtet werden müssen und generell eine niedrigere Anzahl an In­dexeinträgen generiert werden muss.134

Auch beim stemming wird das Wort auf einen Wortstamm reduziert.135 Nach Kuhlen gibt es beim stemming folgende Ausprägungen der Rückführung auf die stamm­form: die lexikografische Grundform, die formale Grundform, also die Form wie sie in einem Wörterbuch zu finden ist, die Form bei der die Flexionsendungen abge­trennt werden und die Stammform nach linguistischen Prinzipien.136 Das Ziel der Re­duktion ist die Verbesserung der Abfrageergebnisse.137 Dies wird erreicht, durch das Streichen des angehängten ?s“ bei der Pluralform.138 Der Unterschied zwischen dem Stemming und der Lemmatisierung verdeutlicht Porter. Demnach wandelt Lemmat¡- sierung Nomen in die singuläre Form und Verben in die Grundform um. Das Stern- ming wiederum reduziert alle Wörter auf den gleichen stamm.139 Nach Kettunen ?.a. sind die Unterschiede in der Performance der beiden Verfahren statistisch nicht sig- nifikant.140

4.4.3 Bewertung und Selektion

Im Anschluss an die Suche, Reduktion und die sprachliche Erkennung der Doku­mente, können je nach Anforderungen des Anfragenden die Dokumente in Gruppen eingeteilt werden. Hierfür gibt es zwei Optionen. Es können Dokumente in Themen­gebiete klassifiziert oder nach ähnlichen Dokumenten geclustert werden. Das Ziel dieser Methoden, ist ein verbessertes Suchergebnis.

Nach Renz und Franke können Dokumentenmassen durch das Einteilen in Klassen (siehe Kapitel 4.4.3.1), Cluster (siehe Kapitel 4.4.3.2) oder durch Informationsextrak­tion bzw. Zusammenfassung (siehe Kapitel 4.4.4) besser analysiert werden.141

4.4.3.1 Klassifikation

Die Klassifikation erlaubt es, dass Dokumente in zwei oder mehrere definierte Klas­sen unterteilt werden. Die Klassen können auch eine hierarchische Struktur aufwei- sen.142 Die Klassifikation erfolgt grundsätzlich nach gewissen Kriterien, die ein Do­kument für die entsprechende Klasse erfüllen muss.143 Daher spricht man auch vom überwachtem Lernen.144 Hierdurch können zum Beispiel Nachrichtentexte ihrem in­haltlichen Schwerpunkt zugeordnet werden.145

Die Klassifikation unterscheidet sich grundsätzlich in eine binäre oder eine multiple Klassifikation. Bei einer binären Klassifikation kann zum Beispiel eine Unterschei­dung von E-Mails in Spam und kein Spam erfolgen.146 Ein Beispiel für die multiple Klassifikation von Dokumenten wäre die Verteilung in vordefinierte Sachgebiete, wie zum Beispiel die Wissenschaften einer Literaturdatenbank.147

Klassen müssen manuell erstellt werden. Hierfür sind jeweils Regeln zu definie- ren.148 Solche Regeln werden in Entscheidungsbäumen visualisiert. Sie enthalten durch eine Vielzahl von Termen spezifische Wenn-Dann-Regeln.149 Bei einer breiten

Masse kann der Pflegeaufwand hoch werden. Daher bietet sich der Einsatz von sta­tistischen Methoden an.150 Als Grundlage kommt die “Support Vector Machine“ zum Einsatz.151 Diese nutzt manuell klassifizierte Beispieldokumente, um die Regeln zu erlernen und zu analysieren. Durch diesen Schritt können zukünftig automatische Klassifizierungen vorgenommen werden.152

Voraussetzung für die Dokumentenklassifikation ist eine abgeschlossene Datenvor- Verarbeitungsphase und die Vergabe von Metadaten. Anschließend können Klassi­fikationsalgorithmen wie der Naive Bayes oder die logistische Regression angewen­det werden. Dokumentenmerkmale, wie Titel, Dateiname, Größe oder automatisch generierte Stichwörter, werden als Informationsquelle genutzt.153

Ein Beispiel für eine Klassifikation gibt Albertz, der aus der Klassifikation von Bild­material in verschiedene Klassen berichtet. In nachfolgender Abbildung 6 ist die Grundannahme visualisiert, die die Objekte als trennbare Punkthaufen darstellen.154

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Albertz, J. (1991), s. 141.

Abbildung 6: Grundannahme der Klassifikation

In jeder der Klassen, durch nahe beieinander liegende rote Punkte gekennzeichnet, werden im Anwendungsfall Dokumente gefasst.

4.4.3.2 Clustering-Verfahren

Das Clustering Oder die Clusteranalyse umfasst nach Miner u.a. den Prozess einer automatischen Erkennung von Ähnlichkeiten sowie Unähnlichkeiten von Objekten und der daraus entstehenden Gruppierung in sogenannten Clustern.155 Beim Clus­tering spricht man von einem unüberwachtem Lernen, da keine Trainingsbeispiele wie bei der Klassifikation (siehe Kapitel 4.4.3.1) benötigt werden. Ziel der Anwen­dung von Clustering-Algorithmen ist die Identifikation von ähnlichen Dokumenten 0- der Wörtern sowie die Einteilung in bisher nicht bekannte Cluster bzw. Gruppen.156 Die Regel bei der Bildung von Clustern ist, dass Datensätze innerhalb eines Clusters möglichst viele und Datensätze außerhalb eines Clusters möglichst wenige Ähnlich­keiten aufweisen.157 Damit geht die Grundidee der Homogenität von Gruppen ein- her.158 Schendera definiert die Ähnlichkeit anhand des Ähnlichkeitswertes, der umso höher oder niedriger ist.159 Des Weiteren fällt unter das Clustern auch zwangsläufig das Segmentieren, da ein Gruppieren auch gleichzeitig eine Segmentierung dar- stellt.160

Im Clustering-Verfahren von Dokumenten können Terme oder Konzepte, einschließ- lieh ihrer Gewichtung, genutzt werden. Hierbei muss durch zusätzliche Kriterien eine Charakterisierung erfolgen.161 Dokumente können mehreren Clustern angehören, dies nennt man überlappende Einteilung. Sind alle Dokumente auf Cluster verteilt, spricht man von einer vollständigen Verteilung. Ein Zentroid ist das häufigste Eie- ment eines Clusters und wird durch einen Mittelwert der Dokumente errechnet.162

Um Cluster bilden zu können eignen sich verschiedene Methoden. Diese werden grob in zwei Kategorien unterteilt, die partitionierenden sowie die hierarchischen Me- thoden.163

Ein partitionierendes Cluster ist flach. Ein Dokument wird nur einem Cluster Zuge­ordnet. Das Cluster beschreibt ein Thema, das einer bestimmte Menge an Merkma­len zugeordnet werden kann, die alle Dokumente in diesem Cluster gemeinsam ha- ben.164 Wie in Abbildung 7 dargestellt werden ähnliche Dokumente (als blaue Punkte dargestellt) in einem Cluster (dünner Kreis) gruppiert.

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.

Abbildung 7: Binäres Clustering

Ein hierarchisches Cluster gruppiert Dokumente nach ihrer Ähnlichkeit innerhalb ei­ner Baumstruktur (siehe Abbildung 8). Dadurch wird erreicht, dass Dokumente einer Vielzahl an Clustern hierarchisch angehören können. Die Dokumente werden nicht in flache, sondern in größere Cluster gruppiert.165 Im ersten Schritt wird für alle Do­kumente ein Cluster gebildet. Anschließend werden zwei Cluster darunter gebildet, die nach bestimmten Kriterien gebildet werden. Dieser Vorgang wird wiederholt, bis jedes Dokument einem Cluster zugeordnet ist und die Abfolge der Cluster fest- steht.166

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung nach Dörre, J. u.a. (2004), s. 493.

Abbildung 8: Hierarchisches Clustering

Der Unterschied zur Self-Organization Map (SOM) oder auch Kohonen-Karte167 liegt an der Visualisierung. Die SOM erzeugt eine automatisierte Darstellung der Clus- ter.168 Die entstehende Karte ist, wie auf Abbildung 9 zu sehen, dreidimensional dar­gestellt und nach Themen sortiert. Umso höher ein Cluster platziert ist, desto höher ist die Anzahl der dazu gehörenden Dokumente. Die themenorientierte, visuelle An­Ordnung sorgt für eine einfache Anzeige der gesuchten Texte.169

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Feiden, c. (2006), s. 293.

Abbildung 9: Self-Organization Map

Die Visualisierung ist dem menschlichen Gehirn nachempfunden.170 Einige Themen­bereiche sind beim Menschen auf der Hirnrinde regional angeordnet. Die SOM emp­findet dieses Vorgehen nach und platziert daher wichtige Merkmale regional.171 Do­kumente, die Ähnlichkeiten aufweisen, befinden sich auf der Karte in einem kürzeren Abstand zueinander.172 Die SOM ist in der Lage wichtige Kriterien zu bestimmen und erstellt anhand dieser Kriterien die Cluster. Dokumente besitzen berechnete Vekto­ren, deren Ähnlichkeit geprüft werden. Sobald neue Dokumente dazu kommen, wird eine Gewichtsanpassung vorgenommen und die Dokumente ggf. neu verteilt.173

Wichtig ist nach Litz, dass Clusterverfahren und Algorithmen aufeinander abge­stimmt werden, da die unterschiedlichen Verfahren nicht immer die identischen Er­gebnisse liefern und daher nicht das korrekte Cluster gebildet werden kann.174

4.4.4 Informationsextraktion

Die Informationsextraktion ermöglicht das Vergleichen von Dokumenten, üblicher­weise eignen sich hierfür Wortformen des Textinhalts. Die Relevanz dieser Wortfor­men wird durch statistische Auffälligkeiten eingestuft.175

Abbildung in dieser Leseprobe nicht enthalten

Bei der großen Anzahl an Text ist es wichtig, nur markante Eigenschaften zu extra- hieren.176 Durch den Einsatz von linguistischen Verfahren kann der Aufwand zwar beschränkt werden,177 es bieten sich jedoch zur weiteren Reduktion die in Abbildung 10 dargestellten Kriterien an:178

Quelle: Eigene Darstellung nach Heyer, G. u.a. (2006), s. 222f.

Abbildung 10: Markante Kriterien zur Informationsextraktion

Die statistische Auffälligkeit besagt, dass die extrahierten Merkmale häufiger auftre­ten als in durchschnittlichen Texten. Die Auswahl erfolgt anhand einer Differenzana­lyse. Unter Bekanntheit versteht man, dass die extrahierte Wortform eine gewisse Frequenz im Verhältnis zur allgemeinen Sprache besitzt. Die Mindesthäufigkeit setzt voraus, dass eine gewisse Anzahl der Merkmale im Datenmaterial vorkommt. Die Wortart bestimmt eine Vorgabe der Begriffe. So ist es deutlich sinnvoller sich auf Nomina zu beschränken, anstatt auf Adjektive und Verben, die in verschiedenen Kontexten angewendet werden können. Eine praktische Regel ist, sich auf Worte mit Großbuchstaben zu beschränken. Die Grundform beschreibt das Vorhandensein der Wörter im Infinitiv. Bei dem Prozess entstehen viele Beschränkungen, die auf Sinn- haftigkeit überprüft werden müssen.179

[...]


1 Naisbitt, J. (1982), o.s.

2 Vgl. Heyer, G. u.a. (2006), s. 1.

3 Vgl. IDC (2012), o.s.

4 Vgl. Bundesministerium des Innern (2014), s. 25.

5 Vgl. Bundesministerium des Innern (O.J.), 0. s.

6 Vgl. Bundestag (2013), § 9.

7 Vgl. Bundesministerium des Innern (2013), s. 17.

8 Kleiner, T. (2015), s. 1.

9 Vgl. Walsch, T. (2017), s. 32.

10 Vgl. Corsten, H. (1998), s. 42f.

11 Vgl. Eckardt, c., Bergmann, R. (2010), s. 45.

12 Vgl. Bradner, s. (1997), s. if.; Beims, M. (2010), s. 143.

13 Vgl. Hedeman, B., Seegers, R. (2010), s. 75.

14 Vgl. Hansen, H. u.a. (2015), s. 334.

15 Vgl. Gelrhos, M. (2016), s. 19.

16 Vgl. Ruf, w., Fittkau, T. (2008), s. 116.

17 Vgl. Project Management Institute (2017), s. 195ff.

18 Vgl. Gantt, H. (1913), s. 128.

19 Vgl. Bundesministerium des Innern u.a. (2014), s. 2.

20 Vgl. Bundesministenum des Innern u.a. (2014), s. 19.

21 Vgl. Bundesministerium des Innern u.a. (2014), s. 1 ff.

22 Vgl. Bundesministerium des Innern (2014), s. 25.

23 Vgl. Bundesministerium des Innern (2014), s. 8f.

24 Vgl. Bundestag (2013), §6.

25 Vgl. Keller-Herder, J., Schallbruch, M. (2014), §6, Rn. 10-12.

26 Vgl. Bundestag (2017), § 1.

27 Vgl. Bundesrepublik Deutschland (2009), § 1.

28 Vgl. IT-Planungsrat (2018), o.s.

29 Vgl. Google Trends (O.J.), o.s.

30 Vgl. Chen, H. u.a. (2012), s. 1166.

31 Vgl. Bange, c. (2006), s. 72.

32 Vgl. Felden, c. (2006), s. 284.

33 Vgl. Martin, w. (2012), s. 17.

34 Vgl. Weber, M., Urbanski, J. (2012), s. 7.

35 Vgl. Laudon, K. u.a. (2016), s. 285.

36 Vgl. Weber, M., Urbanski, J. (2012), s. 21.

37 Vgl. Weber, M., Urbanski, J. (2012), s. 1.

38 Vgl. Weber, M., Urbanski, J. (2012), s. 7.

39 Vgl. Jacoby, J. (1977), s. 569.

40 Vgl. Hoffmann, M. (2004), o.s.

41 Vgl. Mehler, A., Wolff, c. (2005), s. 1.

42 Vgl. Martin, w. (1998), s. 418.

43 Vgl. Hlppner, H., Rentzmann, R. (2006a), s. 287.

44 Vgl. Heyer, G. u.a. (2006), s. 3.

45 Vgl. Dörre, J. u.a. (2001b), s. 425.

46 Vgl. Steinecke, u., straub, w. (2010), s. 92.

47 Vgl. Russom, p. (2007a), s. 11.

48 Vgl. Herschel, R. T., Jones, N. E. (2005), s. 47.

49 Vgl. Martin, w. (2012), s. 16.

50 Vgl. Heyer, G. u.a. (2006), s. 8.

51 Vgl. Gluchowski, p. u.a. (2008), s. 320.

52 Vgl. Shapiro, s. c. (1987), s. 291.

53 Vgl. Krogh, G. V., Venzln, M. (1995), s. 420.

54 Vgl. Feldman, R., Dagan, I. (1995), s. 112.

55 Vgl. Hahn, u., Schnattinger, K. (1998), s. 1.

56 Vgl. Hearst, M. A. (1999), s. 3.

57 Vgl. Kodratoff, Y. (1999), s. 1.

58 Vgl. Loslewlcz, p. u.a. (2000), s. 99.

59 Vgl. Tan, A.-H. (1999), s. 1.

60 Vgl. Frawley, w. J.u.a. (1991), s. 58.

61 Vgl. Feldman, R., Dagan, I. (1995), s. 112.

62 Vgl. Hearst, M. A. (1999), s. 5; Behme, w., Multhaupt, M. (1999), s. 107.

63 Vgl. Mehler, A., Wolff, c. (2005), s. 1f.

64 Vgl. Felden, c. (2006), s. 284.

65 Vgl. Heyer, G. u.a. (2006), s. 3f.

66 Vgl. Feldman, R., Sanger, J. (2007), s. 1.

67 Vgl. Hearst, M. A. (1999), s. 43.

68 Vgl. Aggarwal, c. c., Zhai, c. (2012), s. 2.

69 Vgl. Cabena, p.u.a. (1997), s. 15.

70 Vgl. Chen, M. s.u.a. (1996), s. 866.

71 Vgl. Frawley, w. J.u.a. (1991), s. 58.

72 Vgl. Fayyad, u. M. u.a. (1996), s. 6.

73 Vgl. Feldman, R., Sanger, J. (2007), s. 1.

74 Vgl. Hearst, M. A. (1999), s. 5; Dörre, J. u.a. (2001a), s. 467f.; Bohnacker, u. u.a. (2002), s. 438; Renz, I., Franke, J. (2003), s. 1; Fan, w. u.a. (2006), s' 78; Bose, R. (2009), s. 156; Hansen, H. u.a. (2015), s. 294.

75 Vgl. Clark, J. (2013), s. 5.

76 Vgl. Heyer, G. u.a. (2006), s. 1.

77 Vgl. Opic, M. u.a. (2012), s. 198.

78 Vgl. Russom, p. (2007b), s. 2; Baars, H., Kemper, H.-G. (2008), s. 132.

79 Vgl. Kemper, H.-G. u.a. (2010), s. 12.

80 Vgl. Behme, w., Multhaupt, M. (1999), s. 107.

81 Vgl. Liddy, E. D. (2000), s. 13.

82 Vgl. Meier, M., Beckh, M. (2000), s. 165; Rajman, M., Veselý, M. (2004), s. 7.

83 Vgl. Cooley, R. u.a. (1997), s. 558.

84 Vgl. Mehler, A., Wolff, c. (2005), s. 5.

85 Vgl. Sharafl, A. (2013), s. 79f.

86 Vgl. Shi, G., Kong, Y. (2009), s. 4168.

87 Vgl. Heyer, G. u.a. (2006), s. 4f.

88 Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.

89 Vgl. Clark, J. (2013), s. 10ff.

90 Vgl. Hippner, H., Rentzmann, R. (2006a), s. 287.

91 Vgl. Hotho, A. u.a. (2005), s. 19; Grobelnik, M., Mladenic, D. (2005), s. 135.

92 Vgl. Miner, G.u.a. (2012), s. 31.

93 Vgl. Miner, G.u.a. (2012), s. 31.

94 Vgl. Miner, G.u.a. (2012), s. 32.

95 Vgl. Ananiadou, s., McNaught, J. (2006), s. 1.

96 Vgl. Miner, G.u.a. (2012), s 31.

97 7Vgl. Nisbet, R.u.a. (2009), s. 174.

98 Vgl. Visa, A. (2001), s. 2f.

99 Vgl. Sullivan, D. (2001), s. 324.

100 Vgl. Sullivan, D. (2001), s. 341.

101 Vgl. Dörre, J. u.a. (2001b), s. 425.

102 Vgl. Hearst, M. A. (1999), s. 3.

103 Vgl. Manning, c. D.u.a. (2009), s. 1.

104 Vgl. Ferber, R. (2003), s. 18.

105 Vgl. Feiden, c. (2006), s. 285f.

106 Vgl. Saltón, G., McGill, M. J. (1983), s. 1.

107 Vgl. Dörre, J. u.a. (2001b), s. 425.

108 Vgl. Dörre, J. u.a. (2004), s. 479.

109 Vgl. Sullivan, D. (2001), s. 341.

110 Vgl. Evert, s., Fltschen, A. (2001), s. 374.

111 Vgl. Manning, c. D., Schütze, H. (1999), s. 4.

112 Vgl. Zschelle, F. (2016), s. 64.

113 Vgl. Kao, A., Poteet, s. R. (2006), s. 1.

114 Vgl. Webster, J. J., Kit, c. (1992), s. 1106.

115 Vgl. Manning, c. D.u.a. (2009), s. 59.

116 Vgl. Manning, c. D.u.a. (2009), s. 59.

117 Vgl. Sharafi, A. (2013), s. 86.

118 Vgl. Hotho, A. u.a. (2005), s. 25.

119 Vgl. Lawrence, G. (1998), s. 99.

120 Vgl. Manning, c. D.u.a. (2009), s. 27.

121 Vgl. Fox, c. (1992), s. 113.

122 Vgl. Baeza-Yates, R., Ribeiro, B. d. (1999), s. 167.

123 Vgl. Sharafi, ?. (2013), s. 87.

124 Vgl. Weiss, s. M.u.a. (2005), s. 37.

125 Vgl. Feldman, R., Sanger, J. (2007), s. 60.

126 Vg. Tanawongsuwan, P. (2010), s. 353.

127 Vgl. Weiss, s. M.u.a. (2005), s! 37.

128 Vgl. Heyer, G. u.a. (2006), s. 127.

129 Vgl. Jurafsky, D., Martin, J. H. (2009), s. 169.

130 Vgl. Damasceni, A. T. (2003), s. 20.

131 Vgl. Feldman, R., Sanger, J. (2007), s. 60f.

132 Vgl. Wauschkuhn, ?. (1996), s. 357.

133 Vgl. Hotho, ?. ?.?. (2005), s. 26.

134 Vgl. Korenius, T. u.a. (2004), s. 625.

135 Vgl. Lovins, J. ?. (1968), s. 22.

136 Vgl. Kuhlen, R. (1977), s. 67.

137 Vgl. Kraalj, w., Pohlmann, R. (1996), s. 40.

138 Vgl. Vickery, ?., Vickery, A. (1992), s. 262.

139 Vgl. Porter, M. F. (1980), s. 131f.

140 Vgl. Kettunen, K. u.a. (2005), s. 484.

141 Vgl. Renz, I., Franke, J. (2003), s. 1.

142 Vgl. Ferber, R. (2003), s. 47.

143 Vgl. Lanqulllon, c. (2001), s. 23.

144 Vgl. Dörre, J. u.a. (2001b), s. 437f.

145 Vgl. Fan, w. u.a. (2006), s. 76f.

146 Vgl. Lanqulllon, c. (2001), s. 2.

147 Vgl. Ferber, R. (2003), s. 50f.

148 Vgl. Felden, c. (2006), s. 264.

149 Vgl. Sullivan, D. (2001), s. 448.

150 Vgl. Sebastian¡, F. (2002), s. 30.

151 Vgl. Sebastian¡, F. (2002), s. 30f.

152 Vgl. Joachims, T. (1998), s. 137.

153 Vgl. Feldman, R., Sänger, J. (2007), s. 64ff.

154 Vgl. Albertz, J. (1991), s. 141.

155 Vgl. Miner, G.u.a. (2012), s. 959ff.

156 Vgl. Gordon, A. D. (1999), s. 183ff.

157 Vgl. Bacher, J. u.a. (2010), s. 16.

158 Vgl. Sodeur, w. (1974), á 118-124.

159 Vgl. Schendera, c. F. (2010), s. 3.

160 Vgl. Schendera, c. F. (2010), s. V.

161 Vgl. Rasmussen, E. (1992), s. 420.

162 Vgl. Saltón, G. (1989), s. 341.

163 Vgl. Chamoni, p., Budde, c. (1997), s. 21.

164 Vgl. Dörre, J. u.a. (2004), s. 493.

165 Vgl. Dörre, J. u.a. (2004), s. 494.

166 Vgl. Chen, J. u.a. (2000), s. 251f.

167 Vgl. Thiran, p. (1999), s. 145.

168 Vgl. Sullivan, D. (2001), s. 202f.

169 Vgl. Felden, c. (2006), s. 293.

170 Vgl. Miikkulainen, R. (1993), s. 114.

171 Vgl. Kohonen, T. (2001), s. 106.

172 Vgl. Merki, D., Räuber, Á. (2000), s. 102.

173 Vgl. Miikkulainen, R. (1993), s. 116.

174 Vgl. Litz, H. p. (2000), s. 420ff.

175 Vgl. Heyer, G. u.a. (2006), s. 220.

176 Vgl. Heyer, G. u.a. (2006), s. 222.

177 Vgl. Renz, I., Franke, J. (2003), s. 4.

178 Vgl. Heyer, G. u.a. (2006), s. 222f.

179 Vgl. Heyer, G. u.a. (2006), s. 222f.

Ende der Leseprobe aus 157 Seiten

Details

Titel
Text Mining in der elektronischen Postverteilung einer Bundesbehörde
Hochschule
FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Frankfurt früher Fachhochschule  (IT Management)
Note
2,0
Autor
Jahr
2018
Seiten
157
Katalognummer
V437681
ISBN (eBook)
9783668798236
ISBN (Buch)
9783668798243
Sprache
Deutsch
Schlagworte
Text Mining, Postverteilung, Post, Posteingang, Data Mining, Mayring, Qualitative Inhaltsanalyse, Künstliche Intelligenz, Maschine Learning
Arbeit zitieren
M. Sc. Fabian Werk (Autor), 2018, Text Mining in der elektronischen Postverteilung einer Bundesbehörde, München, GRIN Verlag, https://www.grin.com/document/437681

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Text Mining in der elektronischen Postverteilung einer Bundesbehörde


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden