Schwerpunkt der Ausarbeitung ist die Kategorisierung von E-Mail-Eingängen in einem CRM-System mit Hilfe von Text Mining Analyseverfahren. Dabei sollen gegebene Nachrichtenmuster stichprobenartig auf natürlich sprachige Verarbeitungsmethoden und Klassifizierungsalgorithmen angewendet werden. Zudem sollen die angewendeten Klassifizierungsalgorithmen, anhand ihrer Genauigkeit bei steigender Anzahl benötigter Trainingsdaten, gegenübergestellt werden. Auch die Übereinstimmung zwischen erwarteten und ermittelten Kategorien sollen bei der Bewertung der Qualität, bezogen auf die Anwendbarkeit der Algorithmen für die Problemstellung, betrachtet werden. Abschließend soll anhand von Nachrichten mit mehreren potenziellen Kategorien geprüft werden, welche Algorithmen besser zur Anwendung verrauschter Daten geeignet sind. Als Analysewerkzeug soll ein entsprechender Prototyp implementiert werden, welcher den praktischen Teil dieser Ausarbeitung darstellt.
Inhaltsverzeichnis
1 Einführung
1.1 Motivation und Problembeschreibung
1.2 Zielsetzung
1.3 Ansatz
2 Stand von Wissenschaft und Technik
2.1 Text Mining
2.2 Natural Language Processing
2.2.1 Grundlegende Textbereinigung
2.2.2 Tokenisierung
2.2.3 Stemming
2.2.4 Stoppwort Entfernung
2.2.5 TF-IDF-Gewichtung
2.3 Textklassifizierung
2.3.1 Der naive Bayes-Klassifikator nach Gauß
2.3.2 Die lineare Support Vector Maschine
2.4 Frameworks und Bibliotheken
2.4.1 Scikit-Learn
2.4.2 Natural Language Toolkit
2.4.3 NumPy
2.4.4 Apache OFBiz
2.4.5 Flask
2.4.6 Chart.Js
3 Technische Umsetzung
3.1 Anforderungen
3.1.1 Nichtfunktionale Anforderungen
3.1.2 Funktionale Anforderungen
3.2 Konzept
3.2.1 Kriterien und Auswahl der Frameworks
3.2.2 Architektur
3.2.3 Beschreibung der Trainingsdaten
3.2.4 Vorverarbeitung der Daten
3.3 Implementierung
3.3.1 Backend
3.3.2 Frontend
4 Evaluation
4.1 Teststrategie
4.2 Klassifikation gegebener Nachrichtenmuster
4.3 Vergleich der Klassifikatoren
4.3.1 Lernkurven
4.3.2 Konfusionsmatrizen
4.3.3 Anwendung verrauschter Daten
4.4 Resultate und Diskussion
5 Fazit und Ausblick
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, die effiziente Kategorisierung von E-Mail-Eingängen in einem CRM-System durch den Einsatz von Text-Mining-Verfahren zu automatisieren, wobei verschiedene Algorithmen in ihrer Genauigkeit und Robustheit gegenüber verrauschten Daten untersucht und in einem Prototypen implementiert werden.
- Entwicklung eines CRM-basierten Klassifizierungsprototyps
- Vergleich von Naive Bayes und Support Vector Machines
- Methodik der NLP-Pipeline-Vorverarbeitung (Cleaning, Tokenisierung, Stemming)
- Evaluierung der Modellqualität mittels Lernkurven und Konfusionsmatrizen
Auszug aus dem Buch
2.3 Textklassifizierung
Textklassifizierung oder auch Textkategorisierung, beschreibt den Prozess, einen Text einer oder mehrerer Klassen zuzuweisen. Hierbei werden vordefinierte Trainingsdatensätze verwendet, die entsprechend mit der zugehörigen Klasse gelabelt wurden. Da die Trainingsdatensätze die Lernbasis für die Anwendung von Klassifizierungsverfahren darstellen, spricht man hierbei auch von einem „überwachten Lernen“ (Supervised Learning) (Aggarwal 2018).
Dabei können Klassifizierungen in unterschiedliche Typen unterteilt werden:
- Harte Klassifizierung: Eine Kategorie wird einem Datum zugewiesen.
- Weiche Klassifizierung: Mehrere Kategorien können einem Datum zugewiesen sein.
- Flache Klassifizierung: Vordefinierte Kategorien werden in einer einzelnen Liste dargelegt.
- Hierarchische Klassifizierung: Vordefinierte Kategorien können Unterkategorien enthalten.
- Einzeln betrachtete Klassifizierung: Ein vordefinierter Klassifizierungstyp wird betrachtet, sei es flach oder hierarchisch.
- Vielfach betrachtete Klassifizierung: Mehrere Klassifizierungstypen werden betrachtet.
(Jo 2019)
Abhängig vom Anwendungsfall, kann die Bereitstellung und Vordefinierung von Trainingsdaten ein zeitintensiver Prozess sein (Jo 2019). Bei der Wahl des automatisierten Klassifizierungsverfahrens, können zwei Arten betrachtet werden:
- Regelbasierter Klassifikator: Hierbei wird ein Satz von Bedingungen entsprechend einer Teilmenge an Wörtern in einem Dokument angewendet.
- Klassifikator mit maschinellen Lernverfahren: Bei der Anwendung dieser Techniken wird die Klassifizierungsleistung beispielsweise durch Algorithmen, mathematischen Funktionen oder Wahrscheinlichkeitsverfahren generiert. Zu diesen Klassifikatoren gehören unter anderem
o Naive Bayes-Klassifikator
o Support Vector Machine (SVM)
o Nächste-Nachbarn-Klassifikation
(Aggarwal 2018)
Zusammenfassung der Kapitel
1 Einführung: Dieses Kapitel motiviert die E-Mail-Kategorisierung als Lösungsansatz für die steigende Informationsflut im CRM-Bereich und definiert die Zielsetzung sowie den allgemeinen Lösungsansatz.
2 Stand von Wissenschaft und Technik: Hier werden theoretische Grundlagen des Text Minings, des Natural Language Processing (NLP) und der Textklassifizierung erläutert sowie die verwendeten Frameworks vorgestellt.
3 Technische Umsetzung: Dieses Kapitel detailliert die Anforderungen, das Konzept, die Architektur und die Implementierung des Prototyps im Backend- und Frontend-Bereich.
4 Evaluation: Es werden die Teststrategie, die Klassifizierung von Nachrichtenmustern, der Vergleich der Algorithmen mittels Lernkurven und Konfusionsmatrizen sowie die Anwendung verrauschter Daten analysiert und diskutiert.
5 Fazit und Ausblick: Eine zusammenfassende Bewertung der erreichten Ergebnisse im Rahmen der Kooperation mit der hmmh Multimediahaus AG sowie ein Ausblick auf zukünftige Erweiterungsmöglichkeiten.
Schlüsselwörter
Text Mining, CRM-System, E-Mail-Kategorisierung, Natural Language Processing, Klassifizierungsalgorithmen, Maschinelles Lernen, Apache OFBiz, Scikit-Learn, Support Vector Machine, Naive Bayes, NLP-Pipeline, Trainingsdaten, Konfusionsmatrix, Lernkurven, TF-IDF.
Häufig gestellte Fragen
Worum geht es in dieser Bachelor-Thesis grundsätzlich?
Die Arbeit befasst sich mit der Automatisierung der E-Mail-Kategorisierung in CRM-Systemen unter Nutzung von Text-Mining- und Klassifizierungsverfahren.
Was sind die zentralen Themenfelder der Arbeit?
Die Schwerpunkte liegen auf der Vorverarbeitung natürlichsprachiger Texte, dem Vergleich von Klassifikationsalgorithmen und der Implementierung eines entsprechenden Software-Prototyps.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist die Untersuchung der Genauigkeit verschiedener Klassifizierungsalgorithmen sowie die Bewertung deren Qualität und Anwendbarkeit auf reale, verrauschte E-Mail-Daten.
Welche wissenschaftlichen Methoden werden angewandt?
Es wird eine NLP-Pipeline zur Datenbereinigung genutzt, gefolgt von einer TF-IDF-Gewichtung und einem Vergleich von Naive Bayes-Klassifikatoren sowie linearen Support Vector Machines.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil umfasst die detaillierte Beschreibung der Anforderungen, das technische Konzept, die Implementierung (Backend/Frontend) und die anschließende Evaluation der Algorithmen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zentrale Begriffe sind Text Mining, CRM-System, Support Vector Machine, Naive Bayes, Klassifizierung und Natural Language Processing.
Warum wurde das Apache OFBiz Framework gewählt?
OFBiz dient als CRM-Umgebung, da es in der Kooperationsagentur hmmh Multimediahaus AG bereits etabliert ist und solide relationale Datenmodelle bietet.
Wie unterscheidet sich die Support Vector Machine vom Naiven Bayes Klassifikator?
Die Evaluation zeigt, dass die Support Vector Machine bei konkurrierenden Kategorien stabilere und gleichmäßigere Ergebnisse liefert und weniger anfällig für Fehlklassifizierungen ist als der Naive Bayes Ansatz.
Welche Rolle spielt die "NLP-Pipeline" bei der Vorverarbeitung?
Die Pipeline ist essenziell, um unstrukturierte E-Mail-Rohdaten durch Filterung, Tokenisierung und Stemming in numerische Formate zu überführen, die für die ML-Algorithmen verarbeitbar sind.
Welches Ergebnis liefert die Untersuchung der verrauschten Daten?
Mit zunehmendem "Rauschen" (d.h. Einmischen von fremden Schlagwörtern) sinkt bei beiden Algorithmen die Sicherheit der Klassifizierung, wobei die SVM eine höhere Robustheit im Vergleich zum Naiven Bayes Klassifikator zeigt.
- Quote paper
- Robin Wilken (Author), 2019, E-Mail Klassifizierung in einem CRM-System anhand von Text Mining Analyseverfahren, Munich, GRIN Verlag, https://www.grin.com/document/535721