„Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gnosis:
Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Objekten.
[…]“ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Diagnose
und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine computergestützte
„Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den
Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der
Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese entstammen
allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen
Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Programme
etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler
Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt
sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet
dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algorithmen
eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in
verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen manifestieren.
Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine
Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte bestehen.
Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resultiert,
ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al.,
2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen.
Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer
menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche
Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden,
werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt.
Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und
das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und
bestmögliche Heilungschance zu ermöglichen.
Inhaltsverzeichnis
1 Einleitung
1.1 Einführung in das Thema Hautkrebs
1.2 Herkunft der Daten
1.3 Ziel und Aufbau der Arbeit
2 Grundlagen des Data-Mining
2.1 Der „Knowledge-Discovery in Databases“ (KDD) Prozess
2.2 Klassifikation
3 Data Preprocessing
3.1 Aufbereitung und Kodierung der Daten
3.1.1 Behandlung von Inkonsistenzen
3.1.2 Behandlung fehlender Werte
3.3 Konvertierung der Daten: Von CSV zu ARFF
3.4 Feature Subset Selection
4 Algorithmen des Data Mining
4.1 Entscheidungsbaum-Lerner
4.2 Regel-Lerner
4.3 Naive Bayes
4.4 Support-Vector-Machines
4.5 Bagging
5 Experimente
5.1 Patientenmodell
5.2 Ärztemodell
5.3 Ampelmodell
6 Diskussion und Ausblick
7 Anhang
Zielsetzung & Themen
Das Hauptziel dieser Arbeit ist die Ermittlung und Verifikation von Klassifikationsmodellen zur Einschätzung des Hautkrebsrisikos, um ärztliche Diagnosen zu unterstützen und Patienten zu sensibilisieren.
- Grundlagen des Data-Mining und des CRISP-Prozessmodells
- Methoden der Datenvorbereitung und Behandlung fehlender Werte
- Einsatz und Vergleich verschiedener Machine-Learning-Algorithmen (J48, JRip, Naive Bayes, SVM)
- Entwicklung und Evaluation von drei Risikomodellen (Patientenmodell, Ärztemodell, Ampelmodell)
- Diskussion von Optimierungsmöglichkeiten durch Feature Subset Selection und Ensemble-Verfahren
Auszug aus dem Buch
1 Einleitung
„Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gno sis: Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Ob jekten. […]“ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Di agnose und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine compu tergestützte „Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese ent stammen allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Pro gramme etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algo rithmen eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen mani festieren. Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte beste hen. Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resul tiert, ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al., 2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen. Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden, werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt. Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und bestmögliche Heilungschance zu ermöglichen.
Zusammenfassung der Kapitel
1 Einleitung: Dieses Kapitel motiviert die Anwendung von Data Mining in der medizinischen Diagnostik und definiert das Ziel der Arbeit, Hautkrebsrisiken anhand von Patientendaten zu klassifizieren.
2 Grundlagen des Data-Mining: Es werden grundlegende Definitionen, der KDD-Prozess sowie das CRISP-Modell als theoretischer Rahmen eingeführt.
3 Data Preprocessing: Dieses Kapitel beschreibt die essenzielle Datenaufbereitung, einschließlich der Behandlung von Inkonsistenzen, fehlender Werte und der Transformation von CSV-Daten in das ARFF-Format.
4 Algorithmen des Data Mining: Die für die Arbeit relevanten Algorithmen wie Entscheidungsbäume (J48), Regel-Lerner (RIPPER), Naive Bayes und Support-Vector-Machines werden in ihrer Funktionsweise erläutert.
5 Experimente: Die Anwendung der Algorithmen auf den Datensatz wird in Form dreier spezifischer Modelle (Patienten-, Ärzte- und Ampelmodell) evaluiert und diskutiert.
6 Diskussion und Ausblick: Der Arbeitsprozess wird reflektiert, Fehlerquellen bei der Datenerfassung identifiziert und zukünftige Verbesserungsansätze wie kostensensitives Lernen vorgeschlagen.
7 Anhang: Hier finden sich ergänzende Häufigkeitsdiagramme zu den verwendeten Attributen aus den erhobenen Daten.
Schlüsselwörter
Data Mining, Maschinelles Lernen, Hautkrebs, Klassifikation, Patientenmodell, Ärztemodell, Ampelmodell, Data Preprocessing, Feature Subset Selection, Entscheidungsbaum, Regel-Lerner, Support-Vector-Machines, Naive Bayes, Medizinische Informatik, Früherkennung
Häufig gestellte Fragen
Worum geht es in dieser Bachelorarbeit grundsätzlich?
Die Arbeit untersucht, wie Methoden des maschinellen Lernens und Data Minings dazu eingesetzt werden können, Hautkrebsrisiken basierend auf Patientendaten und Fragebögen vorherzusagen.
Was sind die zentralen Themenfelder der Arbeit?
Zentrale Themen sind die Datenvorbereitung (Preprocessing), der Einsatz verschiedener Klassifikationsalgorithmen sowie die Entwicklung und Validierung praktischer Risikomodelle.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist die Erstellung eines automatisierten Einstufungssystems für Patienten in Risikoklassen, um die ärztliche Arbeit zu unterstützen und Patienten für ihr individuelles Hautkrebsrisiko zu sensibilisieren.
Welche wissenschaftlichen Methoden werden verwendet?
Es werden verschiedene Data-Mining-Algorithmen wie Entscheidungsbäume (J48), RIPPER, Naive Bayes und SVM angewandt, ergänzt durch Techniken zur Feature Subset Selection und Kreuzvalidierung.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretischen Grundlagen des Data Mining, die komplexe Aufbereitung des Datensatzes und die Durchführung konkreter Experimentreihen an drei verschiedenen Modellen.
Welche Schlüsselwörter charakterisieren diese Arbeit?
Die Arbeit zeichnet sich durch Begriffe wie Data Mining, Klassifikation, Hautkrebs-Früherkennung, Feature Subset Selection und Performanzanalyse aus.
Wie unterscheidet sich das Patientenmodell vom Ärztemodell?
Das Patientenmodell nutzt allgemeine Angaben des Patienten für eine erste Selbsteinschätzung, während das Ärztemodell spezifische ärztliche Attribute hinzuzieht, um die Genauigkeit zu steigern.
Was ist das Besondere am Ampelmodell?
Das Ampelmodell verfolgt einen alternativen Ansatz, bei dem das Risiko nicht binär, sondern in drei Stufen (rot, gelb, grün) basierend auf Mortalitätsraten und Schweregrad der Hauterkrankung unterteilt wird.
Warum wird im Anhang so viel Wert auf Häufigkeitsdiagramme gelegt?
Diese Diagramme dienen der Transparenz und Vollständigkeit, da sie die Verteilung der Rohdaten vor der bereinigenden Vorverarbeitung visualisieren.
Welches Fazit zieht der Autor zur Praxisanwendbarkeit?
Der Autor stellt fest, dass die Modelle in der jetzigen Form noch nicht für eine sicherheitskritische Praxisanwendung geeignet sind, insbesondere aufgrund einer hohen Anzahl an False-Negative-Klassifikationen.
- Arbeit zitieren
- Daniel Fischer (Autor:in), 2011, Maschinelles Lernen zur Hautkrebsvorhersage, München, GRIN Verlag, https://www.grin.com/document/188861