„Von der ursprünglichen Wortbedeutung her (dia: durch, hindurch, auseinander, gnosis:
Erkenntnis) ist Diagnostik Erkenntnisgewinnung zur Unterscheidung zwischen Objekten.
[…]“ (Hossiep & Wottawa, 1993)
Gemäß dieser Definition lassen sich große Parallelen zwischen einer medizinischen Diagnose
und verbreiteten Methoden der Informatik ziehen. So erfolgt bspw. eine computergestützte
„Diagnose“, bzw. eine Einstufung einer E-Mail automatisch durch den
Spam-Filter, der anhand von festgelegten Charakteristika, wie etwa der Anzahl der
Rechtschreibfehler, die E-Mail als (Spam-)Mail klassifiziert. Methoden wie diese entstammen
allgemein dem Bereich des Maschinellen Lernens und finden in der heutigen
Zeit in vielen Softwaresystemen Anwendung (Intrusion Detection, Anti-Viren Programme
etc.). Maschinelles Lernen bezeichnet allgemein das Anwenden formaler
Strukturen (Maschinen) zur Deduktion und Induktion. Im Gegensatz dazu beschäftigt
sich das Data Mining mit der Generierung von Wissen aus Datensätzen und verwendet
dafür Methoden des Maschinellen Lernens (Clarke et al., 2009). Dazu werden Algorithmen
eingesetzt, die Muster in meist sehr großen Datensätzen erkennen und diese in
verschiedenen Darstellungsformen (Regeln, Bäumen etc.) als Domänen-Wissen manifestieren.
Damit lässt sich bspw. das Kaufverhalten von Kunden analysieren und eine
Aussage darüber treffen, zwischen welchen Produkten gewisse Synergieeffekte bestehen.
Die wohl populärste Erkenntnis, die aus der Anwendung von Data Mining resultiert,
ist eine Synergie zwischen Windeln und Bier an Wochenendtagen (Clarke et al.,
2009). Gehetzte Väter kaufen laut dieser Auswertung Windeln und Bier oft zusammen.
Oder es kann eine Aussage darüber getroffen werden, welche Eigenschaften einer
menschlichen Embryonalzelle die bestmögliche Überlebenschance für eine künstliche
Befruchtung gewährleisten (Witten & Frank, 2005).
Einige Methoden des Data-Mining, die im weiteren Verlauf näher vorgestellt werden,
werden in dieser wissenschaftlichen Arbeit auf den vorliegenden Datensatz angewandt.
Ziel ist es dabei, Wissen über die unzureichend geklärte Entstehung von Hautkrebs und
das damit verbundene Hautkrebsrisiko zu extrahieren, um eine Früherkennung und
bestmögliche Heilungschance zu ermöglichen.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Einführung in das Thema Hautkrebs
- 1.2 Herkunft der Daten
- 1.3 Ziel und Aufbau der Arbeit
- 2 Grundlagen des Data-Mining
- 2.1 Der ,,Knowledge-Discovery in Databases\" (KDD) Prozess
- 2.2 Klassifikation
- 3 Data Preprocessing
- 3.1 Aufbereitung und Kodierung der Daten
- 3.1.1 Behandlung von Inkonsistenzen
- 3.1.2 Behandlung fehlender Werte
- 3.3 Konvertierung der Daten: Von CSV zu ARFF
- 3.4 Feature Subset Selection
- 4 Algorithmen des Data Mining
- 4.1 Entscheidungsbaum-Lerner
- 4.2 Regel-Lerner
- 4.3 Naive Bayes
- 4.4 Support-Vector-Machines
- 4.5 Bagging
- 5 Experimente
- 5.1 Patientenmodell
- 5.2 Ärztemodell
- 5.3 Ampelmodell
- 6 Diskussion und Ausblick
Zielsetzung und Themenschwerpunkte
Die Arbeit zielt darauf ab, maschinelles Lernen zur Vorhersage von Hautkrebs einzusetzen. Sie untersucht die Anwendung von Data-Mining-Techniken zur Analyse und Interpretation von medizinischen Daten.
- Data-Mining zur Hautkrebs-Vorhersage
- Anwendungen von Data-Mining-Techniken im medizinischen Kontext
- Analyse und Interpretation von medizinischen Daten
- Entwicklung von Vorhersagemodellen
- Bewertung der Genauigkeit von Vorhersagemodellen
Zusammenfassung der Kapitel
Kapitel 1 führt in das Thema Hautkrebs ein, beschreibt die Herkunft der verwendeten Daten und erläutert die Ziele und den Aufbau der Arbeit. Kapitel 2 behandelt die Grundlagen des Data-Mining, insbesondere den KDD-Prozess und die Klassifikation. Kapitel 3 beschäftigt sich mit der Vorbereitung der Daten, inklusive der Behandlung von Inkonsistenzen und fehlenden Werten sowie der Konvertierung der Daten in das ARFF-Format. Kapitel 4 stellt verschiedene Data-Mining-Algorithmen vor, darunter Entscheidungsbaum-Lerner, Regel-Lerner, Naive Bayes, Support-Vector-Machines und Bagging. Kapitel 5 präsentiert Experimente mit verschiedenen Modellen zur Hautkrebs-Vorhersage, die auf Basis von Patienten-, Ärzte- und Ampel-Daten trainiert wurden. Kapitel 6 bietet eine Diskussion der Ergebnisse und einen Ausblick auf zukünftige Forschungsrichtungen.
Schlüsselwörter
Hautkrebs, Data-Mining, Maschinelles Lernen, Klassifikation, Entscheidungsbäume, Regeln, Naive Bayes, Support-Vector-Machines, Bagging, Vorhersagemodelle, medizinische Daten, KDD-Prozess, Data Preprocessing, ARFF-Format.
- Arbeit zitieren
- Daniel Fischer (Autor:in), 2011, Maschinelles Lernen zur Hautkrebsvorhersage, München, GRIN Verlag, https://www.grin.com/document/188861