Eine Möglichkeit um präzise Vorhersagen von Erkrankungen zu treffen und medizinische Daten besser verstehen zu können, ist die Verwendung von Data Mining im Gesundheitsbereich. Data Mining ist eine Technik, um Informationen aus großen Mengen Daten zu extrahieren. Die Auswertung medizinischer Daten mit Hilfe von Machine Learning und Künstlicher Intelligenz kann Ärzt/inn/en dabei unterstützen, bessere Entscheidungen zu treffen, Diagnosen zu stellen und die Arbeitslast insgesamt zu minimieren. Data Mining bietet viele Methoden, um Informationen aus medizinischen Datensets zu erhalten. Techniken wie Klassifikation, Clustering und Rule Mining können für die Analyse von Daten verwendet werden. Die Vorhersage von Erkrankungen ist nur ein Beispiel für den Einsatz von Data Mining im Gesundheitsbereich. Durch die Nutzung von maschinellem Lernen könnte die Anzahl an Tests und die Zeit, die benötigt werden, um eine Krankheit zu diagnostizieren, verringert werden.
Einige Paper und Artikel haben sich bereits mit verschiedenen Data Mining Methoden für die Vorhersage von Erkrankungen beschäftigt und diese miteinander verglichen. Kumari et al. verglichen beispielsweise KNN, Logistische Regression und Support Vector Machine miteinander, wobei der KNN die höchste Accuracy erreichte.
Diese Arbeit stellt sich nun ebenfalls die Frage, ob die Genauigkeit bei unterschiedlichen Methoden voneinander abweicht oder sehr ähnlich ist. In dieser Bachelorthesis soll geklärt werden, welche der drei Klassifikatoren, KNN, SVM und Entscheidungsbaum, für die Vorhersage von Brustkrebs am besten geeignet ist. Dabei wird die Genauigkeit (Accuracy) der unterschiedlichen Methoden miteinander verglichen und eine Entscheidung über die Eignung getroffen. Außerdem wird getestet, ob eine anfängliche Feature Selection (Auswahl der relevanten Merkmale) eine Auswirkung auf die Accuracy hat. Die Ergebnisse werden dann im nächsten Schritt mit verwandten Studien verglichen. Für diese Analyse wird das Wisconsin Breast Cancer Dataset der UCI verwendet, das im Internet frei zur Verfügung steht.
Inhaltsverzeichnis
Einleitung und Fragestellung
Hypothesen
Theoretischer Hintergrund
Brustkrebs
Vorkommen
Risikofaktoren
Prävention
Früherkennung
Symptome
Tumor-Klassifizierung
Therapie
Nebenwirkung der Behandlung
Data Mining im Gesundheitssektor
Data Mining – Methoden
Clustering
Assoziationsanalyse
Klassifikation
Verwandte Studien
Fazit Literaturrecherche
Methodik
Wisconsin Breast Cancer Datenset - WBCD
Datenvorverarbeitung
WBCD - Feature Selection
Hyperparameter Tuning
Standardisierung
Ergebnisse der Analyse
Ergebnisse KNN
Ergebnisse Support Vector Machine
Ergebnisse Entscheidungsbaum
Diskussion der Ergebnisse
Fazit
Zielsetzung & Themen
Die Arbeit untersucht die Eignung verschiedener Data Mining-Algorithmen zur präzisen Vorhersage von Brustkrebs, basierend auf medizinischen Datensätzen, um die Diagnoseunterstützung zu verbessern.
- Vergleich der Performance von KNN, Support Vector Machine und Entscheidungsbäumen.
- Analyse des Einflusses von Feature Selection auf die Klassifikationsgenauigkeit.
- Optimierung der Modellparameter mittels Hyperparameter-Tuning.
- Evaluation der Ergebnisse anhand von Metriken wie Accuracy, Precision und Recall.
Auszug aus dem Buch
Support Vector Machine – SVM
SVMs wurden anfänglich für binäre Klassifikation entwickelt, wurden dann aber auch auf multi-Klassen Probleme erweitert. Die Support Vector Machine schafft eine oder mehrere Hyperebenen in einem hochdimensionalen Raum, der für Klassifikation, Regression und andere Aufgaben verwendet werden kann. Die Hyperebene wird im anfänglichen Raum erstellt, um Datenpunkte zu separieren. [12]
Im seltenen Fall, dass die verwendeten Daten linear trennbar sind, kann eine Hyperebene zum Separieren der Klassen verwendet werden. Nachdem die Daten geplottet wurden, werden sie mithilfe von einer Hyperebene klassifiziert, indem diese die Trennung der Punkte maximiert. Meist gibt es viele mögliche lineare Klassifikatoren, die für die Trennung der Datenpunkte genutzt werden können, doch nur eine davon erreicht die maximale Trennung, da die Ebene von allen Punkten des Datensets gleich weit entfernt sein soll. Das Konzept des Maximalen Rand-Klassifikators (Maximum Margin Classifier), die Hyperebene mit dem größten Rand, kommt hierbei zum Einsatz. [19]
Zusammenfassung der Kapitel
Einleitung und Fragestellung: Einführung in die medizinische Relevanz der Brustkrebsvorhersage und Definition der Forschungsfragen.
Theoretischer Hintergrund: Erläuterung der medizinischen Grundlagen zu Brustkrebs sowie technischer Grundlagen zu Data Mining-Methoden und Klassifikationsalgorithmen.
Verwandte Studien: Review aktueller Forschungsergebnisse zum Einsatz von Data Mining für die Identifikation von Mammakarzinomen.
Fazit Literaturrecherche: Zusammenführung der theoretischen Erkenntnisse und Begründung für die Auswahl der untersuchten Algorithmen.
Methodik: detaillierte Beschreibung des Analyseprozesses, der Datensatzvorbereitung und der angewandten statistischen Verfahren.
Ergebnisse der Analyse: Präsentation der experimentellen Ergebnisse für die verschiedenen Klassifikationsmodelle unter Verwendung unterschiedlicher Feature-Sets.
Diskussion der Ergebnisse: Interpretation der erzielten Genauigkeitswerte und Vergleich mit den Ergebnissen aus den untersuchten Studien.
Fazit: Abschließende Bewertung der Eignung der getesteten Data Mining-Techniken für die Diagnoseunterstützung in der Praxis.
Schlüsselwörter
Brustkrebs, Data Mining, Klassifikation, Support Vector Machine, KNN, Entscheidungsbaum, Wisconsin Breast Cancer Dataset, Feature Selection, Machine Learning, Früherkennung, Medizinische Diagnose, Accuracy, Hyperparameter-Tuning, Modellvergleich, Gesundheitssektor
Häufig gestellte Fragen
Was ist das Hauptziel dieser Bachelorarbeit?
Das primäre Ziel ist der Vergleich der Vorhersagegenauigkeit von drei verschiedenen Klassifikationsalgorithmen (KNN, SVM, Entscheidungsbaum) bei der Identifikation von Brustkrebs.
Welche Datengrundlage wurde für die Analyse verwendet?
Die Arbeit nutzt das publicly available "Wisconsin Breast Cancer Dataset" (WBCD), um die Leistungsfähigkeit der gewählten Modelle zu testen.
Welche wissenschaftliche Methodik kommt zum Einsatz?
Es werden verschiedene Vorverarbeitungsschritte (Preprocessing und Feature Selection) sowie Hyperparameter-Tuning durchgeführt, um die Modelle zu optimieren und mittels Train-Test-Split zu evaluieren.
Welcher Algorithmus erzielte die besten Ergebnisse in dieser Arbeit?
Die Support Vector Machine (SVM) mit vorangegangener Standardisierung der Merkmale lieferte die höchste Accuracy von 98,24 %.
Welche Bedeutung hat die "Feature Selection" für die Arbeit?
Es wird untersucht, ob durch die Auswahl spezifischer Merkmale (Feature Selection) die Komplexität reduziert und die Genauigkeit des Modells signifikant verbessert werden kann.
Warum ist der Recall-Wert bei medizinischen Analysen besonders wichtig?
Der Recall ist entscheidend, um sicherzustellen, dass möglichst wenige Erkrankungsfälle fälschlicherweise als gesund klassifiziert werden, was bei Krebsdiagnosen lebenswichtig ist.
Wie wirkt sich die Standardisierung auf die SVM aus?
Die Standardisierung sorgt dafür, dass die Merkmale in eine einheitliche Größenordnung gebracht werden, was bei distanzbasierten Algorithmen wie SVM die Performance deutlich verbessert.
Wie sicher ist die Vorhersage der KI im Kontext dieser Studie?
Die AUC-Werte zwischen 0,93 und 1 deuten auf eine sehr hohe Trennschärfe hin, wobei betont wird, dass die Ergebnisse interpretative Unterstützung für medizinisches Personal darstellen, keine finale Diagnose.
- Citation du texte
- Marlene Pirker (Auteur), 2022, Vorhersage von Brustkrebs mittels Data Mining, Munich, GRIN Verlag, https://www.grin.com/document/1247995