Eine Möglichkeit um präzise Vorhersagen von Erkrankungen zu treffen und medizinische Daten besser verstehen zu können, ist die Verwendung von Data Mining im Gesundheitsbereich. Data Mining ist eine Technik, um Informationen aus großen Mengen Daten zu extrahieren. Die Auswertung medizinischer Daten mit Hilfe von Machine Learning und Künstlicher Intelligenz kann Ärzt/inn/en dabei unterstützen, bessere Entscheidungen zu treffen, Diagnosen zu stellen und die Arbeitslast insgesamt zu minimieren. Data Mining bietet viele Methoden, um Informationen aus medizinischen Datensets zu erhalten. Techniken wie Klassifikation, Clustering und Rule Mining können für die Analyse von Daten verwendet werden. Die Vorhersage von Erkrankungen ist nur ein Beispiel für den Einsatz von Data Mining im Gesundheitsbereich. Durch die Nutzung von maschinellem Lernen könnte die Anzahl an Tests und die Zeit, die benötigt werden, um eine Krankheit zu diagnostizieren, verringert werden.
Einige Paper und Artikel haben sich bereits mit verschiedenen Data Mining Methoden für die Vorhersage von Erkrankungen beschäftigt und diese miteinander verglichen. Kumari et al. verglichen beispielsweise KNN, Logistische Regression und Support Vector Machine miteinander, wobei der KNN die höchste Accuracy erreichte.
Diese Arbeit stellt sich nun ebenfalls die Frage, ob die Genauigkeit bei unterschiedlichen Methoden voneinander abweicht oder sehr ähnlich ist. In dieser Bachelorthesis soll geklärt werden, welche der drei Klassifikatoren, KNN, SVM und Entscheidungsbaum, für die Vorhersage von Brustkrebs am besten geeignet ist. Dabei wird die Genauigkeit (Accuracy) der unterschiedlichen Methoden miteinander verglichen und eine Entscheidung über die Eignung getroffen. Außerdem wird getestet, ob eine anfängliche Feature Selection (Auswahl der relevanten Merkmale) eine Auswirkung auf die Accuracy hat. Die Ergebnisse werden dann im nächsten Schritt mit verwandten Studien verglichen. Für diese Analyse wird das Wisconsin Breast Cancer Dataset der UCI verwendet, das im Internet frei zur Verfügung steht.
Inhaltsverzeichnis
- Zusammenfassung
- Abstract
- Abbildungsverzeichnis
- Tabellenverzeichnis
- Einleitung und Fragestellung
- Hypothesen
- Theoretischer Hintergrund
- Brustkrebs
- Vorkommen
- Risikofaktoren
- Prävention
- Früherkennung
- Symptome
- Tumor-Klassifizierung
- Therapie
- Nebenwirkung der Behandlung
- Data Mining im Gesundheitssektor
- Data Mining Methoden
- Clustering
- Assoziationsanalyse
- Klassifikation
- Verwandte Studien
- Fazit Literaturrecherche
- Methodik
- Wisconsin Breast Cancer Datenset - WBCD
- Datenvorverarbeitung
- WBCD - Feature Selection
- Hyperparameter Tuning
- Standardisierung
- Ergebnisse der Analyse
- Ergebnisse KNN
- Ergebnisse Support Vector Machine
- Ergebnisse Entscheidungsbaum
- Diskussion der Ergebnisse
- Fazit
- Literaturverzeichnis
Zielsetzung und Themenschwerpunkte
Die vorliegende Bachelorarbeit befasst sich mit der Anwendung von Data Mining-Techniken zur Vorhersage von Brustkrebs. Das Ziel dieser Arbeit ist es, die Performance verschiedener Machine Learning-Algorithmen im Kontext der Brustkrebsvorhersage zu vergleichen. Die Arbeit analysiert das Wisconsin Breast Cancer Dataset und untersucht die Genauigkeit von KNN, Support Vector Machine und Entscheidungsbaum bei der Klassifizierung von Brustkrebstypen.
- Anwendungen von Data Mining im Gesundheitswesen
- Vorhersage von Brustkrebs mittels Machine Learning
- Vergleich der Leistung von KNN, Support Vector Machine und Entscheidungsbaum
- Datenvorverarbeitung und Feature Selection
- Hyperparameter-Tuning und Optimierung von Modellen
Zusammenfassung der Kapitel
Die Arbeit beginnt mit einer Einleitung, die die Relevanz von Brustkrebsvorhersage und Data Mining im Gesundheitswesen hervorhebt. Der theoretische Hintergrund umfasst eine detaillierte Beschreibung von Brustkrebs, seinen Risikofaktoren und der Bedeutung von Früherkennung. Es wird ein Überblick über Data Mining-Methoden, insbesondere Klassifikationsalgorithmen, gegeben, und relevante Forschungsarbeiten im Bereich der Brustkrebsvorhersage werden zusammengefasst. Die Methodik beschreibt die verwendeten Daten, die Vorverarbeitungsschritte, die Feature Selection und das Hyperparameter-Tuning der Modelle. Die Ergebnisse der Analyse werden für jeden Algorithmus präsentiert und diskutiert. Schließlich wird die Arbeit mit einem Fazit abgeschlossen, das die wichtigsten Ergebnisse und Schlussfolgerungen zusammenfasst.
Schlüsselwörter
Brustkrebs, Data Mining, Machine Learning, Klassifikation, KNN, Support Vector Machine, Entscheidungsbaum, Wisconsin Breast Cancer Dataset, Feature Selection, Hyperparameter Tuning, Genauigkeit, Mortalitätsrate, Früherkennung, Gesundheitswesen.
- Quote paper
- Marlene Pirker (Author), 2022, Vorhersage von Brustkrebs mittels Data Mining, Munich, GRIN Verlag, https://www.grin.com/document/1247995