Vorhersage von Brustkrebs mittels Data Mining


Bachelorarbeit, 2022

55 Seiten, Note: 1


Leseprobe

Inhaltsverzeichnis

Zusammenfassung

Abstract

Abbildungsverzeichnis

Tabellenverzeichnis

Einleitung und Fragestellung 8
Hypothesen

Theoretischer Hintergrund 10
Brustkrebs
Vorkommen
Risikofaktoren
Prevention
Fruherkennung
Symptome 1
Tumor-Klassifizierung
T h e rapi e 1
Nebenwirkung der Behandlung
Data Mining im Gesundheitssektor
Data Mining - Methoden
Clustering
Assoziationsanalyse
Klassifikation

Verwandte Studien 23

Fazit Literaturrecherche 30

Methodik
Wisconsin Breast Cancer Datenset - WBCD
Datenvorverarbeitung
WBCD -Feature Selection
Hyperparameter Tuning
Standardisierung

Ergebnisse der Analyse 44
Ergebnisse KNN
Ergebnisse Support Vector Machine
Ergebnisse Entscheidungsbaum

Diskussion der Ergebnisse 49

Fazit

Literaturverzeichnis

Zusammenfassung

Hintergrund : 2020 wurden 2.3 Millionen Frauen weltweit mit Brustkrebs diagnostiziert, wovon 685.000 an den Folgen der Erkrankung starben. [1] Schatzungsweise 12.9% aller Frauen erkranken laut dem National Cancer Institute im Laufe ihres Lebens an Mammakarzinomen. [2] Durch Fruherkennung und adaquate Behandlung liegt die Uberlebensrate bei 90%. Die Auswertung medizinischer Daten durch maschinelles Lernen kann Arzt/inn/en Unterstutzung bei der Diagnose und Entscheidungsprozessen bieten und somit die Arbeitslast reduzieren. [3] Fur die Analyse der Daten konnen Data Mining Techniken wie Klassifikation, Clustering und Rule Mining verwendet werden. Durch die Verwendung von Machine Learning kann die Anzahl an Tests und Zeit, benotigt fur die Diagnose einer Erkrankung, signifikant verringert werden.[4]

Ziel/ Methode : Das Ziel dieser Arbeit ist der Vergleich der Performance dreier Algorithmen, KNN, Support Vector Machine und Entscheidungsbaum, bei der Vorhersage von Brustkrebs. Zur Analyse wurdedas open-source Wisconsin Breast Cancer Dataset und JupyterLab 3.2.1 verwendet. Nach der Vorverarbeitung der Daten wurde Feature Selection durchgefuhrt und die verschiedenen Modelle mittels Train-Test-Split (80%-20%) trainiert und getestet. Hyperparameter-Tuning half dabei die hochstmogliche Genauigkeit zu erreichen. Die Performance der verschiedenen Algorithmen wurde anhand der Accuracy miteinander verglichen, um herauszufinden, welcher fur die Vorhersage von Mammakarzinomen am besten geeignet ist.

Ergebnisse : Die Analyse mittels SVM (ohne Feature Selection, mit Standardisierung) ergab eine Genauigkeit von 98.245614%, mittels KNN (ohne Feature Selection) 96.491228% und Entscheidungsbaum resultierte in einer Accuracy von 94.736842% ohne Feature Selection. Feature Selectionerreichte nicht den erwarteten Effekt undfuhrtenur bei der Support Vector Machine zueiner besseren Performance. Tuning der Hyperparameter bestatigte sich als wichtiger Faktor in der Optimierung der Algorithmen.

Fazit : AbschlieBend lasst sich sagen, dass alle getesteten Algorithmen zur Vorhersage von Mammakarzinomen geeignetsind, wobei die SVM diehochste Genauigkeit erreichte. DieArbeit zeigt, dassmedizinischesPersonal durchdieVerwendung von DataMining Techniken bei der Identifikation von Krankheiten und der Diagnosestellung von Patient/inn/en unterstutzt werden kann. Machine Learning Modelle, wieSVM, KNN undEntscheidungsbaume, fordern die rechtzeitige Behandlungvon Erkrankten und helfen die Mortalitatsrate bei Frauen durch Fruherkennung zu senken.

Abstract

Background : In 2020 2.3 million women were diagnosed with breast cancer worldwide, of which 685.000 died as a result of the disease. [1] According to the National Cancer Institute an estimated 12.9% of all women develop breast cancer during their lives. [2] With early detection and adequate treatment, the survival rate is at 90%. Data mining can help predict breast cancer and thus reduce mortality rates. The analysis of medical data by machine learning can provide support to physicians in diagnosis and decision-making processes and reducing the workload. [3] Techniques such as classification, clustering, and rule mining can be used to analyze the data. By using machine learning, the number of tests and time needed to diagnose a disease can be significantly reduced. [4] Goal/ Methods : The aim of this work was to compare the performance of three algorithms, KNN, Support Vector Machine and Decision Tree, in predicting breast cancer. The open-source Wisconsin Breast Cancer Dataset and JupyterLab 3.2.1 were used for analysis. After preprocessing the data, feature selection was performed and the different models were trained and tested using train-test split (training: 80%, test: 20%). Hyperparameter tuning helps to achieve the highest possible accuracy. The performance of the different algorithms were compared based on the accuracy to find out which one isthe best for predicting breast carcinomas.

Outcomes : The analysis using SVM (without Feature Selection, with Standardization) resulted inan accuracy of 98.245614%, with KNN (without Feature Selection) in 96.491228% and Decision Tree yielded inan accuracy of 94.736842% without Feature Selection. Feature Selection did not achieve the expected effect and did not result in better performance only for the Support Vector Machine. Tuning ofthe hyperparameters turned out to be an important factor inthe optimization of algorithms. Conclusion : In summary, all tested algorithms are suitable for the prediction of breast carcinomas. SVM showed the highest accuracy in the analysis. Medical staff can be assisted in diagnosing and treating patients by using data mining techniques. Machine learning models, like KNN, Support Vector Machine and decision trees, assist in starting a timely treatment and help reduce mortality rates in women through early detection.

Abbildungsverzeichnis

Abbildung 1: Brustkrebspravalenz (Quelle: Statistik Austria) [8]

Abbildung 2: Data Mining Prozess nach dem Beispiel von Ahmed, 201 7[4] 1

Abbildung 3: Maximaler Rand-Klassifikator (nach einem Beispiel von Jakkula V. [19])

Abbildung 4: Prozess Feature Selection nach dem Beispiel von Al-Shargabi und Al-Shami [20]

Abbildung 5: Vergleich der Genauigkeit in % - Studie 1 [5]

Abbildung 6: Darstellung Train-Test-Splitnach dem Beispiel von Bronshtein, 2017 [26]

Abbildung 7: Informationen zum Datenset, Ausgabe mit df.info()

Abbildung 8: Umwandlung „Diagnose“ in binare Daten

Abbildung 9: Heatmap zur Darstellung der Korrelation der Variablen

Abbildung 10: Balkendiagramm -Korrelation mit der Variable „ D i a g n o s e “

Abbildung 11: Feature Selection mit feature importance

Abbildung 12: Feature Selection mit SelectKBest

Abbildung 13: Erstellung zweier Datensets fur die Analyse, links: df_importance, rechts: df_select

Abbildung 14: KNN Confusion Matrizes (oben links: df, oben rechts: df_importance, unten: df_select)

Abbildung 15: KNN ROC Kurve (oben links: df, oben rechts: df_importance, unten: df_select)

Abbildung 16: SVM Confusion Matrizes (oben links: df, oben rechts: df_importance, unten: df_select)

Abbildung 17: SVM ROC Kurve (oben links: df, oben rechts: df_importance, unten: df_select)

Abbildung 18: Entscheidungsbaum Confusion Matrizes (oben links: df, oben rechts: df_importance, unten: df_select)

Abbildung 19: Entscheidungsbaum ROC Kurve (oben links: df, oben rechts: df_importance, unten: df_select)

Tabellenverzeichnis

Tabelle 1: Data Mining Disziplinen[10]

Tabelle 2: Vergleich der Genauigkeit in % - Studie 2 [21]

Tabelle 3: Vergleich der Genauigkeit in % mit und ohne Feature Selection - Studie 3 [20]

Tabelle 4: Beschreibung des Datensets -Studie 4 [22]

Tabelle 5: Vergleich der Genauigkeit in % -Studie 4 [22]

Tabelle 6: Vergleich der Genauigkeit in % -Studie 5 [23]

Tabelle 7: Vergleich verwandter Studien

Tabelle 8: Attribute des WBC Datensets

Tabelle 9: Vergleich feature importance und SelectKBest

Tabelle 10: Ergebnisse KNN

Tabelle 11: Ergebnisse SVM

Tabelle 12: Ergebnisse Entscheidungsbaum

Tabelle 13: Vergleich mit verwandten S tud i e n

Einleitung und Fragestellung

Der WHO zufolge wurden 2020 weltweit 2.3 Millionen Frauen mit Brustkrebs diagnostiziert und 685.000 starben an den Folgen. Ende 2020 wurde bei 7.8 Millionen Frauen in den letzten funf Jahren Brustkrebs erkannt. Das machte Brustkrebs global zu der haufigsten Krebsart bei Frauen. Der groBte Risikofaktor ist das Geschlecht „weiblich“. [1] Laut dem National Cancer Institute wird bei ungefahr 12.9% aller Frauen im Laufe ihres Lebens ein Mammakarzinom entdeckt. [2] Nur 0.5-1% aller Manner erkranken an Brustkrebs. Brustkrebs kommt bei Frauen nach der Pubertat in jedem Land auf der Welt vor, wobei das Risiko mit dem Alter steigt. In Landern mit hohem Einkommen hat sich Fruherkennung und adaquate Behandlung als sehr erfolgreich herausgestellt. Die Uberlebensrate der Erkrankten funf Jahre nach der Diagnose liegt hier bei 90%. Aus diesem Grund ist Fruherkennung und Pravention wichtig, um die Mortalitatsrate zu senken. WHO Global Breast Cancer Initiative (GBCI) hat es sich zum Ziel gesetzt, zwischen 2020 und 2040 die globale Brustkrebs-Mortalitat jahrlich um 2.5% zu senken, um damit 2.5 Millionen Todesfalle zu vermeiden. [1]

Eine Moglichkeit um prazise Vorhersagen von Erkrankungen zu treffen und medizinische Daten besser verstehen zu konnen, ist die Verwendung von Data Mining im Gesundheitsbereich. Data Mining ist eine Technik, um Informationen aus groBen Mengen Daten zu extrahieren. Die Auswertung medizinischer Daten mit Hilfe von Machine Learning und Kunstlicher Intelligenz kann Arzt/inn/en dabei unterstutzen, bessere Entscheidungen zu treffen, Diagnosen zu stellen und die Arbeitslast insgesamt zu minimieren. [3] Data Mining bietet viele Methoden, um Informationen aus medizinischen Datensets zu erhalten. Techniken wie Klassifikation, Clustering und Rule Mining konnen fur die Analyse von Daten verwendet werden. Die Vorhersage von Erkrankungen ist nur ein Beispiel fur den Einsatz von Data Mining im Gesundheitsbereich. Durch die Nutzung von maschinellem Lernen konnte die Anzahl an Tests und die Zeit, die benotigt werden, um eine Krankheit zu diagnostizieren, verringert werden. [4]

Einige Paper und Artikel haben sich bereits mit verschiedenen Data Mining Methoden fur die Vorhersage von Erkrankungen beschaftigt und diese miteinander verglichen. Kumari et al. verglichen beispielweise KNN, Logistische Regression und Support Vector Machine miteinander, wobei der KNN die hochste Accuracy erreichte. [5], [6]

Diese Arbeit stellt sich nun ebenfalls die Frage, ob die Genauigkeit bei unterschiedlichen Methoden voneinander abweicht oder sehr ahnlich ist. In dieser Bachelorthese soll geklart werden, welche der drei Klassifikatoren, KNN, SVM und Entscheidungsbaum, fur die Vorhersage von Brustkrebs am besten geeignet ist. Dabei wird die Genauigkeit (Accuracy) der unterschiedlichen Methoden miteinander verglichen und eine Entscheidung uber die Eignung getroffen. AuBerdem wird getestet, ob eine anfangliche Feature Selection (Auswahl der relevanten Merkmale) eine Auswirkung auf die Accuracy hat. Die Ergebnisse werden dann im nachsten Schritt mit verwandten Studien verglichen. Fur diese Analyse wird das Wisconsin Breast Cancer Datenset der UCI verwendet, das im Internet frei zu Verfugung steht.

Hypothesen

Folgende Hypothesen wurden aufgestellt, die in dieser Arbeit beantwortet werden sollen:

H0: Zwischen den unterschiedlichen Klassifikatoren, KNN, SVM und Entscheidungsbaum, besteht kein Unterschied bei der Vorhersage von Brustkrebs. Die Genauigkeit (%) ist bei allen drei (±0.3%) gleich.

H1: Zwischen den unterschiedlichen Klassifikatoren, KNN, SVM und Entscheidungsbaum, besteht ein Unterschied bei der Vorhersage von Brustkrebs. Die Genauigkeit (%) ist bei mindestens zwei der Klassifikatoren (±0.3%) unterschiedlich.

Theoretischer Hintergrund

Dieses Kapitel bietet den theoretischen Hintergrund, um die Grundlagen dieser Arbeit naher zu erklaren.

Brustkrebs

Wie bereits in der Einleitung erwahnt, erkranken laut dem National Cancer Institute 12.9% aller Frauen im Laufe ihres Lebens an Brustkrebs, damit sind Mammakarzinome eine der haufigsten Krebsarten bei Frauen. [2] 2.3 Millionen Frauen wurden 2020 weltweit mit Brustkrebs diagnostiziert, wovon 29.7% an den Folgen verstarben. [1]

Die osterreichische Krebshilfe beschreibt Krebs wie folgt: „Krebs ist die Bezeichnung fur eine Erkrankung, die durch ungebremste Zellvermehrung, bosartige Gewebsneubildung und Ausbreitung im Organismus gekennzeichnet ist. Die Entstehung von Krebs ist ein komplexer Prozess, dem vielfaltige ("multifaktorielle") Ursachen zugrunde liegen.“ [7]

In der weiblichen Brust befinden sich 15 bis 20 Lappchen. Jedes dieser Lappchen besteht auBerdem aus vielen kleineren Lappchen, den sogenannten Lobuli. Binde- und Fettgewebe befinden sich zwischen den Lobuli und dem Milchgang (dunne Gange, die die Lappchen mit den Brustwarzen verbinden). Brustkrebs entsteht dann, wenn die Zellen in der Brust unkontrolliert wachsen und dabei einen Tumor bilden. Diese Tumore konnen sowohl gut- als auch bosartig sein. [2]

Zu Beginn beschrankt sich das kanzerogene Wachstum auf die Milchgange und die Lobuli („in-situ“). Dabei treten kaum Symptome auf und das Risiko der Metastasenbildung ist gering. Es ist jedoch moglich, dass der in-situ (Stadium 0) Krebs das umliegende Brustgewebe befallt und sich dann in den Lymphknoten oder in andere Organe des Korpers ausbreitet. Bei Todesfallen sind meist weitgestreute Metastasen die Ursache. [1]

Vorkommen

2017 gab es in Osterreich 5417 Neuerkrankungen und mit einem Anteil von 30% aller Krebserkrankungen war Brustkrebs die haufigste Krebsart bei Frauen. Nur 62 der Erkrankten waren Manner. 1566 Frauen und 21 Manner starben an Mammakarzinomen, womit Brustkrebs die haufigste Krebstodesursache bei Frauen darstellt.

Im vergangenen Jahrzehnt blieb die Inzidenzrate (Inzidenz = ein MaB fur das Neuauftreten von Tumoren in einer bestimmten Bevolkerung wahrend eines bestimmten Zeitraumes) relativ stabil und die altersstandardisierte Sterberate nahm bei Frauen um 11% ab. Ungefahr 51% der Falle wurden im fruhen Stadium diagnostiziert und bei 20% wurde kein Stadium gemeldet (Stand Statistik Austria, 2020). Die einjahrige Uberlebensrate stieg von 2000-2004 bis 2015-2017 von 94% auf 95% und die funfjahrige Uberlebensrate bis 2010-2014 von 83% auf 87%. Dabei war die Rate bei Frauen hoher als bei Mannern (87% und 78%).

Die nachfolgende Graphik zeigt die Anzahl der Tumore nach Geschlecht und Zeit seit der Diagnose in Jahren.[8]

Abbildung 1: Brustkrebspravalenz (Quelle: Statistik Austria) [8]

Abbildung in dieser Leseprobe nicht enthalten

Risikofaktoren

Brustkrebs ist nicht ubertragbar und nicht infektios. Es gibt keine viralen oder bakteriellen Infektionen, die zur Entwicklung von Brustkrebs fuhren konnen, im Gegensatz zum Humanen Papillomavirus (HPV) und Gebarmutterhalskrebs. Ungefahr die Halfte der erkrankten Frauen haben keine identifizierbaren Risikofaktoren auBer das Geschlecht (weiblich) und das Alter (uber 40). Einige Faktoren konnen das Risiko von Brustkrebs erhohen. Dazu gehoren erhohtes Alter, Ubergewicht, Missbrauch von Alkohol, familiare Disposition, Strahlenexposition, Fortpflanzungshistorie (Alter der ersten Periode, Alter der ersten Schwangerschaft), Rauchen und Hormonersatztherapie. Die erwahnten Risikofaktoren sind jedoch nur fur 30% fur die Entwicklung von Brustkrebs verantwortlich. Der groBteRisikofaktor ist das Geschlecht „weiblich“. Nur 0.5-1% aller Manner werden im Laufe ihres Lebens mit Brustkrebs diagnostiziert. Familiare Disposition erhoht das Risiko ebenfalls, doch der GroBteil der Erkrankten hat kein Vorkommen in der Familie. Vererbbare Genmutationen konnen das Risiko stark erhohen, wobei die am haufigsten vorkommenden Mutationen in den BRAC1, BRAC2 und PALB-2 Genen vorliegen. Bei einer Mutation von einem dieser Gene konnen praventive MaBnahmen, wie eine Brustentfernung, in Erwagung gezogen werden. Diese MaBnahme ist jedoch invasiv und sollte gut uberlegt werden. Glucklicherweise sind nur sehr wenige Frauen von diesen Mutationen betroffen. [1]

Pravention

Bei dem Begriff Pravention wird zwischen Primar-, Sekundar-und Tertiarpravention unterschieden. Primarpravention versucht durch Beratung, Information und die Meidung bestimmter Risikofaktoren das Auftreten einer Erkrankung zu verhindern (zum Beispiel Vorsorgeuntersuchung bei Gynakolog/inn/en).

Die Sekundarpravention beinhaltet fruhzeitiges Erkennen und Behandlung, um somit die Dauer der Krankheit zu verkurzen, das Mortalitatsrisiko zu senken und das Risiko eines Wiederauftritts zu vermeiden (zum Beispiel Fruherkennungsprogramme wie „fruh erkennen“). Bei der Tertiarpravention geht es um die Reduzierung von Leid bei bereits aufgetretener Erkrankung mittels Information zum Umgang mit Hilfsmitteln.[9]

Diverse Verhaltensentscheidungen und Lebensstilveranderungen konnen das Risiko an Brustkrebs zuerkranken minimieren(= Primarpravention):

- Verlangertes Stillen
- Ausreichend Bewegung und Sport
- Gewichtskontrolle
- Vermeidung der missbrauchlichen Verwendung von Alkohol
- Vermeidung einer Tabakexposition (aktiv und passiv)
- Vermeidung einer verlangerten Einnahme von Hormonen
- Vermeidung von Strahlenexposition [1]

Fruherkennung

Im Rahmen einer gynakologischen Untersuchung tastet der/die Arzt/in ab dem 20. Lebensjahr die Brust ein- bis zweimal jahrlich ab. Eine Mammographie wird dadurch nicht ersetzt, da so nur stark spurbare Veranderungen bemerkt werden.

Das eigene Abtasten der Brust wird monatlich am Ende der Regelblutung empfohlen, da auchkleinere Veranderungen fruher erkannt werden konnen. Mit einer Mammographie konnen kleine Tumore festgestellt werden, die noch nicht ertastet wurden. Ab dem 40. Lebensjahr sollte diese Untersuchung alle zwei Jahre durchgefuhrt werden. „Fruh erkennen“, ein EU-weites Programm, wurde 2014 in Osterreich etabliert und richtet sich an vermeintlich gesunde Frauen beziehungsweise Frauen ab 40, die noch keine Mammographie durchgefuhrt haben, um sie uber FruherkennungsmaBnahmen aufzuklaren. Die Teilnahme ist freiwillig und fur sozialversicherte Frauen ab 40 auBerdem kostenlos. [7]

Symptome

Mammakarzinome entwickeln sich meist als schmerzlose Knoten oder als Verdickung des Brustgewebes. Personen, die einen abnormalen Knoten in ihrer Brust finden, sollten schnellstmoglich (innerhalb von ein bis zwei Monaten) eine/n Mediziner/in aufsuchen, auch wenn keine Schmerzen bestehen. Je fruher der Krebs erkannt wird, desto hoher ist die Uberlebensrate. [1]

Die haufigsten Symptome von Brustkrebs sind:

- Knoten in der Brust oder Verdickung
- Veranderung der GroBe, der Form oder des Aussehens der Brust
- Rotliche oder auBerliche Veranderung der Haut
- Veranderungen des Aussehens der Brustwarzen oder im Bereich um die Brustwarzen (Areola)
- Ungewohnlicher Ausfluss aus den Brustwarzen [1]

Es gibt viele Grunde fur die Entwicklung von kleinen Knotchen in der Brust, von denen die meisten (90%) nicht kanzerogen sind. Nicht-kanzerogene Brust-Anomalien beinhalten sowohl gutartige Massen wie Fibroadenome und Zysten, als auch diverse Infektionen.

Brustkrebs kann in unterschiedlichsten Weisen vorkommen, weshalb eine komplette medizinische Untersuchung unabdingbar ist. Frauen mit Anomalien, die langer als ein Monat andauern, sollten sich unbedingt untersuchen lassen. Dazu gehoren bildgebende Verfahren wie Mammographie und in manchen Fallen auch eine Biopsie.[1]

Tumor-Klassifizierung

Vor einer moglichen Behandlung ist die Identifizierung der Tumorform, die Klassifikation und das Stadium notwendig. Die TNM-Klassifikation berucksichtigt GroBe des Tumors, ortliche Ausdehnung, Lymphknotenbefall und Metastasen.

Dabei werden Tumore folgendermaBen eingeteilt:

- T = Primartumor
- N = Regionale Lymphknoten
- M = Metastasen

Dabei stehen Ziffern hinter dem Buchstaben fur die GroBe beziehungsweise Ausdehnung (T1-T4), Lage der Lymphknoten (N0-N1)und dasFehlen (M0) oder Vorhandensein (M1) von Metastasen. [7]

Therapie

Wird Brustkrebs rechtzeitig erkannt, kann die Behandlung sehr effektiv sein (Uberlebenswahrscheinlichkeit von 90%). Die Therapie besteht dabei meist aus einer operativen Entfernung der Brust, Strahlentherapien und Medikamenten (hormonelle Therapie, Chemotherapie oder gezielte, biologische Therapie). In der Vergangenheit wurden fast alle Brustkrebsfalle mit einer Mastektomie (kompletteEntfernung der Brust) behandelt. Heutzutage werde Mammakarzinome meist mit einem kleineren Eingriff, einer Lumpektomie oder einer partiellen Mastektomie behandelt - dabei wird nur der Tumor aus der Brust entfernt. In solchen Fallen ist eine Strahlentherapie notwendig, um dasRisikoeines Rezidivszu senken. Die Lymphknoten unter den Armenwurdenfruher ebenfalls zur Ganze entfernt, wohingegen heute ein kleinerer Eingriff namens Sentinel-Lymphknotenbiopsie bevorzugt wird, da hier weniger Komplikationen auftreten. Der Einsatz von Medikamenten geschieht entwedervor oder nacheiner Operation, dabei kommt esauf den Subtyp des Krebses an.

Krebsformen, die Estrogen-Rezeptoren (ER) und/oder Progesteron-Rezeptoren (PR) exprimieren, reagieren eher auf endokrine (Hormon-) Therapien wie zum Beispiel Tamoxifen und Aromatasehemmer. Diese Medikamente werden funf bis zehn Jahre eingenommen und konnen so das Risiko eines Rezidivs der „hormon-positiven“ Krebsarten um die Halfte reduzieren.

Krebs, der nicht ER oder PR exprimiert, muss mit Chemotherapiebehandelt werden, auBer der Tumor ist sehr klein. Derzeitige Chemotherapien sind sehr effektiv und erfordern keinen Aufenthalt im Krankenhaus.

Es kann vorkommen, dass Brustkrebs ein Molekul namens HER-2/neu vermehrt exprimiert. Diese „HER-2 positiven“ Krebsformen konnen mit gezielten biologischen Agenzien wie zum Beispiel Trastuzumab behandeltwerden. Da es sich hierbei um Antikorper handelt, sind diese Wirkstoffe sehr effektiv, aber auchsehr teuer. Diese Behandlungwird zusatzlich mit Chemotherapie kombiniert. Strahlentherapie wird im Anfangsstadium haufig angewandt, um eine Mastektomie zu verhindern. Wenn eine Mastektomie bereits durchgefuhrt wurde, kann eine Strahlentherapie das Risiko eines Wiederauftritts reduzieren. In spateren Stadien kann eine Strahlentherapie das Mortalitatsrisiko senken. Eine partielle Therapie allein fuhrt nur in wenigen Fallen zu einem positiven Ausgang der Behandlung. [1]

Nebenwirkung der Behandlung

Die chemischen Substanzen, die im Rahmen einer Chemotherapie verabreicht werden, wirken nicht nur auf die Krebszellen, sondern auch auf gesunde Zellen, die sich rasch teilen. Dazu zahlen die Zellen des Knochenmarks, des Verdauungstraktes und Haarfollikel. Haufig kommt es daher bei den Patient/inn/en zu Blutbildveranderungen, Ubelkeit, Erbrechen, Haarverlust und Mudigkeit. Nach dem Absetzen der Chemotherapie erholen sich die gesunden Zellen rasch. [7]

Data Mining im Gesundheitssektor

Die Menge an gesammelten Daten wachst von Tag zu Tag. In vielen Bereichen, wie Technik, Wirtschaft und Wissenschaft, wird die Notwendigkeit diese groBe Datenmenge verstehen zu konnen stetig groBer. Der medizinische Bereich deckt Informationen wie detaillierte Prozesse der Diagnose, der Behandlung und der Pravention von Erkrankungen und Verletzungen ab. In den meisten Landern entwickelt sich der Gesundheitssektor in rasantem Tempo. GroBe Mengen an Daten, wie elektronische Krankenblatter und administrative Reports, entstehen, jedoch werden diese zu selten genutzt, um neues Wissen zu generieren. [10]

Data Mining ist das Extrahieren von Informationen aus groBen Datensets. Die Generierung von nutzlichem Wissen aus riesigen Datensets und das Bereitstellen von Ergebnissen fur die Vereinfachung der Diagnose und die Behandlung von Erkrankungen sind im medizinischen Bereich essentiell. Data Mining kann zur Analyse und Vorhersage von Krankheiten verwendet werdenund hat groBes Potential, versteckte Muster in medizinischen Datensets zu identifizieren. Normalerweise werdenviele Tests an den Patient/inn/endurchgefuhrt, um eine Krankheit zu entdecken. Der Einsatz von Data Mining kann die Anzahl dieser Tests reduzieren. Arzt/inn/en werden dabei unterstutzt zu erkennen, welche Attribute am wichtigsten fur die Diagnose sind (wie zum Beispiel Alter, Gewicht, Symptome etc.). Auf diese Weise ist es fur medizinisches Personal moglich,Patient/inn/en effizienter und genauer zu diagnostizieren.

Die Erkenntnisgewinnung in Datenbanken ist der Prozess nutzliche Informationen und Muster zu finden. Dabei werden verschiedene Algorithmen verwendet, um diese Informationen zu extrahieren. Die einzelnen Phasen dieser Wissensgewinnung werden in Abbildung 2 graphisch dargestellt. Im ersten Schritt (Selektionsphase) werden (Roh-)Daten von verschiedenen Ressourcen gesammelt. Verrauschte und fehlende Daten werden im Vorverarbeitungsschritt entfernt und das Datenset gereinigt und danach (in der Transformationsphase) in ein passendes Format gebracht. Unterschiedliche Data Mining Techniken werden im vorletzten Schritt angewandt, um den erwunschten Output zu erhalten. Schlussendlich wird die Interpretation der Ergebnisse durchgefuhrt und neues Wissen generiert.[4]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Data Mining Prozess nach dem Beispiel von Ahmed, 2017[4]

Ein Review von Jothi et al. untersuchte 50 vorhandene Paper, die sich mit Data Mining im Gesundheitsbereich beschaftigten, um gangige Methoden ausfindig zu machen. Tabelle 1 stellt die einzelnen Data Mining - Disziplinen in den analysierten Artikeln dar. Die Anzahl gibt an, wie haufig diese verwendet wurden. [10]

Tabelle 1: Data Mining Disziplinen[10]

Abbildung in dieser Leseprobe nicht enthalten

Prinzipiell wird zwischen zwei Data Mining Modellen unterschieden: Vorhersagemodelle und deskriptive Modelle. Vorhersagemodelle sagen dabei unbekannte oder zukunftige Werte anderer Variablen mittels uberwachtem Lernen voraus. Deskriptive Modelle wenden haufig unuberwachtes Lernenan, um Muster zur Beschreibung der Daten zu erkennen. DasPaper von Jothi et al. zeigt, dass im Gesundheitsbereich vor allem Vorhersagemodelle genutzt werden (47 Vorhersagemodelle und 3 deskriptive Modelle wurden untersucht).

Fur deskriptive Modelle werden Methoden wie Clustering, Korrelationsanalyse und Assoziationsanalyse angewandt. Klassifikation, Regression und Kategorisierung werden fur Vorhersagemodelleverwendet. Diemeisten von Jothi etal. untersuchten Paper nutzen Klassifizierung fur DataMining im Gesundheitssektor. [10]

Data Mining - Methoden

Grundsatzlichwerden zwei Kategorien unterschieden - uberwachtes und unuberwachtes Lernen.

Beim uberwachten Lernenbasiert das Training auf einem Teil der Daten, diebereits richtig klassifiziert sind. Dazu zahlen Klassifikationstechniken wie Support Vector Machine, Diskriminanten Analyse, Naive Bayes, KNN, Entscheidungsbaume und Regression. Mithilfe von Fehlersignalen werden die Verbindungen der Gewichteangepasst.

Im Gegensatz dazuwird beim unuberwachten Lernenmit nicht-gekennzeichnetenDaten trainiert und die Kunstliche Intelligenz versucht versteckte Muster zu identifizieren. Der Vorteil dessen liegt darin, dass eventuell Muster erkannt werden konnten, die im Vorhinein nicht beachtet wurden. Clustering und Assoziationsanalyse sind Beispiele fur unuberwachtes Lernen.[4], [11]

Im Folgenden werden einige gebrauchliche Data Mining Methoden im medizinischen Bereich beschrieben.

Clustering

Beim Clustering werden Cluster aus Objekten mit gleichen Charakteristika automatisch erstellt. Die Technik definiert Klassen und fugt neue Objekte hinzu, bei denen die Klassen nicht vordefiniert sind. Zu den Cluster-Methoden zahlen unter anderem K-means, Fuzzy C-means, Rough C-means, Rough- Fuzzy C-means, Robust Rough-Fuzzy C-Means, hierarchisches Clustern und GauBsche Mischmodelle. [4]

Assoziationsanalyse

Die Assoziationsanalyse ist eine beliebte Methode, um interessante Beziehungen zwischen groBen Mengen von Daten zu finden. Verschiedene Techniken sollen dabei helfen, Regeln in Datensets zu identifizieren und wiederholt auftretende Muster, Assoziationen, Korrelationen und Kausalitaten zwischen einem Set von Objekten zu erkennen. Ein Beispiel ware die Analyse des Kaufverhaltens einschlieBlich der Warenkorbanalyse - es soll erkannt werden, welche Produkte Kund/inn/en basierend auf dem Einkauf ebenfalls kaufen wurden. Assoziationsanalysen konnen auch bei der Diagnose von Erkrankungen angewandt werden. [4]

Klassifikation

Klassifikation ist eine der am haufigsten verwendeten Data Mining Methoden im Gesundheitssektor. Die Klassifikation zahlt zu den uberwachten Lernalgorithmen. Bei einer Klassifizierung werden die vorhandenen Daten in ein vorgefertigtes Set von Gruppen oder Klassen eingeteilt. Verschiedene Techniken konnen bei einer Klassifikation verwendet werden. Mathematische Methoden wie Entscheidungsbaume, lineare Programmierung, neuronale Netzwerke und Statistik kommen zum Einsatz, um Daten zu klassifizieren. Moderne Klassifikation bietet auBerdem intelligente Losungen fur eine effektive Vorhersage von Krankheiten. Diese Methoden umfassen Support Vector Machines, KNN, Diskriminanten Analyse, Naive Bayes, Entscheidungsbaume (wie zum Beispiel C4.5) und lineare/logistische Regression. [4]

Allgemein werden zwei Methoden der Klassifikation unterschieden: binare und multi-Klassen Klassifikation. Bei der binaren Klassifizierung gibt es zwei mogliche Gruppen wie zum Beispiel „hohes“ und „niedriges“ Risiko an Brustkrebs zu erkranken, wahrend bei der multi-Klassen Klassifikation mehrere Klassen (zum Beispiel „hoch“, „mittel“ und „niedrig“) vorkommen.

[...]

Ende der Leseprobe aus 55 Seiten

Details

Titel
Vorhersage von Brustkrebs mittels Data Mining
Hochschule
Fachhochschule St. Pölten  (Data Science und Business Analytics)
Note
1
Autor
Jahr
2022
Seiten
55
Katalognummer
V1247995
ISBN (Buch)
9783346683861
Sprache
Deutsch
Schlagworte
vorhersage, brustkrebs, data, mining
Arbeit zitieren
Marlene Pirker (Autor:in), 2022, Vorhersage von Brustkrebs mittels Data Mining, München, GRIN Verlag, https://www.grin.com/document/1247995

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Vorhersage von Brustkrebs mittels Data Mining



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden