Fraud Detection. Data-Mining-Verfahren zur Aufdeckung von Abrechnungsbetrug im Gesundheitswesen


Masterarbeit, 2015
74 Seiten, Note: 1,0

Leseprobe

Inhaltsverzeichnis

Tabellenverzeichnis

Abbildungsverzeichnis

Abkürzungsverzeichnis

1 Einleitung

2 Data-Mining

3 Fraud
3.1 Risikoeinschätzung mithilfe des Fraud-Triangles
3.2 ÖkonomischeAspekte

4 Zusammenhang von Data-Mining und Fraud Detection

5 Datenanalyse
5.1 Begriffseinordnung
5.2 Prozess
5.2.1 Auswahl
5.2.2 Vorverarbeitung
5.2.3 Transformation
5.2.4 Data-Mining-Verfahren
5.2.4.1 Entscheidungsbaumverfahren
5.2.4.2 Künstliche Neuronale Netze
5.2.4.3 Clusterverfahren
5.2.4.4 Assoziationsanalyse
5.2.5 Interpretation
5.3 Data-Profiling
5.3.1 Analyse von Attributen
5.3.2 Analyse von Relationen

6 Data-Mining-Verfahren für Fraud Detection

7 Analyseprozess der Abrechnungsdaten
7.1 Auswahl
7.2 Vorverarbeitung und Transformation
7.3 Data-Mining-Verfahren
7.3.1 Clusterverfahren
7.3.2 Assoziationsanalyse
7.4 Interpretation

8 Fazit

Literaturverzeichnis

Anhang

A k-Means-Algorithmus für eine Clusterzuordnung von FraudÄrzten im Trainingsdatensatz mit unterschiedlichen Parametern
В Local Outliner Factor von FraudÄrzten im Trainingsdatensatz mit unterschiedlichen Parametern
C Local Outliner Factor von FraudÄrzten im Testdatensatz mit trainiertem Algorithmus
D Support- und Konfidenzwerte auf Basis der Gesamtmenge
E Support- und Konfidenzwerte des FraudArztes mit der ArztID
F Support- und Konfidenzwerte des FraudArztes mit der ArztID

Tabellenverzeichnis

Tabelle 1: Transaktionen mit Artikel in binär-codierter Form

Tabelle 2: Berechnung der Interessantheitsmaße

Tabelle 3: Ergebnisse einer Datentypanalyse

Tabelle 4: Übersicht der ausgewählten Daten

Tabelle 5: Schema der aggregierten Daten für die Clusteranalyse

Tabelle 6: Schema der aggregierten Daten für die Assoziationsanalyse

Tabelle 7: Ergebnisse der FraudÄrzte aus dem Trainingsdatensatz bei k-Means

Tabelle 8: Ergebnisse der FraudÄrzte aus dem Testdatensatz bei k-Means

Tabelle 9: Ergebnisse der FraudÄrzte aus dem Testdatensatz mit Local Outliner Factor

Abbildungsverzeichnis

Abbildung 1: Fraud-Triangle

Abbildung 2: Optimale Intensität der Anti-Fraud-Maßnahmen

Abbildung 3: Gegenüberstellung Data-Mining und Fraud Detection

Abbildung 4: Prozessdarstellung Knowledge Discovery in Databases

Abbildung 5: Zuordnung von Data-Mining-Verfahren zu Aufgabenstellung

Abbildung 6: Übersicht der einzelnen Attribute mit Kassenzugehörigkeit

Abbildung 7: Überangepasster Entscheidungsbaum

Abbildung 8: Aufbau einer Unit

Abbildung 9: Systematisierung der Clusterverfahren

Abbildung 10: Density-Based Spatial-Clustering-of-Applications-with-Noise-Punkte

Abbildung 11: Gegenüberstellung von k-Means und Density-Based Spatial Clustering of Applications with Noise

Abbildung 12: Erreichbarkeitsdistanz von Objekten

Abbildung 13: Item-Hierarchien für Obst und Joghurt

Abbildung 14: Verteilung der Kardinalitäten zwischen KUNDE und BESTELLUNG

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Die Ausgaben für das Gesundheitswesen beliefen sich in Deutschland im Jahr 2014 auf circa 314,9 Milliarden Euro.1 Es wird davon ausgegangen, dass etwa fünf bis sieben Prozent der Ge­samtkosten durch Betrug bei der Abrechnung entstehen.2 Die Konvergenz von neuen Kommu­nikationstechnologien und Innovationen aus dem Bereich der Telemedizin stimuliert in diesen Zusammenhang den Trend zu Big Data. Insbesondere das Datenvolumen im Gesundheitswesen ist hiervon betroffen und es wird zunehmend schwieriger, wertvolle Informationen zur Aufde­ckung von Abrechnungsbetrug aus der Datenflut zu extrahieren.3 Die Anwendungsmöglichkei­ten von Fraud im Gesundheitswesen sind vielfältig und umfassen neben einer Abrechnungsfäl­schung ebenfalls Rezeptfälschung und Chipkartenmissbrauch. Nach Ansicht des Bundeskrimi­nalamtes handelt es sich bei Abrechnungsfälschung um eine besonders sozialschädliche Form der Wirtschaftskriminalität, da die Integrität des Gesundheitswesens negativ beeinflusst wird.4

Die Mehrausgaben führen dabei zu steigenden Beiträgen für Krankenversicherungen. Ein Fehl­verhalten ist bei allen Gruppen der Leistungserbringer im Gesundheitswesen aufzufinden. Die Ärzte gehörten mit einem Anteil von 14,6 Prozent zur Leistungserbringergruppe, die am häu­figsten unter Tatverdacht steht.5 Jede Krankenkasse ist gesetzlich verpflichtet, eine Stelle zur Bekämpfung von Fehlverhalten im Gesundheitswesen einzurichten.6 Darüber hinaus kann ein Krankenversicherungsunternehmen mithilfe einer erfolgreichen Schadensbekämpfung einen Wettbewerbsvorteil erlangen.

Für die Abrechnung der deutschen Hausärzte, gegenüber den gesetzlichen Krankenkassen, ist die Kassenärztliche Vereinigung (KV) für die Versicherte im Kollektivvertrag und der Deut­schen Hausärzteverband e. V. für Versicherte im Selektivvertrag zuständig.7 Jedes dieser Un­ternehmen verfügt über ein Rechenzentrum zur Verarbeitung der Abrechnungsdaten. Die Ab­rechnungsdaten werden von den Arztinformationssystemen (AIS) entgegengenommen und den Krankenkassen gegenüber in Rechnung gestellt. Hauptaufgabe der Rechenzentren ist es eine korrekte Abrechnung gegenüber den Krankenkassen zu erstellen.

Ein System zur Aufdeckung von FraudÄrzten8 auf Basis von nicht-trivialen Informationen wurde bisher nicht entwickelt und könnte dazu beitragen, dass die Kosten im Gesundheitswesen gesenkt werden.

Ziel ist es, zu prüfen, wie Data-Mining-Verfahren zur Aufdeckung von Abrechnungsbetrug ge­nutzt werden können. Hierzu muss der Zusammenhang zwischen Fraud Detection und Data- Mining aufgezeigt werden. Ferner muss beantwortet werden, welche Data-Mining-Verfahren sich für Fraud Detection eignen. Darüber hinaus sind notwendige Schritte im Rahmen einer Datenanalyse zur Aufdeckung von Abrechnungsbetrug zu identifizieren.

Im Folgenden werden die Grundlagen von Data-Mining (vgl. Kapitel 2) und Fraud (vgl. Kapitel 3) erläutert. Die bisher einzeln betrachteten Begriffe „Data-Mining“ und „Fraud Detection“ werden anschließend in einen Zusammenhang gebracht (vgl. Kapitel 4). Zusätzlich wird ein Vorgehensmodell zur Datenanalyse vorgestellt und Data-Profiling-Methoden werden zur Verbesserung der Datenqualität aufgezeigt (vgl. Kapitel 5). Darüber hinaus wird der Einsatz von Data-Mining-Verfahren für Fraud Detection diskutiert und es findet, unter Berücksichti­gung der Zielsetzung, eine Auswahl statt (vgl. Kapitel 6). AufBasis des beschriebenen Vorge­hensmodells zur Datenanalyse aus Kapitel 5 und der Auswahl aus Kapitel 6 wird ein Vorgehen zur Analyse der Abrechnungsdaten aufgezeigt (vgl. Kapitel 7). Den Abschluss bildet ein Fazit (vgl. Kapitel 8).

2 Data-Mining

Im Folgenden werden die informationstheoretischen Grundlagen erläutert, da diese für ein Ver­ständnis der anschließenden Begriffsdefinitionen von Data-Mining notwendig sind. Ferner wird eine Arbeitsdefinition von Data-Mining festgelegt. Des Weiteren werden Anwendungsbereiche von Data-Mining aufgezeigt.

Die Semiotik ist die Lehre der Zeichen und kann zur Unterscheidung der Begriffe: Zeichen, Daten, Nachricht, Wissen und Information herangezogen werden. Die Betrachtung erfolgt auf syntaktischer, semantischer und pragmatischer Ebene.9

Auf der syntaktischen Ebene ist der Inhalt einer Information uninteressant. Eine Information wird hierbei abstrahiert und ausschließlich die physikalische Existenz betrachtet. Die kleinste Darstellungsmöglichkeit von Informationen sind Zeichen, welche das Grundelement zur Ab­bildung der Realität darstellt. Zeichen sind definiert als ein Element aus einer Darstellung von Informationen, aus einer endlichen Menge, welche als Zeichenvorrat definiert sind.10 Die ma­thematische Informationstheorie befasst sich mit der Informationsbetrachtung.11 Die Festle­gung von einer strukturellen Anordnung und Beziehung von Zeichen wird zur Abbildung realer Sachverhalte genutzt. Wenn Zeichen nach bestimmten Vorschriften zueinander in eine Bezie­hung gesetzt werden, entstehen Daten, welche den Übergang von einer syntaktischen zu einer semantischen Ebene darstellen.

Die Semantik ist umfassender als die Syntaktik und schließt den Bezug der inhaltlichen Be­deutung des Empfängers ein. Es ist möglich, dass einer syntaktisch eindeutigen Nachricht un­terschiedliche Sinngehalte zugeordnet werden können. Der Übergang von Daten wird durch die Deutung des Empfängers zu einer Nachricht. Eine vom Empfänger interpretierbare Nachricht kann die Bedeutung von Information erlangen und neues Wissen generieren bzw. vorhandenes Wissen erweitern. Die Wirkung der Informationen ist an die Inhalte der Information sowie die Fähigkeiten des Empfängers gebunden.

Die pragmatische Ebene umfasst den Bezug zur Wirkung und Zweck der Übermittlung von Zeichenketten. Im Vordergrund steht die zielgerichtete Wirkung einer Nachricht.

Der Begriff Data-Mining hat einen populärwissenschaftlichen Ursprung und ist aus der Meta­pher Bergbau abgeleitet, dessen Gegenstand der Abbau von Kohle in Erdmassen darstellt. Es handelt sich um ein interdisziplinäres Forschungsgebiet mit den angrenzenden Bereichen der Informatik, Mathematik und Statistik.12

Data-Mining umfasst die Extraktion und Entdeckung von implizitem, bisher nicht bekanntem und potentiell nützlichem Wissen aus Daten.13 An dieser Definition ist kritisch zu betrachten, dass Wissen nicht entdeckt werden, sondern neue Informationen das bestehende Wissen erwei­tern.

Ferner umfasst diese Definition keine explizite Forderung nach einem Automatismus, obwohl dies ein wesentliches Gütemerkmal von Data-Mining darstellt.14

Eine weitere Definition beschreibt Data-Mining als einen nicht-trivialen Prozess, indem mit­hilfe statistischer Verfahren, sichere Aussagen über neue nützliche und nicht offensichtliche Muster getroffen werden können.15

Die zweite Definition verwendet anstelle von „Information“ den Begriff „Muster“. Dies drückt eine Präzision aus, da primär Muster gefunden werden, aus denen Informationen abgeleitet werden können. Es handelt sich außerdem um einen Prozess. Es wird teilweise die Ansicht vertreten, dass Data-Mining aufgrund der Integration von Methoden aus der künstlichen Intel­ligenz und dem maschinellen Lernen weit über die Statistik hinausgeht.16

Als Arbeitsdefinition wird festgelegt, dass Data-Mining das Anwenden von statistischer Ver­fahren zur Erkennung von interessanten, nützlichen, nicht-trivialen und unbekannten Mustern in großen Datenbeständen ist. Data-Mining ist als Teilprozess oder Phase eines Gesamtprozess zur Datenanalyse zu betrachten, da die Vorbereitungsschritte für die Datenanalyse von Data- Mining nicht umfasst werden. Die statistischen Verfahren werden in Data-Mining-Algorithmen implementiert, welche sich in Data-Mining-Verfahren gruppieren. An dieser Stelle wird deut­lich, dass der Begriff Data-Mining-Verfahren nicht synonym zu Data-Mining verwendet wer­den kann.

Data-Mining kann untemehmensstrategische Entscheidungen beeinflussen und trägt zur Ver­besserung der Chancen im Wettbewerb bei.17 Anwendungsgebiete von Data-Mining können branchenübergreifend oder branchenabhängig sein. Zu einer branchenabhängigen Anwendung gehört beispielsweise das Churn Management für Telekommunikationsanbieter, bei dem Kun­denverhalten analysiert wird, um potentielle Kundenverluste zu vermeiden. Als branchenüber­greifendes Anwendungsfeld kann eine Kundensegmentierung zur Bewertung und Prognose des zukünftigen Kaufverhaltens aufgeführt werden.18

3 Fraud

In der Literatur gibt es keine einheitliche Begriffsdefinition für Fraud. Im Folgenden werden zwei bekannte Fraud Definition erläutert und anschließend eine Arbeitsdefinition für Fraud festgelegt. Es handelt sich um die Ausführungen des Instituts der Wirtschaftsprüfer Deutsch­lands e. V. (IWD) und der Association of Certified Fraud Examiners (ACFE).19

Das IWD definiert Fraud als beabsichtigte Verstöße gegen Rechnungslegungsgrundsätze, die zu falschen Angaben im Abschlussbericht führen. Zusätzlich wird der Begriff Fraud in die Ka­tegorien Täuschung, Vermögensschädigung und Gesetzesverstöße unterteilt. Unter dem Begriff der Täuschung ist die falsche Anwendung, in der Rechnungslegungsvorschriften und das unbe­fugte Ändern, in der Buchführung gemeint. Vermögensschädigungen bezeichnen Handlungen, die widerrechtlich auf das Aneignen oder Vermindern des Gesellschaftsvermögens ausgerichtet sind. Ein Gesetzesverstoß liegt vor, wenn das Unternehmen Schadensersatzverpflichtungen o­der Geldstrafen durch Verstöße bewusst nicht in der Rechnungslegung berücksichtigt.20 Das wesentliche Kriterium ist die Tatsache, dass Fraud immer die Rechnungslegung beeinflusst. Fraglich an dieser Definition sind korrupte Handlungen, bei denen die Auswirkungen nicht auf der Rechnungslegung zu erkennen sind, da das Unternehmen die Transaktionen in der Rech­nungslegung bilanziell korrekt abbildet. Es handelt sich daher um eine Definition im engeren Sinne.21

Die ACFE unterliegt keiner strengen juristischen, sondern folgt einer wirtschaftlichen Betrach­tungsweise. Es verweist auf folgende Definition. ,,A knowing misrepresentation of the truth or concealment of a material fact to induce another act to his or her detriment.“22 Es wird zwischen internen und externen Fraud unterschieden. Internes Fraud beschreibt die persönliche Bereiche­rung einer Person durch den Missbrauch der Ressourcen des eigenen Unternehmens. Externes Fraud ist vielseitig und beschreibt fraudulente Handlungen im Zusammenhang mit externen Personen oder Unternehmen. Als Beispiel können Preisabsprachen oder Industriediebstahl auf­geführt werden.23 Als Arbeitsdefinition ist Fraud als bewusster Betrug zum Zwecke der persön­lichen Bereicherung definiert.

Mithilfe der Prinzipal-Agenten-Theorie kann eine Begründung für Fraud hergeleitet werden. Der Prinzipal ist Auftraggeber und der Agent ist Auftragnehmer. Arbeitsteilung ist ein grund­legendes Prinzip einer jeden Unternehmung. Es existiert eine vertragliche Vereinbarung zwi­schen dem Prinzipal und dem Agenten. Dabei überträgt der Prinzipal dem Agenten bestimmte Rechte zur Auftragserfüllung. Ferner basiert die Theorie auf der Annahme, dass die individu­ellen und homogenen Interessen der Beteiligten ihr Handeln beeinflussen. Ziel beider Akteure ist eine Nutzenmaximierung. Der Gesamtnutzen des Agenten ist bestimmt durch die Höhe der Entgeltkomponente abzüglich seines Arbeitseinsatzes. Der Gesamtnutzen des Prinzipals ergibt sich aus dem Nutzen des Arbeitseinsatzes des Agenten, abzüglich seines Entgelts. Bedingt durch eine Aufgabendelegation liegt eine asymmetrische Informationsverteilung zwischen den Beteiligten vor. Hierdurch stehen dem Agenten diskretionäre Handlungsspielräume zur Verfü­gung, welche er ohne Kenntnisse des Prinzipals opportunistisch zum eigenen Vorteil nutzen kann. Der Begriff „moral hazard“ wird in diesem Kontext häufig verwendet und beschreibt das Ausnutzen diskretionärer Handlungsspielräume.24

Die Einführung einer Fraud-Strategie setzt in der Regel Domänenwissen voraus. Die Kompo­nenten Fraud Detection und Fraud Prevention sind Bestandteile einer effektiven Fraud-Strate­gie. Beide Komponenten werden zur Reduzierung von Fraud eingesetzt.25

Fraud Detection umfasst adäquate und effektive Maßnahmen zur Aufdeckung von fraudulenten Handlungen. Es wird ein Ex-Post-Ansatz verfolgt, der auf eine vergangenheitsorientierte Be­trachtung ausgelegt ist.

Fraud Prevention hat das Ziel, bestehenden Risiken vorzubeugen und Fraud zu verhindern, hierbei wird der Ex-Ante-Ansatz verfolgt, bei dem eine Zukunftsbetrachtung stattfindet.

Ein Fraud-Detection-System hat das Ziel fraudulente Handlungen automatisch aufzudecken. Die Einführung eines Real-Time-Fraud-Detection-System ist insbesondere bei hochskalierten Bezahlungssystemen sehr aufwendig, da diese meistens über die On-Line Transaction Proces­sing (OLTP) organisiert sind. OLTP ist durch eine direkte Verarbeitung der Transaktionen ohne nennenswerte Zeitverzögerung gekennzeichnet. Aus Performancegründen werden die Daten häufig nach abgeschlossenen Transaktionen auf Basis einer Kopie der Echtdaten analysiert.

In diesem Fall handelt es sich um Post-Payment-Detection. Der Schritt zum Pre-Payment-De­tection erfordert eine Integration des Fraud-Detection-Systems in das Produktivsystem ohne nennenswerte Zeitverzögerung der Transaktionen.26 27

Zur Vermeidung von Fraud kann ein Prinzipal Faktoren ansetzen, die sich im Fraud-Triangle systematisieren lassen. Im Folgenden wird das Fraud-Triangle erläutert (vgl. Abschnitt 3.1). Anschließend werden ökonomische Aspekte von Fraud Detection diskutiert (vgl. Abschnitt 3.2).

3.1 Risikoeinschätzung mithilfe des Fraud-Triangles

Das Fraud-Triangle ist ein Instrument zur Risikoeinschätzung von Fraud. Dabei wird die Nei­gung zu Fraud unter Berücksichtigung von drei verschiedenen Faktoren beschrieben. Es handelt sich um die Faktoren: Anreiz / Druck, Gelegenheit und innerliche Rechtfertigung, welche im Folgenden beschrieben werden.

Der Faktor Anreiz / Druck gibt den Grund an, warum Täter wirtschaftskriminell handeln. Ein häufiger Grund sind finanzielle Verpflichtungen, denen nicht nachgekommen werden kann. Darüber hinaus hat sich gezeigt, dass der Täter diesen Faktor selten mit keiner dritten Person teilt, da nach dessen Meinung dies mit einer Schwächung des gesellschaftlichen Bildes verbun­den sein würde.28

Eine Gelegenheit setzt voraus, dass der Täter den gewährten Handlungsspielraum nutzen kann und zusätzlich über ausreichende Fähigkeiten verfügt. Schwächen im Kontrollsystem führen dabei zu Gelegenheiten. Es wird häufig ein systematisches Vorgehen verfolgt, bei dem der Tä­ter das Kontrollsystem testet indem er z. B. einen unwesentlichen Betrag von einem Konto abhebt.29

Eine innerliche Rechtfertigung resultiert aus der Tatsache, dass der Täter sein Vorgehen als nicht kriminell ansieht oder sich nicht für sein Vorgehen verantwortlich fühlt. Die Gefahr von „moral hazard“ kann durch Anreiz- und Kontrollsysteme reduziert werden.

Unternehmen können einen Anreiz schaffen, indem sie den Nutzen des Arbeitnehmers durch die genannten Faktoren steuern und somit eine gemeinsame Interessensgrundlage schaffen.

Ein Kontrollsystem versucht den Faktor Gelegenheit zu eliminieren.30 Darüber hinaus ist es möglich, dass moralische Aspekte in die Unternehmenskultur einfließen, um eine Verschiebung der Grenze zwischen moralischen akzeptierten und nicht akzeptierten Verhalten des potentiel­len Angreifers zu bewirken. Hierdurch wird der Faktor innerliche Rechtfertigung positiv beein­flusst.31

3.2 Ökonomische Aspekte

Die Einführung von Maßnahmen zur Reduzierung von Fraud ist mit Kosten verbunden. Es muss im Vorfeld überprüft werden, ob der Nutzen den Kosten überwiegt. Eine genaue Quantifizie­rung von Kosten und Nutzen ist in den meisten Fällen nicht möglich. Dies ist dadurch begrün­det, dass indirekte Kosten, wie Reputationsschäden kaum messbar sind. Die Sensitivitäts- und Szenarioanalyse sind Beispiele für Instrumente des Risikomanagements zur Risikobewertung und Bestimmung eines optimalen Kosten-Nutzen-Verhältnisses.32 Das Kosten-Nutzen-Ver- hältnis von Präventiv-, Korrektur-, Lern- und Sicherheitswirkungen positiv beeinflusst. Dem gegenüber stehen dysfunktionale Wirkungen, welche einen negativen Einfluss haben. Eine prä- ventive Wirkung entsteht durch das Bewusstsein des Angreifers über die Existenz von Schutz­maßnahmen und hält ihn von der Durchführung fraudulenter Handlungen ab. Darüber hinaus können Kontrollaktivitäten eine Soll-Ist-Abweichung aufdecken und korrigierende Maßnah­men einleiten. Eine in die Zukunft gerichtete Lernwirkung kann durch die Beseitigung von Fehlerursachen erzielt werden. Des Weiteren entsteht eine Sicherheitswirkung bei dem Über­wachenden und dem Überwachten, die sich in der Zufriedenheit über die Bearbeitungsqualität wiederspielt.33 Eine dysfunktionale Wirkung entsteht, wenn der Angreifer die Anti-Fraud-Maß- nahmen als eine persönliche Herausforderung sieht und versucht, diese zu umgehen. Einen möglichen Verlauf der Kosten in Bezug auf die Anti-Fraud-Maßnahmen unter Einfluss der aufgeführten Wirkungen ist in Abbildung 2 dargestellt.

Abbildung 2: Optimale Intensität der Anti-Fraud-Maßnahmen34

Die Kurve „Fraudkosten“ ist unter der Annahme erstellt worden, dass bei linearer Erhöhung der Intensität der Anti-Fraud-Maßnahmen die Schadenshöhe unterproportional abnimmt. Diese Annahme ist auf die präventive Wirkung zurückzuführen, da ein Unternehmen durch erste Maßnahmen überdurchschnittlich viel Fraud vermeiden kann. Die Wirksamkeit der folgenden Maßnahmen ist auf die Kontroll- und Lernwirkung zurückzuführen. Demnach beschreibt die Kurve „Kosten der verbliebenen Fraud-Fälle“ die Effektivität der Anti-Fraud-Maßnahmen. Die Kostenkurve der Anti-Fraud-Maßnahmen ist mit Fokus auf die Effizient erstellt worden. Hier­bei wird angenommen, dass die Kosten der Anti-Fraud-Maßnahmen bei Erhöhung der Intensität überproportional steigen. Die Gesamtkostenkurve stellt die Summe der Schadens- und Kosten­kurve dar. Die optimale Intensität der Anti-Fraud-Maßnahmen ist im Minimum dieser Kurve.35

4 Zusammenhang von Data-Mining und Fraud Detection

Im Folgenden werden die zuvor definierten Begriffe Data-Mining (vgl. Kapitel 2) und Fraud Detection (vgl. Kapitel 3) in einen Zusammenhang gebracht. Abbildung 3 zeigt Überschnei­dungen und Unterschiede der beiden Themengebiete.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Gegenüberstellung Data-Mining und Fraud Detection

Es wird deutlich, dass Fraud Detection aus nicht-trivialen und trivialen Maßnahmen bestehen kann. Beispielsweise ist eine Fahrzeugkontrolle eine Maßnahme von Fraud Detection von der Data-Mining nicht betroffen ist. Data-Mining umfasst nur den nicht-trivialen Themenbereich, in dem z. B. Analytische Customer-Relationship-Management-Systeme eingesetzt werden. Zur Aufdeckung von Fraud kann Data-Mining genutzt werden, um aus bekannten fraudulenten Handlungen ein Muster abzuleiten. Diese Muster können verwendet werden, um weitere Täter im Datenbestand aufzudecken. Unter der Annahme, dass Täter von dem durchschnittlichen Ei­genschaften abweichen, können Verfahren zur Ausreißererkennung genutzt werden. Data-Ming lässt sich auf verschiedenen Datenbeständen anwenden und ist unabhängig von der Branche. Neben der Aufdeckung von Abrechnungsbetrug, wird Data-Mining beispielsweise bereits er­folgreich von Banken zur Erkennung von Kreditkartenmissbrauch eingesetzt.36 Zur Musterer­kennung muss der Data-Mining-Algorithmus durch überwachtes lernen trainiert werden. Dies bedeutet, dass bereits bekannte FraudÄrzte vorliegen müssen.37

5 Datenanalyse

Zu Beginn wird in Abschnitt 5.1 die interdisziplinäre Forschungsrichtung Knowledge Dis­covery in Databases definiert und von angrenzenden Einflussgebieten abgegrenzt. In Abschnitt 5.2 wird ein Prozess zur Datenanalyse erläutert. Der Abschnitt 5.3 befasst sich mit Data-Profi- ling-Methoden zur Verbesserung der Datenqualität.

5.1 Begriffseinordnung

Knowledge Discovery in Databases (KDD) hat das Ziel, in komplexen Datenbeständen implizit vorhandenes Wissen aufzudecken und explizit zu machen. Teilweise werden die Bezeichnun­gen Knowledge Extraction und Data Arcgaeology synonym verwendet.36 KDD ist eine inter­disziplinäre Forschungsrichtung. Zu den Haupteinflussgebieten gehören: Datenbanken, Statis­tik und Maschinelles Lernen. Im Folgenden werden Unterschiede zwischen KDD und den ge­nannten Haupteinflussgebieten aufgezeigt.

Im Gegensatz zu den Forschungsrichtungen Statistik, Datenbanken und Maschinelles Lernen, umfasst KDD den gesamten Prozess zur Wissensaufdeckung.37 Während die Analyse im KDD zu einer Hypothesengenerierung führt, werden Analyseansätze, wie z. B. On-Line Analytical Processing (OLAP) in der Forschungsrichtung Datenbanken genutzt, um Hypothesen zu veri­fizieren.38 Das Forschungsgebiet Maschinelles Lernen beschreibt eine kognitionswissenschaft­liche, theoretisch-technische und anwendungsorientierte Untersuchung von Lernphänome­nen.39 Im Gegensatz zum maschinellen Lernen, sind die zugrundeliegenden Datenbestände bei KDD häufig umfangreicher und die daraus resultierenden Verfahren auf Skalierbarkeit ausge­legt.40 Die Statistik unterscheidet sich in der Analyseform von dem KDD, da in der Statistik hauptsächlich Hypothesenverifizierung durchgeführt werden Im Gegensatz dazu, werden bei KDD Heuristiken als Analyseverfahren verwendet, die in Bezug auf die Eignung einer speziel­len Aufgabenstellung bewertet werden können.41

5.2 Prozess

Es existiert kein allgemeingültiges Prozessmodell zur Datenanalyse.42 Alle Modelle haben ge­meinsam, dass es sich um einen Prozess zur Identifizierung von nicht-trivialen, unbekannten und potentiell nützlichen Informationen aus Daten handelt. Der Prozessablauf ist iterativ als auch interaktiv und umfasst mehrere Teilprozesse.43 Einzelne Phasen oder der gesamte Prozess kann erneut durchlaufen werden. Bedingt durch die zentrale Bedeutung der Interaktivität, ist eine Automatisierung nur teilweise möglich.44 45 Das Forschungsgebiet KDD lässt sich als Pro­zess gemäß Abbildung 4 darstellen und wird im Folgenden als KDD-Prozess bezeichnet. Es handelt sich um eine idealtypische Prozessbeschreibung, die in der Praxis häufig anders umge­setzt wird. Es wird an dieser Stelle deutlich, dass Data-Mining nicht mit KDD synonym zu verwenden ist. Im Gegensatz zum Data-Mining umfasst KDD nicht nur die Ermittlung von Mustern in einer Datenbasis, sondern schließt den gesamten Prozess zur Wissensaufdeckung ein. Der KDD-Prozess ist in die Phasen: Auswahl, Vorverarbeitung, Transformation, Data-Mi­ning und Interpretation aufgeteilt, welche im Folgenden beschrieben werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Prozessdarstellung Knowledge Discovery in Databases 47

Die Überschrift „Data-Mining-Verfahren“ (vgl. Abschnitt 5.2.4) weicht von der Phasenbe­zeichnung „Data-Mining“ ab, da die Beschreibung der Verfahren im Vordergrund steht. Aus diesem Grund wurde Phasenbezeichnung „Data-Mining“ wurde in der Überschrift von Ab­schnitt 5.2.4 um den Begriff „Verfahren“ erweitert, da die Beschreibung der Data-Mining-Ver- fahren im Vordergrund steht.

5.2.1 Auswahl

In dieser Phase wird die Ausgangslage des KDD-Prozesses festgelegt. Zunächst muss die be­handelte Aufgabenstellung festgelegt werden. Ein Aufgabentyp kann die Entdeckung von im­plizitem Wissen zur Bearbeitung einer Aufgabenstellung sein. Außerdem ist es möglich, dass die Aufgabenstellung auf die Exploration von potentiell nützlichem Wissen ausgerichtet ist. Des Weiteren muss die Aufgabenstellung angemessen definiert sein. Angemessenheit ist in die­sem Fall dadurch definiert, dass die Aufgabenstellung allgemein genug formuliert ist, sodass Hypothesen generiert werden können. Andererseits muss die Aufgabenstellung konkret genug sein, um eine Erfolgsmessung durchzuführen. Anhand des verfügbaren Wissens ist zu prüfen, ob die Datenbasis eine geeignete Grundlage ist. Teilweise ist die erforderliche Datenbasis nicht oder beschränkt verfügbar. Dies ist häufig auf Daten zurückzuführen, die für die Geschäftspro­zesse eines Unternehmens von geringer Bedeutung sind und in den Datenbeständen der opera­tiven Quellsysteme nicht oder lückenhaft erfasst werden. Des Weiteren kann die Auswahl, die Verfügbarkeit der Datenbasis einschränken. Beeinflusst wird die Verfügbarkeit durch techni­sche, organisatorische und rechtliche Aspekte.46 Nicht kompatible Technologien führen zu ei­ner technischen Einschränkung. Technische Einschränkungen können durch nicht kompatible Technologien, wie z. B. handschriftliche Dokumente oder veraltete elektronische Speicherme­dien auftreten. Fehlende Zugriffsberechtigungen führen zu organisatorischen Einschränkungen der Verfügbarkeit. Rechtliche Einschränkungen resultieren aus den internationalen Daten­schutzgesetzen und dem Bundesdatenschutzgesetz (BDSG). Eine Verarbeitung von personen­bezogenen Daten unterliegt den genannten Gesetzen. Im BDSG wird das Prinzip der Zweck­bindung verfolgt. Die Verarbeitung von personenbezogenen Daten darf ausschließlich zu dem

Zweck, der bei der Erfassung der Daten festgelegt wurde, durchgeführt werden.47 Eine Zweck­veränderung ist nur mit Einwilligung des Betroffenen möglich.48 Unternehmenszusammen­schlüsse haben zur Folge, dass die Datenbestände aus unterschiedlichen Verarbeitungszwecken erfasst wurden und integriert werden. Die Globalisierung führt dazu, dass unterschiedliche Da­tenschutzniveaus erfüllt sein müssen. Anonymisierte oder pseudonymisierte Daten sind vom BDSG ausgeschlossen.49

5.2.2 Vorverarbeitung

In der Phase Vorverarbeitung werden die Daten integriert, reduziert, angereichert und bereinigt. Häufig stammen die ausgewählten Daten aus unterschiedlichen Quellsystemen und unterliegen unterschiedlichen Datenmodellen oder Datenbankschemas. In diesem Fall ist eine Integration der Daten notwendig. Bei einer Reduktion der Daten wird die Anzahl von Merkmalen im Da­tenbestand verringert. Dies führt zu einer vereinfachten Ermittlung von Datenmustern. In die­sem Zusammenhang ist eine Merkmalsextraktion und -selektion Voraussetzung für die Durch­führbarkeit einer Analyse.50 Die Anreicherung der Daten beschreibt das Hinzufügen von wei­teren Merkmalen für die Bearbeitung der Aufgabenstellung. Hierbei muss beachtet werden, dass eine Anreicherung zu einer höheren Komplexität und einem größeren Datenbestand führt. Es können Daten angereichert werden, indem aus vorhandenen Merkmalen weitere Merkmale abgeleitet werden. Des Weiteren können über Summen- oder Verhältnisbildung neue Merkmale entstehen. Zusätzliche externe Datenquellen, wie z. B. statistische Ämter können den Datenbe­stand anreichern. Teilweise führt dies zu höheren Beschaffungskosten und einer umfassenderen Datenbereinigung. Die Anzahl der Merkmale beeinflusst die Komplexität der Analyse. Häufig ist es in umfangreichen Datenbeständen notwendig, dass die Anzahl der Merkmale reduziert wird.51 Zusätzlich findet in der Vorverarbeitungsphase die Bereinigung der Daten statt, dabei ist das Ziel eine hohe Datenqualität zu erreichen, da die Analyse sonst fehlerhafte Ergebnisse liefern würde. Es existieren fünf Problemfelder die im Rahmen der Datenbereinigung berück­sichtigt werden müssen, diese lauten: Fehlende Werte, fehlerhafte Werte, Ausreißerwerte, Re­dundanzen und Inkonsistenzen. Fehlende Werte lassen sich leicht erkennen und treten häufig in Datenbeständen auf. Manche Data-Mining-Verfahren lassen sich nicht auf fehlende Werte anwenden, sodass Maßnahmen zur Beseitigung fehlender Werte ergriffen werden müssen.52 Es besteht die Möglichkeit, dass die Datensätze mit fehlenden Werten komplett entfernt werden oder ein Ersatzwert, wie beispielsweise Vorgabe- oder Mittelwerte, diese auffüllen.53 Fehler­hafte Werte sind schwierig zu erkennen und entstehen durch Unachtsamkeit bei der manuellen Datenerfassung oder wurden zu Betrugszwecken bewusst falsch eingegeben.

Es existieren verschiedene statistische Verfahren zur Aufdeckung derartiger Fehler.54 Ausreiß- erwerte sind gekennzeichnet durch eine starke Abweichung von anderen Werten, die den Nor­malbereich bilden. Zunächst muss der Normalbereich definiert werden, damit Ausreißer gefun­den werden können. Das Problemfeld Redundanz beschreibt die Speicherung derselben Infor­mation an unterschiedlichen Stellen. Die Analyseergebnisse können verfälscht werden, da die mehrfache Speicherung von Objekten eine falsche Gewichtung ergeben. Redundantes Attribut ist die Ausprägung Mann oder Frau mit dem Attribut Anrede, neben dem Attribut Geschlecht.55 Das Problemfeld Inkonsistenzen im Datenbestand resultiert meistens aus einer Datenintegra­tion. Eine Fehlerquelle sind unterschiedliche Bezeichnungen für semantisch identische Daten­werte.56 Beispielsweise können, wie in (1) dargestellt, unterschiedliche Ausprägungen dasselbe Geschlecht beschreiben.

{m,w}und{0,1}. (1)

Ferner besteht die Möglichkeit, den gesamten Datenbestand in Trainings- und Testdaten aufzu­teilen. Lernende Data-Mining-Verfahren wie z. B. Künstlich Neuronale Netze oder Clusterver­fahren können mit unterschiedlichen Parametern trainiert werden, sodass ein zuvor bekanntes Ergebnis erzielt wird. Anschließend werden die Testdaten zur Überprüfung der Parameteraus­wahl verwendet.

[...]


1 Vgl. Statistisches Bundesamt 2015, S.1.

2 Vgl. Pricewarterhouse Cooper 2012.

3 Vgl. Ärzteblatt 2014.

4 Vgl. Bundeskriminalamt 2004, S. 100.

5 Vgl. Pricewarterhouse Cooper 2012.

6 Vgl. §197a SGB V.

7 Vgl. Bundesministerium für Gesundheit 2015.

8 Ärzte, die in der Vergangenheit Abrechnungsbetrug begangen haben, werden im Folgenden FraudÄrzte genannt.

9 Vgl. Schneiders 1990, S. 151f.

10 Vgl. Heinrich et al. 2003, S. 569.

11 Insbesondere die Forschungen im Bereich der Nachrichtencodierung und die Arbeit „The Mathematical Theory of Communication“ wirkten nachhaltig. Vgl. Shannon und Weaver 1949.

12 Vgl. Petersohn 2005, S. 4 ff.

13 Vgl. Frawley et al. 1992, S. 53 ff.

14 Vgl. Petersohn 2005, S. 8.

15 Vgl. Fayyad et al. 1996a, S. 545.

16 Vgl. DeckerundFocardi 1995, S. 3 ff.

17 Vgl. Chamoni und Budde 1997, S.1.

18 Vgl. Petersohn 2005, S. 15f.

19 Vgl. Nimwegen 2009, S. 3.

20 Vgl. Institut der Wirtschaftsprüfer Deutschland 2010, S. 7.

21 Vgl. Nimwegen 2009, S. 5 ff.

22 Garner 2004, S. 143.

23 Vgl. Association of Certified Fraud Examiners 2015.

24 Vgl. Nimwegen 2009, S. 15 f.

25 Vgl. Baesens et al. 2015, S. 10 f.

26 Konkrete Lösungsvorschläge liefert beispielsweise IBM. Eine Fraud-Business-Architektur ist auf die Basis von Predictive Analytics aufgesetzt. Hierbei wird die Anwendungen IBM DB2 Analytics Accelerator als Verbindung zwischen den operativen Daten und den Analysedaten verwendet, sowie der IBM SPSSS Mo­deler 15 Real-Time-Scoring zur Erstellung von Trendprognosen. Vgl. Ebbers et al. 2013, S. 9 ff.

27 Cressey 1973, S. 30.

28 Vgl. Wells 2008, S. 13 ff.

29 Vgl. Martenstein 2011, S. 96 ff.

30 Vgl. Alparslan 2006, S. 33.

31 Vgl. Grabner-Kräuter 2013, S. 207 f.

32 Vgl. Brugger 2009, S. 349 ff. Des Weiteren werden Methoden zur quantitativen Bestimmung von Risiken aufgeführt in Cottin und Döhler 2013, S. 5 ff.

33 Vgl. Baetge 1996, S. 178 f. und Argyris 1990, S. 503 f.

34 In Anlehnung an Nimwegen 2009, S. 22.

35 Vgl. Nimwegen 2009, S. 20 und Schewe et al. 1999, S. 1485.

36 Vgl. Gehra 2005, S. 57.

37 Vgl. Krahletal. 1998, S. 62.

38 Vgl. Chen et al. 1996, S. 866 ff.

39 Vgl. Fayyad et al. 1996a, S. 561 ff.

40 Vgl. Frawley et al. 1992, S. 57 ff.

41 Vgl. Morik 1993, S. 31 f.

42 Vgl. Mitchell 1997, S.31 ff.

43 Vgl. Hand 1999 S. 16 ff.

44 Die Begriffe Vorgehensmodell und Prozessmodell werden in diesem Zusammenhang häufig synonyme verwendet. Vgl. Freiknecht 2014, S. 16 f. und Sharafi 2013, S. 56 ff.

45 Vgl. Adriaans und Zantinge 1996, S. 6 ff.

46 Vgl. Fayyad und Stolorz 1997, S. 99 ff.

47 In Anlehnung an Fayyad et al. 1996a, S. 567. Aus Gründen der Vereinheitlichung wurde die ursprüngliche Phasenbezeichnung „Data Mining“ angepasst in „Data-Mining“.

48 Vgl. Düsing 2014, S. 281.

49 § 28 BDSG.

50 §4 BDSG.

51 § 3a BDSG.

52 Vgl. Wittmann undRuhland 1998, S. 81 ff.

53 Vgl. Pyle 1999 S. 8 ff.

54 Vgl. Feelders 1999, S. 330 ff.

55 Vgl. Pyle 1999, S. 272 ff.

56 Beispiele für diese Verfahren gibt Meidan o. J. in der Beschreibung des Programms WizRule.

Ende der Leseprobe aus 74 Seiten

Details

Titel
Fraud Detection. Data-Mining-Verfahren zur Aufdeckung von Abrechnungsbetrug im Gesundheitswesen
Hochschule
Europäische Fachhochschule Brühl  (Wirtschaftsinformatik)
Note
1,0
Autor
Jahr
2015
Seiten
74
Katalognummer
V317789
ISBN (eBook)
9783668168930
ISBN (Buch)
9783668168947
Dateigröße
1502 KB
Sprache
Deutsch
Schlagworte
fraud, detection, data-mining-verfahren, aufdeckung, abrechnungsbetrug, gesundheitswesen
Arbeit zitieren
Raoul Könsgen (Autor), 2015, Fraud Detection. Data-Mining-Verfahren zur Aufdeckung von Abrechnungsbetrug im Gesundheitswesen, München, GRIN Verlag, https://www.grin.com/document/317789

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Fraud Detection. Data-Mining-Verfahren zur Aufdeckung von Abrechnungsbetrug im Gesundheitswesen


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden