Data-Mining. Erkenntnisgewinn aus Datenanalyse


Seminararbeit, 2015

18 Seiten, Note: 1,3

Anonym


Leseprobe

Inhaltsverzeichnis

1 Einleitung
1.1 Motivation
1.2 Aufbau

2 Grundlagen
2.1 Definition von Data Mining
2.2 KDD - Knowledge Discovery in Databases
2.3 OLAP in Abgrenzung zum Data-Mining
2.4 Data Warehouse

3 Data Mining
3.1 Unterteilung der Data Mining Ziele
3.2 Data Mining Methoden
3.3 Spezielle Data Mining Methoden
3.3.1 Text Mining
3.3.2 Webmining

4 Fazit und Ausblick

5 Literaturverzeichnis

Abkürzungszeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1 Screenshot von amazon.de, erstellt am 20.03.2016

Abbildung 2 Beispiel Text Mining

1 Einleitung

1.1 Motivation

Diese Seminararbeit befasst sich mit dem Thema Data Mining und verfolgt das Ziel, einen Einblick in die Thematik, deren Umfang. Außerdem einen Ausblick auf die sich ergebenen Möglichkeiten. Gerade durch die wachsende Menge an anfallenden Daten in Unternehmen, aber auch dank das Wachstum des Web, sowie die große Popularität von Social Media Plattformen, gewinnt diese Form der Datenanalyse immer mehr an Bedeutung. Wo Data Mining früher nur für große Unternehmen interessant war, ist dieses heutzutage auch für mittelständische Unternehmen ein Begriff.

1.2 Aufbau

In dieser Seminararbeit, erfolgt nach einer kurzen Definition von Data Mining die Einordnung in den KDD-Prozess (Knowledge Discovery in Databases) sowie eine knappe Abgrenzung zu OLAP (On-Line Analytical Processing).

Darauf folgt eine Erläuterung des Data Warehouse, welches die zumeist verwendete Datenbasis beim Data Mining ist und im Anschluss daran werden die Standard Methoden des Data Mining sowie zwei spezielle Abwandlungen, das Text Mining und das Webmining erläutert.

2 Grundlagen

2.1 Definition von Data Mining

Der Duden definiert Data-Mining als „[halb] automatische Auswertung großer Datenmengen zur Bestimmung bestimmter Regelmäßigkeit, Gesetzmäßigkeiten und verborgener Zusammenhänge“. (Bibliographisches Institut GmbH). Als Metapher wird dabei oft die Vorstellung eines Bergarbeiters verwendet, der in zusammenhanglosen Datenbeständen nach Diamanten schürft, also im Fall von Data-Mining mithilfe von Algorithmen nach interessanten Mustern sucht, aus denen sich Aussagen ableiten lassen und damit Wissen entsteht. Diese Muster können auch bis dato noch nicht bekannte Zusammenhänge aufdecken. Zu beachten gilt, dass es sich bei Data Mining um einen Teilprozess des „Knowledge-Discovery-in-Databases“-Prozesses. Das schlussendlich generierte Wissen kann beispielsweise einem Unternehmen als Grundlage beziehungsweise als Unterstützung für strategische Entscheidungen dienen handelt (Prof. Dr. Lackes & Dr. Siepermann; Prof. Dr. Lackes).

Zu differenzieren gilt es hierbei, dass beim Data-Mining grundsätzlich keine neuen Daten geschaffen werden, sondern der Begriff ausschließlich die Gewinnung von Wissen aus schon vorhanden Daten bezeichnet. Dabei wird nach Mustern gesucht, die auch bisher unbekannte Zusammenhänge aufdecken können.

2.2 KDD - Knowledge Discovery in Databases

KDD bezeichnet einen Datenanalyseprozess zur Gewinnung von Informationen durch die Analyse von Datenbeständen. Der Kernpunkt des Prozesses ist die Anwendung von Data Mining. Beim KDD-Prozess handelt es sich um ein iteratives und interaktives Verfahren, denn bei der Analyse von Daten ist es notwendig, die Vorgehensweise nach jedem Schritt anhand des jeweils vorliegenden Resultats zu entscheiden. Aus diesem Grund ist es unerheblich, dass der Anwender ein solides Verständnis aus dem Fachbereich der zu analysierenden Daten hat.

Bei einem KDD-System handelt es sich um ein interaktives Werkzeug zur Analyse von Datenbeständen, bei dem es sich nicht um ein vollautomatisches System handelt. Schlussendlich hängt es vom Anwender ab, dass dieser die Ergebnisse und Muster interpretiert, auswertet und gezieltere Analysen starten kann. (vgl. Mannila, 1996, p. 3-4)

Grundsätzlich gibt es beim KDD-Prozess mehrere anerkannte Vorgehensmodelle, die sich insbesondere durch ihre Detailliertheit unterscheiden. Ein allgemeingültiges Vorgehensmodell gibt es nicht (vgl. Chamoni & Gluchowski, 2006, p. 246).

Im Folgenden werden fünf Schritte für die Suche nach Wissen in den Daten beschrieben. Zu beachten dabei ist, dass von jedem Schritt aus, nicht nur ein Schritt nach vorne, sondern auch zu einem der vorherigen Schritten zurückgegangen werden kann. Einzelne Schritte können sich sogar, je nach Resultat, wiederholen (vgl. Mannila, 1996, p. 2-3).

1. „understanding the domain“

Der Anwender muss sich in dem Bereich, aus dem Daten analysiert werden sollen, auskennen beziehungsweise sich, sofern notwendig, entsprechendes Fachwissen aneignen (vgl. Mannila, 1996, p. 2-3).

2. „preparing the data set“

Hierbei werden die Quellen ausgesucht, heterogene Datenbestände integriert und Fehler in diesen bereinigt. Fälle in denen dieser Schritt 80% der Gesamtzeit des KDD-Prozesses benötigen, sind keine Seltenheit (vgl. Mannila, 1996, p. 2-3).

3. „discovering pattern (data mining)

An diesem Punkt angekommen, ist es das Ziel, Zusammenhänge aus den vorhandenen Daten zu erkennen.

Daher wird Data Mining, welches den Hauptkern des KDD-Prozess darstellt, oft als Synonym für diesen verwendet. Beim Data Mining können verschiedene Methoden eingesetzt werden, um den Datenbestand zu analysieren (vgl. Mannila, 1996, p. 2-3).

4. „post processing of discovered patterns“

Nachdem Zusammenhänge entdeckt wurden, ist es die Aufgabe des Anwenders, die Ergebnisse zu interpretieren, Aussagen aus diesen abzuleiten und zu erkennen, welche Parameter-Veränderungen bei zukünftigen Analysen notwendig sein werden (vgl. Mannila, 1996, p. 2-3).

5. „putting the results into use“

Hiermit ist gemeint, dass explizit Wissen aus den ermittelten Mustern extrahiert wird, welches einen weiteren Nutzen für den Anwender oder das Unternehmen hat (vgl. Mannila, 1996, p. 2-3).

2.3 OLAP in Abgrenzung zum Data-Mining

Ein weiteres Instrument neben dem Data Mining ist „On-Line Analytical Processing“, abgekürzt OLAP. Anders als beim Data Mining, welches anhand von Algorithmen automatisch nach Mustern sucht, tritt der Anwender bei OLAP mehr in Interaktion mit dem System, indem gezielt Abfragen gestartet werden. Er stellt Hypothesen auf und versucht diese mittels Anfragen an das OLAP-System zu bestätigen beziehungsweise zu widerlegen (vlg. Baragoin, et al., 2001, p. 18).

Data Mining ermittelt also Verhältnismäßigkeiten, während es sich bei OLAP um eine Aggregation von Daten handelt (vgl. Mena, 2000, p. 74ff).

Bei Data Mining handelt es sich um eine Ergänzung zum OLAP. Mit Data Mining Methoden aufgestellte Hypothesen können beispielsweise durch OLAP Methoden verifiziert werden (vgl. Knobloch & Weidner, 2000).

2.4 Data Warehouse

Eine grundlegende Voraussetzung für das Data Mining und OLAP ist das Vorhandensein eines Datenbestands, zum Beispiel in Form eines Data Warehouse (vgl. Baragoin, et al., 2001, p. 21-22; vgl. Fayyad & Uthurusamy, 1996, p. 40).

Es handelt sich um eine Datenbank, welche losgelöst von operativen Systemen eine Momentaufnahme des Datenbestands mehrerer homogener operativer Datenbanken eines Unternehmen darstellt.

Dadurch, dass es sich um eine Momentaufnahme handelt, ändern sich die Daten des Data Warehouses nicht. Die nicht Veränderbarkeit der Daten führt dazu, dass unabhängig vom Abfragezeitpunkt bei Verwendung der gleichen Abfrage-Parameter, immer dasselbe Abfrage-Resultat herauskommt. Damit sind Auswertungen reproduzierbar und nachvollziehbar, wodurch sich das Data Warehouse optimal für Analysen eignet (Prof. Dr. Lackes & Dr. Siepermann).

Während ein operatives System zusätzlich, zumeist nach seiner Funktion ausgerichtet ist, handelt es sich beim Data Warehouse um ein themenorientiertes, nach betriebswirtschaftlich relevanten Themen aufgebautes System, welches alle relevanten operativen Datenquellen in einer Datenbank zusammenführt (vgl. Benander, et al., 2000, p. 75).

Zusammengefasst besteht ein Data Warehouse aus den drei Elementen Datenmanagement, Datenorganisation und Datenauswertung inklusive Aufbereitung. Datenmanagement ist dabei die Transformation der Daten in ein für das Data Warehouse nutzbares Format, während sich die Datenorganisation mit der physikalischen Datenspeicherung, der logischen Ablage und der Datenstruktur befasst. Die Auswertung erfolgt dabei über OLAP oder Data Mining Verfahren. Diese sind auf vorhandene große Datenbanken angewiesen, weshalb ein Data Warehouse oft als Datenbasis verwendet wird (vgl. Kollmann, 2013, p. 356-357).

3 Data Mining

3.1 Unterteilung der Data Mining Ziele

Welche Ziele die Wissensgewinnung hat, wird vom jeweils verwendeten System entschieden. Dabei werden zwei wesentliche Arten von Ziele unterschieden, die „Überprüfung“ und die „Entdeckung“. Letzteres wird dabei noch einmal in „Prognose“ und „Beschreibung“ unterteilt (vgl. Fayyad & Uthurusamy, 1996, p. 43).

1.Die Überprüfung / Verfication
2.Die Entdeckung / Discovery
a. Prognose / Prediction
=> „What could happen?“ (Halo Business Intelligence, 2014)
b. Beschreibung / Description
=> „What has happen?“ (Halo Business Intelligence, 2014)

Bei ersterem handelt es sich rein um das Überprüfen von Hypothesen des Anwenders. Dabei weiß der Anwender recht genau, was er überprüfen möchte und passt seine Anfrage entsprechend an.

Bei „Entdeckung“ wiederum handelt es sich um die suche nach unbekannten Mustern im vorliegenden Datenbestand. Dieser Punkt kann unterteilt werden in Prognose und Beschreibung (vgl. Fayyad & Uthurusamy, 1996, p. 43).

„Prognose“ ist die Suche nach Mustern, um Aussagen für das wahrscheinliche zukünftige Verhalten bestimmter Einheiten zu finden. Gleichzeitig lassen sich mit den Ergebnissen Voraussagen darüber machen, welche Auswirkungen die Veränderung gewisser Parameter hat. „Beschreibung“ wiederum stellt dem Benutzer in einer für Menschen interpretierbaren Form dar, was in der Vergangenheit geschehen ist und wie die Daten mit anderen in Zusammenhang stehen (vgl. Halo Business Intelligence, 2014; vgl. Fayyad & Uthurusamy, 1996, p. 43-44).

Während „Prognose“ damit ein Blick in die Zukunft ist, handelt es sich bei „Beschreibung“ um einen Blick in die Vergangenheit mit dem Ziel, aus dieser für zukünftige Entscheidungen zu lernen (vgl. Fayyad & Uthurusamy, 1996, p. 43-44).

[...]

Ende der Leseprobe aus 18 Seiten

Details

Titel
Data-Mining. Erkenntnisgewinn aus Datenanalyse
Hochschule
FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule
Note
1,3
Jahr
2015
Seiten
18
Katalognummer
V418160
ISBN (eBook)
9783668671324
ISBN (Buch)
9783668671331
Dateigröße
516 KB
Sprache
Deutsch
Schlagworte
Data Mining, KDD, Knowledge Discovery in Databases, OLAP, Text Mining
Arbeit zitieren
Anonym, 2015, Data-Mining. Erkenntnisgewinn aus Datenanalyse, München, GRIN Verlag, https://www.grin.com/document/418160

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Data-Mining. Erkenntnisgewinn aus Datenanalyse



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden