Name: Unscharfe Dublettensuche in Unternehmens-Adressbeständen
Price: 0.99 EUR
Availability: InStock
Author: Mag. (FH) Michael Langerhorst
ISBN: 978-3-640-21748-9

The subject of this diploma thesis is „Fuzzy data cleansing in adress databases“, which is a subarea of data quality management (DQM). Due to the vast size of DQM, this limitation was necessary. The subtitle “Concept for evaluation, implementation and the sustainable operation of software solutions for fuzzy data cleansing” already gives a hint to the research question “What does such a concept look like?”. To answer the question elaborately,
literature research and interviews with experts within diverging branches were carried out.
The target groups of this thesis are task forces, who are (or will be) responsible for the implementation and the operation of fuzzy data cleansing within their companies. The first passage of the thesis is about the clarification of fuzzy data cleansing and about the ways duplicate copies can occur. After reaching a consistent knowledge base, the potential benefits are illuminated from different perspectives. The most extensive part is a
reference of needs. The task force can sample out needs for their own catalog of requirements. The needs of this reference can also be adapted or complemented to meet the individual needs of the company.
Subsequently, tools for evaluation of the software solutions and hints for a sustainable implementation are part of this thesis. Last but not least a calculating base for a cost-benefit analysis tries to give some arguments for financial discussions. In German banks the direct costs of inadequate data quality were (in the year 2007) between 8 and 25 percent of their turnover.2 Honestly, duplicate copies are only one aspect of the problem, but they are a good reason to start improving data quality.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Forschungsfrage
2.1 Abgeleitete Zusat zfragen
2.2 Abgren zung - was ist nicht Thema dieser Diplo marbeit?
2.2.1 1 Technologische Funktionsweise der Dublettens uche
2.2.2 2 Adresspflege

3 Grundlagen zum Thema Dubletten
3.1 Definition: Dublette (in Adressbestän den)
3.2 Wie kön nen Dubletten entstehen?
3.3 Unterschied: scharfe und unscharfe Dublettens u..c..h..e

4 Nutzen v on bereinigten Adressbe ständen
4.1 Höhere Kunden - und Mitarbeiter zufrieden heit
4.2 Kostenvorteile
4.2.1 1 Druck - , Porto - und Imagekosten
4.2.2 2 Prod uktivitätssteigerung
4.2.3 3 Effektivere Bonitätsprüfung
4.3 Bessere Entscheidu ngsgrundlage
4.3.1 1 CRM- Auswertu ngen
4.3.2 2 Cross - Selling
4.4 Beitrag zum Umweltschut z
4.5 Freie IT - Ressourcen
4.6 Zusa m menfassu ng

5 Voraussetzungen für die Einführung v on Dublettensuch - Software
5.1 Mitarbeiter
5.2 Technologie
5.2.1 1 Zentrale Datenhaltu ng
5.2.2 2 Möglichst vollstän dige Adressen
5.2.3 3 Zugriffsberechtigungen
5.3 Prozesse
5.3.1 1 Fehler - Report - Syste m
5.3.2 2 Adressverantwortliche

6 Erstellung eines Anforderungskatalogs
6.1 Infrastruktur
6.1.1 1 Plattfor m
6.1.2 2 Architektur
6.2 Integration in bestehen de Syste me
6.2.1 1 Schnittstellen
6.2.2 2 Laufzeitu mgebungen
6.2.3 3 Echtzeitu mgebungen
6.2.4 4 Software - Module
6.2.5 5 Reaktions zeit
6.3 Datenbasis
6.3.1 1 Datenfor mat
6.3.2 2 Sprache und Zeichensatz
6.3.3 3 Anza hl der Adressdatensätze
6.4 Varianten der Dublettensuche
6.4.1 1 Dublettensuche im Batch - Verfahren
6.4.2 2 Dublettensuche im Online - Verfahren
6.4.3 3 Negativ - Abgleich mit externen Adressen
6.4.4 4 Differen zierung zwischen Intra - und Inter dubletten
6.4.5 5 Positiv - Abgleich
6.5 Verarbeitu ngso ptionen der Dublettensuche
6.5.1 1 Übereinstim mungsgenauigkeit
6.5.2 2 Gewichtung der einzelnen Adressfelder
6.5.3 3 Cluster management
6.5.4 4 Nor malisierung
6.5.5 5 Wissensbasierte Methode
6.5.6 6 Trennen und Versch melzen von Adressfeldern
6.5.7 7 NULL- Vergleich
6.5.8 8 Profile
6.6 Ergebnisdarstellung
6.6.1 1 Direkt am Bildschir m
6.6.2 2 Übergabe an die Unterneh me nssoftware
6.6.3 3 Export als Tabelle
6.7 Versch melzu ng von Dubletten
6.8 Statistik
6.9 Referenz - Datenbank
6.9.1 1 Einzigartiges Suchergebnis
6.9.2 2 Controlling für die Bereinigung der Dubletten
6.10 Anwen deru nterstützung
6. 10.1 ISO 9001: 2000
6.10.2 2 Schulung
6.10.3 3 Doku me ntation
6.10.4 4 Hilfefunktion
6.11 Anbieterübersicht

7 Werkzeuge für die Evaluierung
7.1 Standar ds der Evaluierung
7.1.1 1 Nützlichkeit
7.1.2 2 Durchführbarkeit
7.1.3 3 Fairness
7.1.4 4 Genauigkeit
7.2 Suche und Auswahl der Anbieter
7.2.1 1 Recherche pote n zieller Anbieter
7.2.2 2 der erste Eindr uck
7.2.3 3 Auswahl der Kandidaten für die Evaluieru ng
7.2.4 4 Testversionen anfor dern
7.3 Testu mgebu ng für die Evaluierung
7.3.1 1 Auswahl der Test - Adressen
7.3.2 2 Auswahl der zuvergleichenden Adressfelder
7.3.3 3 Cluster management
7.3.4 4 Bekannte und unbekannte Dubletten
7.3.5 5 Nor malisierung und Wissens datenbank
7.4 Ergebnisse vergleichen
7.4.1 1 Schnitt menge der einzelnen Ergebnisse
7.4.2 2 Kaskadierung der Dublettensuche
7.5 Reaktions zeit der Online - Dublettensuche
7.5.1 1 Schnittstellen
7.5.2 2 Auslastung
7.5.3 3 Adressbestand
7.6 Perfor mance der Batch - Suche
7.7 Anbieterbefragung

8 Interviewsmit Experten und Praktikern
8.1 Interview Gerald Dan zmair MBA OÖ Nachricht e..n
8.1.1 1 Adressen und Imports
8.1.2 2 Mitarbeiter
8.1.3 3 Dublettensuche
8.1.4 4 Bereinigung
8.1.5 5 Nor malisierung und Wissens datenbank
8.2 Interview Dr. Siegfried Spiessberger WKOÖ / W.i.f.i
8.2.1 1 Adressen
8.2.2 2 Mitarbeiter
8.2.3 3 Dublettensuche
8.2.4 4 Bereinigung
8.2.5 5 Lessons learne d
8.3 Interview mit eine m Inkasso - Institut
8.3.1 1 Adressen
8.3.2 2 Mitarbeiter
8.3.3 3 Dublettensuche und Bereinigung
8.4 Interview mit OÖ Meinungsforsch u ngsinstitut
8.4.1 1 Adressen und Imports
8.4.2 2 Mitarbeiter
8.4.3 3 Dubletten
8.4.4 4 Dublettensuche und Bereinigung
8.5 Interview mit eine m österreichischen Versan d haus
8.5.1 1 Adressen und Dubletten
8.5.2 2 Proble me und Kosten d urch Dubletten
8.5.3 3 Mitarbeiter
8.5.4 4 Dublettensuche und Bereinigung
8.5.5 5 Nor malisierung und Wissens datenbank
8.5.6 6 Support und Wartung
8.6 Interview mit eine m Teleko mmunikations u nterneh men
8.6.1 1 Adressen und Dubletten
8.6.2 2 Mitarbeiter
8.6.3 3 Dublettenpr üfung und Bereinigung
8.6.4 4 Preselection

9 Einführung und nachhaltiger Betrieb
9.1 Technische Einführu ng der Dublettensuche
9.2 Betroffene betriebliche Prozesse nachhaltig gestalten
9.2.1 1 Bereinigung der Dubletten
9.2.2 2 Dubletten als Chance für bessere Adress - Importe
9.2.3 3 Entscheidungsko m peten ze n neu verteilen
9.2.4 4 Umgang mit Belegdaten
9.2.5 5 Fehler - Report - Syste m
9.2.6 6 Dublettensuche im Batch - Modus
9.2.7 7 Online - Dublettens uche
9.2.8 8 Magisches Dreieck

10 Kosten / Nutzen - Rechnung
10.1. Studienergebnisse
10.2.. Kosten
10.2.1 Initialkosten
10.2.2 Betriebskosten
10.3 Nut zen. Einsparu ngs poten zi.a..l
10.3.1 Anza hl der Dubletten
10.3.2 Analyse der Kunde n
10.3.3 Analyse der internen Prozesse
10.4.. Berechn u ngssche ma

11 Fazit

12 Glossar

13 Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Kom m u nikation mit de m Käufer

Abbildung 2: Ansatz p u nkte z u r Datenqualitätsverbesseru ng

Abbildung 3: Unvollstän dig angelegte Adressen

Abbildung 4: Server - Client - Architektur

Abbildung 5: Integrationsbeispiel: IntelliCleaner Enter prise

Abbildung 6: DQ Real Time Server (www.uniserv.co m)

Abbildung 7: Negativ - Abgleich mit Fuzzy Dupes

Abbildung 8: Beispiel Intra - und Interdubletten

Abbildung 9: Gewichtung der ein zelnen Adressfelder

Abbildung 10: Such matrix von AdressCenter (Quelle: Omikron)

Abbildung 11: Cluster Nachna me

Abbildung 12: Cluster Straße

Abbildung 13: Cluster Ort

Abbildung 14: Auswahl von Cluster in Fuzzy Dupes

Abbildung 15: Schwellenwert Cluster (Fuzzy Dupes)

Abbildung 16: Beispiele für Normalisierung

Abbildung 17: Nor malisierungen bearbeiten in Fuzzy Dupes

Abbildung 18: Trennu ng und Versch melz u ng ein zelner Adresselemente

Abbildung 19: Trennen u. Versch melzen von Adressfelder n (AdressCenter - Omikron)

Abbildung 20: Beispiel NULL- Vergleich

Abbildung 21: NULL- Vergleich in Fuzzy Dupes

Abbildung 22: Beispiel Ergebnisliste a m Bildschir m (Omikron AdressCenter)

Abbildung 23: Zusa m me nführen von Dubletten in q.adress (ACS)

Abbildung 24: Ergebnis von q.adress (ACS)

Abbildung 25: Prozess mo dell Batch - Suche mit Referen z - DB

Abbildung 26: Prozess mo dell Dubletten - Controlling

Abbildung 27: Anbieterübersicht

Abbildung 28: Eignung der einzelnen Adressfelder z ur Dublettens uche

Abbildung 29: Beispiel absichtlich eingepflegter Dublettengrup pen

Abbildung 30: Beispiel Schnitt menge Ergebnisse (Dublettensuche)

Abbildung 31: Poten zial der Kaskadierung von Dublettensuche

Abbildung 32: Verantwortungsbereich von Daten - Qualitäts - Management

Abbildung 33: Magisches Dreieck

Abbildung 34: Wirkungskette der u nscharfen Dublettensuche

Zusammenfassung

In dieser Diplomarbeit wird ein Teilbereich von Datenqualitätsmanagement (DQM), nämlich die unscharfe Dublettensuche, beschrieben. Aufgrund des großen Umfangs der Thematik von DQM war eine Einschränkung auf diesen Teilbereich erforderlich. Der Untertitel „ Konzeptfür Evaluierung, Einführung und zum nachhaltigen Betrieb von Softwarelösungen zur unscharfen Dublettensuche “ deutet bereits auf die Forschungsfrage „ Wie kann so ein Konzept aussehen? “ hin. Um die Frage ausführlich beantworten zu können, wurden neben der Literaturrecherche Interviews mit Experten aus den unterschiedlichsten Branchen (durch)geführt.

Unter Dubletten werden in diesem Fall Adressen, die doppelt oder mehrfach gespeichert sind und sich meist geringfügig voneinander unterscheiden, verstanden. Die Problematik lässt sich zum Teil auch auf Produktdatenbanken und ähnliches übertragen.

Zielgruppe dieses Leitfadens bzw. Konzepts sind Projektgruppen, die in Unternehmen für die Einführung und den nachhaltigen Betrieb der unscharfen Dublettensuche verantwortlich sind oder sein werden.

Was genau unter (un-)scharfer Dublettensuche zu verstehen ist und wie Dubletten entstehen können, wird im ersten Abschnitt erklärt. Nachdem eine einheitliche Wissensbasis geschaffen wurde, werden die Nutzenpotenziale von unscharfer Dublettensuche aus unterschiedlichen Perspektiven beleuchtet. Der umfangreichste Teil ist eine Referenz-Sammlung von Anforderungen, die an die Softwarelösung zur unscharfen Dublettensuche gestellt werden können. Die Projektgruppe kann für ihren eigenen individuellen Anforderungskatalog jene auswählen, welche für das Unternehmen relevant sind, sie entsprechend adaptieren und um eigene Anforderungen ergänzen.

Anschließend werden Werkzeuge zur Evaluierung der Softwarelösungen und Hinweise für eine nachhaltige Einführung vorgestellt. Abschließend wird der Projektgruppe eine Kalkulationsgrundlage für eine eigene Kosten-Nutzen-Rechnung vorgestellt, die Argumente für eine Budgetverhandlung beinhaltet.

In deutschen Banken bewegen sich die direkten Kosten für mangelnde Datenqualität zwischen 8 und 25 % des Umsatzes.¹ Dubletten sind nur ein Teil dieses Problems, deren Bereinigung ein erster Schritt zur Verbesserung der Datenqualität ist.

Abstract

The subject of this diploma thesis is „ Fuzzydata cleansing in adress databases “, which is a subarea of data quality management (DQM). Due to the vast size of DQM, this limitation was necessary. The subtitle “ Conceptfor evaluation, implementation and the sustainable operation of software solutions for fuzzy data cleansing ” already gives a hint to the research question “What does such a concept look like ? ”. To answer the question elaborately, literature research and interviews with experts within diverging branches were carried out.

The target groups of this thesis are task forces, who are (or will be) responsible for the implementation and the operation of fuzzy data cleansing within their companies.

The first passage of the thesis is about the clarification of fuzzy data cleansing and about the ways duplicate copies can occur. After reaching a consistent knowledge base, the potential benefits are illuminated from different perspectives. The most extensive part is a reference of needs. The task force can sample out needs for their own catalog of requirements. The needs of this reference can also be adapted or complemented to meet the individual needs of the company.

Subsequently, tools for evaluation of the software solutions and hints for a sustainable implementation are part of this thesis. Last but not least a calculating base for a cost-benefit analysis tries to give some arguments for financial discussions.

In German banks the direct costs of inadequate data quality were (in the year 2007) between 8 and 25 percent of their turnover.² Honestly, duplicate copies are only one aspect of the problem, but they are a good reason to start improving data quality.

Danksagung

An dieser Stelle möchte ich mich bei allen bedanken, die dazu beigetragen haben, dass diese Diplomarbeit zu dem geworden ist, was sie ist. Bei meiner Partnerin Andrea, die mir die Zeit gelassen hat, die ich brauchte. Bei meinem Betreuer Dr. Gerold Wagner, der immer ein offenes Ohr für mich hatte und so manches kritisch hinterfragte. Bei der OÖ Tourismus Technologie GmbH, bei der ich ein Projekt im Bereich Dublettensuche mitgestalten durfte. Last but not least bei allen Professoren, Lektoren und Kollegen, von denen ich so vieles in den vergangenen vier Jahren lernen durfte.

Vorwort

Das Thema dieser Diplomarbeit entstand während meines Praktikums bei der OÖ Tourismus Technologie GmbH³, welches ich im Wintersemester 2007 absolvierte. Eines der Projekte umfasste die Evaluierung von Softwarelösungen zur Dublettensuche⁴ im Adressbestand des Oberösterreich Tourismus. Ursprünglich sollte das neu eingeführte CRM-Programm⁵ die Dublettensuche durchführen. Mit aufwändigem Programmieraufwand wurde das CRM-Programm angepasst. Trotzdem wurden viele Adressdubletten nicht gefunden, wie sich später herausstellte. Drei Softwarelösungen für die Dublettensuche erfüllten unsere Anforderungskriterien und wurden evaluiert.

Während der Evaluierungsphase kamen viele Fragen auf und das anfänglich kleine Projekt wurde zunehmend komplexer. Ihnen, werte Leser, soll diese Diplomarbeit als Leitfaden zur Evaluierung, Einführung und zum nachhaltigen Betrieb der unscharfen Dublettensuche dienen.

„Data QualityManagementumfasstdie ganze Skala

vom Commitment derUnternehmensführung, über Prozesse, Dokumentation, Return on Investment, Risikoprofilierung bis hin zu den Tools,

die eingesetzt werden,umdie Datenqualität zu verbessern und zu sichern.“

Dr. Holger Wandt

(Principal Advisor beim CRM-Anbieter Human Inference)⁶

Gender-Hinweis

Aus Gründen der besseren Lesbarkeit wird in diesem Dokument bei Personenbezeichnungen die männliche Form verwendet, obwohl die weibliche und männliche Form gemeint ist.

1 Einleitung

Doppelte Zusendungen in Form von Werbung oder ähnlichem kennt fast jeder. Früher wurde damit argumentiert, dass es zu teuer wäre, diese doppelten Adressen aus der Datenbank zu entfernen. Heute helfen moderne Softwarelösungen diese effizient aufzuspüren. Moderne Softwarelösungen helfen dabei und finden auch dann doppelte Adressen, wenn diese unterschiedlich geschrieben sind (was meistens auch der Fall ist). Mittels Integration in bestehende IT-Systeme können Dubletten damit sogar bereits bei ihrer Entstehung effektiv verhindert werden.

Eine manuelle Dublettensuche ist schon ab 5000⁷ Adressen nur mit großem Aufwand möglich. Software hilft bei der Vorauswahl von potenziellen Dubletten. Die Entscheidung, ob es sich um richtige oder falsche Dubletten handelt, kann in letzter Instanz nur der Mensch treffen. Die Software kann maximal eine Vorauswahl treffen.

Datenqualität ist für viele Unternehmen zu einem strategischen Faktor geworden. Die intelligente Verwaltung der Daten in einem Unternehmen ist keine kurzfristige Aktivität, sondern stellt sich als kontinuierlicher Prozess dar, in dem alle Daten stets aktuell, korrekt, vollständig, eindeutig, administrierbar, kosteneffektiv und akzeptabel sind.⁸

Die Dublettensuche ist das Kernthema dieser Diplomarbeit. Gleichzeitig muss darauf hingewiesen werden, dass die Korrektheit und Vollständigkeit der Daten ebenso wichtig sind wie deren Redundanzfreiheit⁹.

2 Forschungsfrage

Diese Diplomarbeit soll folgende Forschungsfrage beantworten bzw. behandeln:

„Wie sieht ein Konzept zur Evaluierung, Einführung und zum nachhaltigen Betrieb von Dublettensuch-Software aus?“

2.1 Abgeleitete Zusatzfragen

Aus dieser globalen Forschungsfrage ergeben sich folgende untergeordnete Fragen:

- Wie können Dubletten entstehen?
- Welche Probleme können dadurch auftreten?
- Welcher Nutzen entsteht aus bereinigten Adressbeständen?
- Welche exemplarischen Software-Anforderungen gibt es?
- Welche (neuen) Anforderungen werden an die betrieblichen Prozesse gestellt?
- Welche Werkzeuge können für die Evaluierung der Software eingesetzt werden?
- Was ist bei der Implementierung der Software zu beachten?
- Durch welche Maßnahmen können Dubletten nachhaltig verhindert werden?
- Welche Einsparungspotenziale gibt es in diesem Zusammenhang?

Es gibt nicht DAS Konzept, welches für jedes Unternehmen passt, ohne modifiziert zu werden. Aus diesem Grund soll in dieser Arbeit ein möglichst breites Spektrum an Anforderungen und Herausforderungen im Zusammenhang mit Dublettensuche beleuchtet werden. Sie soll als Basis für die Erstellung eines eigenen Konzepts dienen, welches auf die jeweiligen Bedürfnisse abgestimmt ist.

2.2 Abgrenzung - was ist nicht Thema dieser Diplomarbeit?

Folgende Themen stehen in engem Zusammenhang mit der Dublettensuche, würden aber den Rahmen dieser Diplomarbeit sprengen. Trotzdem möchte ich auf die Wichtigkeit der einzelnen Vorsorgemaßnahmen zur Erhaltung und Erlangung von nahezu vollständigen und korrekten Daten hinweisen.

2.2.1 Technologische Funktionsweise der Dublettensuche

Die mathematischen Algorithmen, Fuzzy-Logic, Pattern-Matching, Phonologie, Trigramm-Vergleiche, wissensbasierte Methoden und andere (technologische) Hintergründe zur Dublettensuche sind für Entwickler¹⁰ sehr interessant, spielen aber in der Anwendung der Software eine untergeordnete Rolle. Wichtig ist vor allem das Ergebnis.

2.2.2 Adresspflege

Durch Umzug und Sterblichkeit haben Adressen eine relativ kurze Gültigkeitsdauer. Sterberegister und Umzugsdatenbanken können erheblich dazu beitragen, die Adressen auf dem aktuellen Stand zu halten und somit eine kontinuierliche Kommunikation mit dem Kunden (bzw. dem Lieferanten) ermöglichen. Bei Firmenadressen können sich die Ansprechpartner aber auch der Firmenname selbst ändern. Sogar Straßennamen und Postleitzahlen (Beispiel: Einführung neuer PLZ in Deutschland 1993¹¹ ) sind nicht für immer gültig.

Insbesonders bei A-Kunden¹² sollte unbedingt darauf geachtet werden, dass diese Adressen aktuell sind und bleiben. Die Überprüfung der Adressdaten kann mittels Outsourcing¹³ zugekauft oder durch Implementierung von entsprechender Software durchgeführt werden.

Neben Umzugsund Sterbedatenbanken gibt es auch noch die so genannte Robinsonliste¹⁴ . In diese Liste können sich Personen eintragen lassen, die keine persönlich adressierte Werbung zugestellt bekommen wollen. Ein Abgleich mit dieser Liste stellt sicher, dass diese Empfänger gefiltert werden, bevor das Mailing verschickt wird. Dieser Vorgang setzt wiederum postalisch korrekte Adressen voraus.

Einige Dienstleister bieten auch Daten über die Bonität von Personen an. Durch Abgleich mit diesen Listen, vermindert sich das Risiko, Mailings an bekannte „s chwarze Schafe “ zu versenden und danach auf unbezahlten Rechnungen „sitzen zu bleiben“.

EU, UNO und USA führen so genannte Boykott- oder Sanktionslisten¹⁵ in denen Unternehmen gelistet werden, gegen die ein Embargo verhängt wurde. Human Inference ist einer der Hersteller, die den Adressbestand hinsichtlich dieser Adressen durchsuchen können.¹⁶

3 Grundlagen zum Thema Dubletten

3.1 Definition: Dublette (in Adressbeständen)

Unter einer Dublette versteht man das zweioder mehrmalige Vorhandensein derselben Adresse innerhalb eines Adressbestands. Insbesonders leichte Abweichungen in der Schreibweise (zB Umlaute), Abkürzungen von Vornamen oder Lesefehler bei Hausnummern (zB 36 statt 3b) sind dafür verantwortlich.¹⁷

3.2 Wie können Dubletten entstehen?

Dubletten können sowohl aus technologischen als auch aus „menschlichen“ Gründen entstehen. Mitarbeiter, denen die Fertigkeit zu präzisem Arbeiten fehlt, die nicht motiviert sind, Schwierigkeiten haben sich zu konzentrieren oder einfach nur überlastet sind, verursachen bei der Eingabe leichte Vertipper oder Verdreher¹⁸ , die beim Suchen dieser fehlerhaften Adresse dafür sorgen, dass sie nicht gefunden werden. Meist wird die Adresse neu angelegt, obwohl sie schon vorhanden wäre. Fehlende Berechtigungen beim Ändern von Adressen oder das Anlegen von einzelnen Firmen-Abteilungen als „Firmenadressen“ können ebenfalls zu Dubletten führen.¹⁹

Ein beliebter Fehler ist auch das Vertauschen von Vorund Nachnamen . Namen wie zB Thomas Hermann lassen schwer erkennen, welcher Name nun der Vorname ist. Werden die Daten in das falsche Feld eingetragen, finden klassische Datenbanken den bereits vorhandenen Eintrag nicht. Aber auch Namen von Personen mit Migrationshintergrund führen speziell bei telefonischer Übermittlung immer wieder zur Missverständnissen und in Folge zur Anlage von Dubletten.²⁰

Werden Adressen zugekauft oder im Unternehmen verteilte Adressdatenbanken zusammengeführt , ist eine gute Dublettensuche unbedingt notwendig, wenn doppelte Einträge weitestgehend vermieden werden sollen. Voneinander unabhängige Adressdatenbanken innerhalb des Unternehmens können auf unterschiedliche Weise entstehen:

- Fusionen von Unternehmen
- scheinbar unabhängige Vertriebsabteilungen
- Insellösungen von Mitarbeitern

Hat nun ein Käufer Kontakt mit zwei Verkäufern eines Unternehmens, die jedoch unterschiedliche Kundendatenbanken verwenden, kann es bei Überschneidungen hinsichtlich der Anfrage oder des Kundenproblems schnell zu Irritationen und Frusterlebnissen auf beiden Seiten kommen. Eine einheitliche Datenbasis, wie sie in der rechten unteren Abbildung zu sehen ist, würde den Kundenkontakt wesentlich vereinfachen und zu einer höheren Kundenund Mitarbeiterzufriedenheit führen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung1 : Kom m u nikation mit de m Käufer

Ein prominentes Beispiel für den obigen Fall ist die Zusammenführung der separaten Polizzensysteme von Swiss Life Niederlande (Versicherungsunternehmen). Vor der Zusammenführung gab es insgesamt etwa 1.000.000 Adressen verteilt auf vier Systeme, die nach Produktgruppen gegliedert waren. Nachdem eine einheitliche Kundenverwaltungsumgebung geschaffen wurde, konnte der Adressbestand ohne „Verluste“ auf 450.000 reduziert werden. Viele Kunden hatten mehr als eine Versicherung bei Swiss Life und wurden deshalb mehrfach in den vier Polizzensystemen angelegt.²¹

Die Online-Überprüfung bei der Eingabe von Adressen reagiert bei den Datenbankbasierten Lösungen meist nur auf exakte Übereinstimmungen. Sobald die Eingaben leicht abgeändert sind, liefern sie keine Ergebnisse im Gegensatz zu modernen Systemen, die nach ähnlichen Einträgen suchen.

Abweichungen bei Adressen können auch verbal bedingt sein. Gründe dafür können sprachliche Barrieren (zB Sprachfehler oder fehlende Sprachkenntnisse) sein. Undeutliche Aussprache im direkten oder telefonischen Kontakt sind leider auch keine Seltenheit und nicht jeder Mitarbeiter fragt so oft nach, bis er sich sicher ist, alles richtig verstanden zu haben.²² Absichtlich abweichende Adressdaten (bei Betrugsversuch), die vom Kunden selbst angegeben werden, können, genauso wie schlampig ausgefüllte Webformulare, zu Dubletten führen.²³

Medienbrüche verursachen oft Fehlinterpretationen. Ursachen dafür können beispielsweise eine undeutliche Handschrift oder schlecht lesbare Faxnachrichten sein. Von einem Medienbruch spricht man, wenn Daten manuell zB von Papier auf elektronische Systeme übertragen oder aber auch maschinell mittels OCR-Software²⁴ interpretiert werden müssen.²⁵

Namensänderungen²⁶ und Umzug können ebenso zu Dubletten führen, wenn die Adressen neu angelegt werden, anstatt die bestehenden zu aktualisieren. Sehr schwierig wird die Auffindung von Dubletten wenn Umzug und Heirat (mit Namensänderung) gleichzeitig stattfindet.²⁷

Zitat von Holger Helmold (GF der CRM-Beratung LoyalQ):

„Die hauptsächliche Schwachstelle für eine hohe Datenqualität

ist der Faktor Mensch.“

3.3 Unterschied: „scharfe“ und unscharfe Dublettensuche

Die scharfe Dublettensuche stellt für herkömmliche Datenbanken kein Problem dar.

Scharfe Dubletten sind ident wie folgendes Beispiel zeigt:

Abbildung in dieser Leseprobe nicht enthalten

Klassische Datenbanken können solche Dubletten leicht finden.

Unscharfe Dubletten sind für den Menschen oft ebenso leicht zu identifizieren wie scharfe Dubletten. Für Datenbanken stellt eine solche Identifikation aber eine große Herausforderung dar, weil es sich rein mathematisch um ganz unterschiedliche Adressen handelt wie folgende Beispiele zeigen:

Aus Gründen der besseren Lesbarkeit steht in diesem Dokument das Wort „Dublettensuche“ immer als Synonym für die unscharfe Dublettensuche (außer wenn aus dem Zusammenhang heraus die klassische (scharfe) Dublettensuche gemeint ist, wie in obigem Beispiel).

4 Nutzen von bereinigten Adressbeständen

Bei einer Adressdatenbank (die häufigen Änderungen unterworfen ist) gibt es den Idealzustand der hundertprozentigen Dublettenfreiheit nur in Ausnahmefällen, und wenn, dann nur über eine begrenzte Zeit hinweg. Mit der unscharfen Dublettensuche kann jedoch der Idealzustand näherungsweise erreicht werden. In diesem Kapitel wird der Nutzen von einem von Dubletten bereinigten Adressbestand herausgearbeitet.

Eine Nutzenbetrachtung ist wichtig, weil die Anschaffungskosten im IT-Bereich fast immer mit einem (finanziellen) Mehrwert für das Unternehmen begründet werden müssen. Dieser Mehrwert kann durch niedrigere (Prozess-)Kosten, aussagekräftigere CRM- Daten, gesteigerter Mitarbeiterzufriedenheit und einem besseren Image des Unternehmens generiert werden.

4.1 Höhere Kundenund Mitarbeiterzufriedenheit

Bei Reklamationen besteht die Gefahr, dass es zu Missverständnissen kommt, wenn die Reklamation vom Bearbeiter nicht nachvollzogen werden kann, weil die „falschen“ Kundendaten aufgerufen wurden und der Grund der Reklamation in dieser Dublette nicht ersichtlich ist. Im schlimmsten Fall wird der Kunde „abgewimmelt“, im besten Fall wird (auf beiden Seiten) Zeit durch die neuerliche Suche der richtigen Kundendaten vergeudet.

Sind die Bestellungen und Umsätze nicht auf mehrere Dubletten verteilt, wird Mahnproblemen durch falsche Saldi vorgebeugt.²⁸

4.2 Kostenvorteile

4.2.1 Druck-, Portound Imagekosten

Dubletten verursachen bei Mailings nicht nur unnötige Mehrkosten (durch Druck und Porto), sie sind sogar oft kontraproduktiv. Im besten Fall kommt die Dublette als Postrückläufer²⁹ retour und der Kunde hat nichts gemerkt. In vielen Fällen erzeugen die Mehrfachmailings, die beim Kunden ankommen, einen negativen Eindruck, der sich zusätzlich verstärkt, wenn Teile der Adresse nicht (mehr) richtig sind. Gibt der Kunde diese Erfahrung auch noch durch negative Mundpropaganda weiter, multipliziert sich der Image-Schaden.

Diese Kosten können durch Implementierung von unscharfer Dublettensuche vermieden werden.³⁰

4.2.2 Produktivitätssteigerung

Eine erfolgreiche Implementierung steigert zusätzlich die Produktivität. Die Reaktionszeit in Zusammenhang mit Anfragen kann durch die Reduzierung von Korrekturund Recherchetätigkeiten minimiert werden. Reklamationen können effizienter behandelt werden, da die damit verbundenen Kundendaten einer eindeutigen Adresse zugewiesen sind.

4.2.3 Effektivere Bonitätsprüfung

Die unscharfe Dublettensuche kann aber auch vor zahlungsunwilligen Kunden schützen, die bewusst unter leicht unterschiedlichen Identitäten Waren bestellen, aber nie bezahlen.³¹ Ein Abgleich der eigenen Adressdaten mit einer hausinternen „schwarzen Liste“ oder denen von Kreditschutzverbänden kann helfen, die leicht modifizierten Adressen von Kunden mit schlechter Bonität zu identifizieren.

4.3 Bessere Entscheidungsgrundlage

Auswertungen und Analysen von Kundendatenbanken bzw. CRM-Systemen dienen oft als Entscheidungsgrundlage für die Unternehmensführung, Marketing und Vertrieb.

Dubletten führen zu verfälschten Ergebnissen beim analytischen CRM und vermindern die Erfolgsquoten beim operativen CRM.³²

4.3.1 CRM-Auswertungen

Erst wenn der Umsatz eines Kunden nicht mehr auf mehrere Dubletten verteilt ist, kann eine ABC-Analyse korrekt durchgeführt werden. Andernfalls könnte ein A-Kunde, der mehrfach als Dublette im System aufscheint, sehr leicht als B- oder C-Kunde identifiziert werden. Dies gilt auch für die Segmentierung in Stammkunden und gelegentliche Kunden. Während bei der ABC-Analyse der Umsatz zählt, ist bei der Segmentierung in Stammkunden und gelegentliche Kunden³³ das Bestelldatum der ausschlaggebende Faktor. Zu beach ten ist jedoch, dass Statistiken, die Kundenzahlen darstellen, nach der Bereinigung nicht mehr ohne weiteres mit den Statistiken der vergangenen Jahre vergleichbar sind.³⁴

4.3.2 Cross-Selling

Wirksames Cross-Selling³⁵ wird durch Dubletten ebenfalls verhindert, weil die einzelnen Daten verteilt gespeichert sind und der Kunde das Angebot möglicherweise schon wahrgenommen hat und nicht versteht, warum es ihm noch einmal angeboten wird. Ebenso können Aktion und Reaktion nicht eindeutig zugeordnet werden.³⁶

4.4 Beitrag zum Umweltschutz

Indem man Kunden nicht mehr mit Mehrfachmailings belästigt, wird gleichzeitig die Umweltbilanz des Unternehmens verbessert, weil die Mailings weder gedruckt, noch versendet werden müssen.

4.5 Freie IT-Ressourcen

Im Beispiel von Swiss Life³⁷ (siehe Seite 15) wurde der Adressbestand mehr als halbiert. Dies steigert die Performance der zugrunde liegenden Datenbank, die sich in schnelleren Responsezeiten bemerkbar macht. Die verringerte Anzahl von Adressen bedeutet gleichzeitig auch wiedergewonnene Speicherkapazität.

4.6 Zusammenfassung

Die unscharfe Dublettensuche bietet neben deutlichen Kostenvorteilen auch noch eine Produktivitätssteigerung, welche mit einer höheren Mitarbeiterund Kundenzufriedenheit einhergeht. Die höhere Qualität der CRM-Daten führt zu besseren Analysen und zieht bessere Entscheidungen nach sich. Die nicht gedruckten Mailings und die geringere Auslastung der Server verbessern obendrein die Klimabilanz des Unternehmens.

5 Voraussetzungen für die Einführung von Dublettensuch-Software

Es gibt drei Bereiche, die einen (in-)direkten Einfluss auf die Qualität der Daten haben: Mitarbeiter, Prozesse und Technologie sind Ansatzpunkte für die Datenqualitätsoffensive.³⁸

Abbildung in dieser Leseprobe nicht enthalten

Abbildung2 : Ansatzpunkte zur Datenqualitätsverbesserung

5.1 Mitarbeiter

Bewusstseinsbildung bei allen beteiligten Mitarbeitern ist der erste Schritt zur Erhöhung der Datenqualität. Noch vor Einführung der Software sollte im Rahmen einer Informationsveranstaltung auf die wesentlichen Vorteile dieser Software hingewiesen werden. Gleichzeitig soll durch begleitende Schulungsmaßnahmen die Bedeutung von Kundendaten als einer der wesentlichsten Produktionsfaktoren des Unternehmens hervorgehoben werden. Eine höhere Datenqualität kann nur durch gemeinsame Anstrengungen erreicht werden und resultiert in folgende Nutzenpotenziale (wie im vorigen Kapitel bereits beschrieben), die sich direkt auf die Mitarbeiterund Kundenzufriedenheit auswirken:

- weniger Korrekturen, Umbuchungen und Recherchetätigkeiten
- höhere Treffsicherheit bei Cross-Selling
- Dialog mit Kunden wird vereinfacht und verbessert
- kürzere Reaktionszeiten
- schnellere Problemanalyse
- raschere Reklamationsabwicklung

- aussagekräftigere CRM-Analysen möglich (wichtig für Marketing/Vertrieb)
- Beitrag zu einer besseren Klimabilanz

Um das Projekt zu starten, muss zuerst die Projektgruppe festgelegt werden. Es ist wichtig, dass auch betroffene Mitarbeiter, die täglich mit den Adressdaten arbeiten, im Projektteam sind. So ist gewährleistet, dass mögliche Änderungen in der Benutzeroberflä- che auch gleich von diesen Teammitgliedern getestet werden können und deren Feedback in die Gestaltung des Prototyps einfließt. Dies führt letztlich zu einer höheren Akzeptanz nach der Einführung der unscharfen Dublettensuche.

5.2 Technologie

5.2.1 Zentrale Datenhaltung

Um überhaupt sinnvoll nach Dubletten suchen zu können, sollten, falls vorhanden, verteilte Adressbestände³⁹ zusammengeführt werden.⁴⁰ Handelt es sich um reine Adressdatenbanken ohne dazugehörige Dokumente (wie zB Rechnungen, Korrespondenz, Notizen,...), ist dies mit relativ geringem Aufwand möglich. Meist jedoch werden die Adressdaten (mitsamt den Dokumenten) in einem ERP- oder CRM-System verwaltet. In diesen Fällen soll genau darauf geachtet werden, dass auch die Dokumente innerhalb der Dubletten, falls gesetzlich erlaubt, zusammengeführt werden.

Im Fall von BMW wurden die Adressdaten des Vertriebs, des Marketings und der Distribution auf jeweils eine Oracle-Datenbank pro Land zusammengeführt. Es wurde bewusst auf eine globale Adressdatenbank verzichtet, weil die internationalen Adressformate sich zu stark voneinander unterscheiden.⁴¹

5.2.2 Möglichst vollständige Adressen

Um unscharfe Dublettensuche überhaupt sinnvoll betreiben zu können, sollten die Adressdaten möglichst vollständig sein. Gründe für unvollständige Adressdaten sind zB:

- Import von zugekauften Adressen in schlechter Qualität
- Unvollständig angelegte Adressen durch eigene Mitarbeiter
- weil keine Mussfelder definiert sind (oder diese umgangen wurden)
- weil nur einzelne Adresselemente benötigt wurden (E-Mail, Telefon,...)

Je unvollständiger die Einträge sind, desto mehr potenzielle Dubletten ergibt die Dublettenprüfung. Folgendes Beispiel soll dies verdeutlichen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung3 : Unvollständig angelegte Adressen

Angenommen, diese drei Adressen stellen drei unterschiedliche Kunden dar. Je nach Kontaktart wurden nur die relevanten Daten erhoben (Adresse oder Telefonnummer oder E-Mail), die in der obigen Grafik schwarz hinterlegt wurden. Die durchgestrichenen Adresselemente wurden nicht erhoben. Eine unscharfe Dublettensuche würde alle drei Adressen als mögliche Dublettengruppe auflisten. Würde man die drei Adressen verschmelzen, ergäbe sich sogar ein vollständiger Datensatz, allerdings mit vollkommen falschen Daten. Die Entscheidung, ob es richtige oder falsche Dubletten sind, sollte daher nach wie vor der Mensch und nicht der Computer treffen.⁴²

Aus dem obigen Beispiel lässt sich also ableiten, dass unvollständige Datensätze eine höhere Anzahl potenzieller Dubletten bewirken. Das Ergebnis einer Dublettensuche würde solch unvollständigen Adressen als potenzielle Dubletten (zu anderen vollständigen Adressen) auflisten.⁴³ Mithilfe der Dublettensuche können unvollständige Adressen sehr leicht aufgespürt werden. Diese gilt es dann entweder zu vervollständigen oder zu entfernen, falls sie nicht mehr benötigt werden.

5.2.3 Zugriffsberechtigungen

Adressbestände können durch unsachgemäßen Umgang sehr schnell verunreinigt werden. Mitarbeiter sind daher entsprechend zu schulen, bevor sie schreibenden Zugriff auf die Adressdaten haben. Es empfiehlt sich auch zu definieren, welche Mitarbeiter diesen schreibenden Zugriff brauchen und welche nicht. Bei den Interviews⁴⁴ stellte sich heraus, dass in den meisten Unternehmen nur so viele Mitarbeiter wie nötig Zugriff auf sensible Adressdaten haben.

5.3 Prozesse

Prozesse, welche sich direkt auf die Aktualität, Vollständigkeit und Redundanzfreiheit des Adressbestands auswirken, sollten auf ihre Wirksamkeit überprüft und optimiert werden.

Einer der Gründe warum Dubletten entstehen, ist die Neuanlage von Adressen . Reicht die bisherige Online-Dublettenprüfung⁴⁵ nicht aus, sollte überprüft werden, welche Schnittstellen es gibt, um eine Online-Dublettenprüfung eines Dritt-Herstellers⁴⁶ zu integrieren.

5.3.1 Fehler-Report-System

Werden Dubletten oder Fehler in den Adressen bemerkt, ist ein leicht zu bedienendes Fehler-Report-System von großer Bedeutung für die Datenqualität. Jeder Mitarbeiter (auch solche mit nur lesendem Zugriff) soll die Möglichkeit haben, auf einfachste Weise einen Fehler bei einer Adresse zu melden. Ein möglicher Vorschlag wäre zB, dass neben der Adresse ein Button „Fehler melden!“ angeklickt und in einem kleinen Eingabefenster eine Begleit-Notiz hinterlegt werden kann. Wichtig ist, dass diese Meldung in kurzer Zeit erledigt werden kann, sonst sinkt die Bereitschaft der Mitarbeiter sie überhaupt zu nutzen. Datum und Benutzer werden automatisch gespeichert und die Meldung wird direkt an die verantwortliche Person weitergeleitet.⁴⁷

5.3.2 Adressverantwortliche

Dieses Fehler-Report-System setzt natürlich einen Empfänger der Fehlermeldung voraus. Ganz wichtig ist, dass der Empfänger mit der Nachricht auch etwas anfangen kann bzw. den Fehler auch mit möglichst geringem Aufwand beheben kann. Deshalb ist es wichtig, dass es für jede Adresse eine verantwortliche Person gibt, die diese Fehlermeldung erhält. Sobald mehr als eine Person dafür in Frage kommt, ist die Antwort auf diese Frage nicht mehr so leicht. Hier gibt es unterschiedliche Ansätze, wer das sein könnte.

- Gibt es eindeutig zugewiesene Key Account Manager bzw. Betreuer, sollten sie Empfänger der Fehlermeldung sein. Durch den häufigen Kundenkontakt wird es ihnen am ehesten möglich sein, den Fehler zu beheben.
- Gibt es innerhalb des Unternehmens keine eindeutigen Kontaktpersonen für den Kunden, können unterschiedliche Benutzer als Empfänger der Fehlermeldung in

Frage kommen. Grundvoraussetzung ist, dass bei jedem Kontakt hinterlegt ist, wer Verfasser, letzter Bearbeiter, häufigster Bearbeiter, etc. war. Welche Benutzer nun tatsächlich am geeignetsten sind, den Fehler zu beheben, kann global nicht beantwortet werden. Wichtig ist, dass die Fehlermeldung auch wirklich ankommt und der Fehler erkannt und die Adresse richtig gestellt wird. Die Empfänger der Fehlermeldung könnten nicht mehr im Unternehmen sein. Für diesen Fall sollte vorgesorgt werden (durch Mail-Weiterleitung oder ähnlichem). Andernfalls würde die Fehlermeldung entweder gar nicht berücksichtigt oder zum falschen Bearbeiter gelangen.

Im Umgang mit Adressen sind klare Verantwortungen äußerst hilfreich. Aktivitäten rund um Adressen sollten in regelmäßigen Abständen evaluiert und vor allem koordiniert werden. Durch die Abstimmung der Reihenfolge der Aktivitäten lassen sich Kosten sparen. Es macht zB einen Unterschied (auf die Kosten bezogen), ob unbereinigte Adressbestände von externen Dienstleistern postalisch geprüft werden, oder ob zuerst alle Dubletten verschmolzen und nicht mehr benötigte Adressen entfernt werden.

Wie bereits auf Seite 16 erwähnt, sollten Medienbrüche in der Beund Verarbeitung von Adressen vermieden werden, da sie fehleranfällig sind und Ressourcen verschwenden, wenn sie vermeidbar wären.

Durch bessere Prozesse kann eine höhere Qualität der Daten erreicht werden. Zuerst sollten jene Prozesse verbessert werden, die ein großes Potenzial zur Verbesserung der Datenqualität versprechen. Weiterhin sind dann Prozesse vorzuziehen, die am einfachsten anzupassen sind. Das Pareto-Prinzip, wonach mit 20% des Aufwands 80% des Erfolgs möglich wird, findet auch hier Anwendung.⁴⁸

6 Erstellung eines Anforderungskatalogs

Dieses Kapitel dient als Grundlage für die Erstellung eines Anforderungskatalogs, welcher auf die spezifischen Anforderungen des Unternehmens zugeschnitten sein muss. Nicht jede Funktion ist für die unterschiedlichen Einsatzszenarien gleich wichtig. Vielmehr dient die Auflistung der Kriterien als Diskussionsgrundlage für das Projektteam.

Bei der Erstellung des Anforderungskatalogs sollten die einzelnen Kriterien gewichtet werden. Eine Unterscheidung in Mussund Soll-Kriterien ist sinnvoll, um bei der Auswahl der Anbieter eine Vorauswahl anhand der Muss-Kriterien treffen zu können.

6.1 Infrastruktur

Unter Infrastruktur ist im Zusammenhang mit der Dublettensuche sowohl die Plattform als auch die Architektur gemeint.

6.1.1 Plattform

Unter Plattform ist in diesem Zusammenhang das zugrunde liegende Betriebssystem gemeint. Die Projektgruppe sollte die unterstützten Plattformen beim zuständigen IT-Verantwortlichen erfragen.

Die Anbieter in der Übersicht⁴⁹ unterstützen zT folgende Betriebssysteme: Windows, Linux, Solaris, Unix, Mac OS, AS/400 und einige mehr.⁵⁰

Bei der Entscheidung, welche Plattform unterstützt werden soll, spielt auch die strategische Ausrichtung eine große Rolle. Vor allem dann, wenn in absehbarer Zeit ein Wechsel der Plattform ins Haus steht (wie zB bei der Migration auf Debian-Linux in München⁵¹ ). Die Dublettensuche sollte somit auch mit der zukünftigen Plattform zu betreiben sein. Beim Kauf der Lizenz soll in diesen Fällen darauf geachtet werden, dass sie plattform unabhängig gültig ist.

6.1.2 Architektur

Die Architektur beschreibt die Art, wie die Dublettensuche zur Verfügung gestellt wird. Die einfachste Variante ist die Installation auf einer Workstation⁵² . Bei geringen Hardwareanforderungen und einer überschaubaren Menge an Installationen macht dies Sinn.

Bei einer Client/Server-Architektur werden die Aufgaben der Dublettensuche verteilt. Der Client stellt die Eingabedaten zur Verfügung⁵³ und stellt das Ergebnis dar. Der Server übernimmt die Verarbeitung, im Falle der Dublettensuche den Abgleich der Adressen.⁵⁴ Die Client/Server-Architektur bietet sich an, wenn die Hardwareanforderungen durch die hohe Anzahl an Adressen höher sind und/oder viele Clients⁵⁵ auf die Dublettensuche zugreifen. Soll die Dublettensuche bereits während der Eingabe von Adressen (zB in ein CRM- oder ERP-System) stattfinden, ist die Client-Server-Architektur mit einem einzigen Ausnahmefall⁵⁶ zwingende Voraussetzung. Folgende Grafik soll dies verdeutlichen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung4 : Server - Client - Architektur

Bereits während der Eingabe wird nach ähnlichen Adressen gesucht. Der ERP-Server übergibt die Daten (die er von den Clients bereits während der Eingabe erhält⁵⁷ ) dabei an den Server, auf dem die Dublettensuche installiert ist. Dieser wiederum gibt die gefundenen ähnlichen Adressen an den ERP-Server zurück, der diese Adressen an den Client übergibt und sie dort als Übernahmevorschlag präsentiert.

Die Client-Server-Architektur spart Kosten, weil die Hardwareanforderungen bei den Clients nicht so groß sind und die Rechenlast (Adressvergleich durch unscharfe Dublettensuche) auf dem Server konzentriert ist.

[...]

¹ Vgl. Agens Consulting Studie, 2007, S. 2

² Vgl. Agens Consulting Studie, 2007, S. 2

³ eine Tochter der Oberösterreich Tourismus

⁴ Dublette: zB Adresse, die mehrmals (in leicht unterschiedlicher Schreibweise) in einem Adressbestand vorkommt

⁵ CRM = Customer Relationship Management = Kundenbeziehungsmanagement

⁶ Sekundärzitat: Vgl. Wandt, Database Marketing 01/2006, S. 6

⁷ Vgl. is report, 6/2004, S. 48

⁸ Vgl. Gohr, Database Marketing 01/06, S. 5

⁹ Redundanz = Vorhandensein eigentlich überflüssiger, für die Information nicht notwendiger, Elemente (Duden 1989)

¹⁰ eine Diplomarbeit über die technisch-mathematische Seite von unscharfer Dublettensuche, mit sogar sehr ähnlichem Titel, ist: „Unscharfe Suche in großen Adressbeständen“ von Jochen Schulz, 2006

¹¹ Vgl. http://de.wikipedia.org/wiki/Postleitzahl_(Deutschland), Februar 2008

¹² A-Kunden sind zB jene, die den höchsten Deckungsbeitrag bzw. Umsatz generieren

¹³ Details dazu in der Anbieterübersicht (Seite 54)

¹⁴ Vgl. www.fachverbandwerbung.at/de-service-robinsonliste.shtml

¹⁵ etwa 20.000 internationale Unternehmen sind mit Stand 11/07 gelistet

¹⁶ Vgl. Schmidt, enable 11/2007, S. 24

¹⁷ Vgl. Elsner, 2003, S. 55

¹⁸ Verdreher: beim schnellen Schreiben können Buchstaben vertauscht werden (zB Dulbette statt Dublette)

¹⁹ Siehe Interview mit Dr. Spiessberger auf Seite 71.

²⁰ Siehe Interview mit einem Inkasso-Institut auf Seite 73 und mit einem Versandhaus auf Seite 76.

²¹ Vgl. Human Inference Case „Swiss Life Feeling“, 2007, S. 2

²² Vgl. is report 6/2004, S. 44

²³ Siehe Interview mit einem Versandhaus auf Seite 76.

²⁴ OCR = Optical Character Recognition

²⁵ Vgl. Eberspächer / Reden, 2005, S. 74f

²⁶ wie zB durch Eheschließung, Scheidung, Firmenfusion und – akquisition

²⁷ Siehe Interview mit Dr. Spiessberger auf Seite 71

²⁸ Ist ein Kunde doppelt angelegt und bezahlt 2 Rechnungen seiner verschiedenen Kundennummern, kann es dennoch zu einer Mahnung kommen, weil nach Verbuchung des Zahlungseingangs auf einer der beiden Kundennummern, bei beiden derselbe Saldo – allerdings mit unterschiedlichen Vorzeichen – aufscheint. Vgl. Interview, Spiessberger, S. 71

²⁹ Post, die an den Absender retourniert wird, weil der Empfänger nicht (eindeutig) identifiziert werden konnte.

³⁰ Um die Richtigkeit der Adresse zu gewährleisten, sollten die Adressen regelmäßig auf ihre Richtigkeit geprüft werden. Entsprechende Dienstleister befinden sich in der Anbieterübersicht auf Seite 54.

³¹ Vgl. Naumann, 2006, S. 27

³² Vgl. Gohr, Database Marketing 01/06, S. 6

³³ Im Fachjargon auch XYZ-Analyse genannt.

³⁴ Vgl. Interview Spiessberger, S 71

³⁵ Cross-Selling: Dem Kunden werden zusätzlich zu bisher bezogenen Produkten gezielt weitere Produkte angeboten.

³⁶ Vgl. is report 6/2004, S. 45

³⁷ Vgl. Human Inference Case „Swiss Life Feeling“, 2007, S. 2

³⁸ Vgl. BARC-Studie, 2005, Kapitel 6

³⁹ Unter verteilten Adressbeständen werden in diesem Fall Adressen gleicher Art, wie zB alle Kundenoder Lieferantenadressen verstanden, die in mehreren Datenbanken verwaltet werden. In den Interviews zeigte sich, dass eine getrennte Haltung von Adressen unterschiedlicher Kategorien in der Praxis bewusst vorkommt (siehe Interview OÖ Nachrichten bzw. OÖ Meinungsforschungsinstitut)

⁴⁰ Vgl. Statement von Dr. Spiessberger im Interview auf Seite 71.

⁴¹ Vgl. Wierner, Direkt Marketing 11/03, S. 26f

⁴² Ein weiteres Beispiel dazu befindet sich im Interview mit einem Inkasso-Institut auf Seite 73 bzw. im Interview mit einem Meinungsforschungsinstitut auf Seite 75.

⁴³ Fuzzy Dupes zB vergleicht unvollständige Adressen mit vollständigen indem es die leeren Felder ignoriert bzw. davon ausgeht, dass sie ident sind mit dem zu vergleichenden (gefüllten) Adressfeld.

⁴⁴ Siehe Seite 67ff (zB OÖ Nachrichten)

⁴⁵ Bereits während der Eingabe der neuen Adresse sucht das System im Hintergrund nach möglichen Dubletten im System und bietet dem Benutzer die Möglichkeit eine der bestehenden Adressen zu übernehmen, oder die Neuanlage der Adresse fortzuführen.

⁴⁶ Fuzzy Dupes zB bietet Softwarelösungen für .NET oder COM-Schnittstellen an.

⁴⁷ Ein praktisches Beispiel dazu befindet sich im Interview mit einem Meinungsforschungsinstitut auf Seite 76.

⁴⁸ Vgl. BARC-Studie, 2005, Kapitel 6

⁴⁹ siehe Anbieterübersicht (Seite 54)

⁵⁰ die Version des Betriebssystems sollte ebenfalls beim Anbieter bzw. beim IT-Verantwortlichen nachgefragt werden

⁵¹ Vgl. www.muenchen.de/Rathaus/dir/limux/publ/147183/index.html

⁵² Die Dublettensuche wird auf dem jeweiligen Arbeitsplatz-Rechner (Workstation) installiert.

⁵³ bzw. gibt an wo sie sich befinden (zB auf einem weiteren Server)

⁵⁴ Vgl. Herden / Gomez / Rautenstrauch / Zwanziger, 2006, S. 26

⁵⁵ dies können auch andere Server sein

⁵⁶ Ausnahme: es gibt nur EINE Workstation, auf der alle Programme (CRM/ERP + Dublettensuche) installiert sind.

Häufig gestellte Fragen

Was ist das Thema dieser Diplomarbeit?

Die Diplomarbeit behandelt die unscharfe Dublettensuche im Kontext des Datenqualitätsmanagements (DQM). Sie konzentriert sich auf die Evaluierung, Einführung und den nachhaltigen Betrieb von Softwarelösungen zur unscharfen Dublettensuche in Adressdatenbanken.

Was versteht man unter Dubletten in Adressbeständen?

Dubletten sind doppelte oder mehrfach gespeicherte Adressen, die sich meist geringfügig voneinander unterscheiden. Diese Unterschiede können durch Schreibfehler, Abkürzungen oder Lesefehler entstehen.

Wie entstehen Dubletten?

Dubletten entstehen sowohl aus technologischen als auch aus menschlichen Gründen. Dazu gehören Tippfehler, das Vertauschen von Vor- und Nachnamen, das Zusammenführen von unabhängigen Adressdatenbanken, sprachliche Barrieren, Medienbrüche und Änderungen von Namen oder Adressen ohne Aktualisierung der bestehenden Daten.

Was ist der Unterschied zwischen "scharfer" und "unscharfer" Dublettensuche?

Die scharfe Dublettensuche findet exakt identische Adressen. Die unscharfe Dublettensuche hingegen findet ähnliche Adressen, auch wenn diese geringfügige Abweichungen aufweisen.

Welchen Nutzen haben bereinigte Adressbestände?

Bereinigte Adressbestände führen zu höherer Kunden- und Mitarbeiterzufriedenheit, Kostenvorteilen (Druck, Porto, Image), Produktivitätssteigerung, effektiverer Bonitätsprüfung, besseren Entscheidungsgrundlagen (CRM-Auswertungen, Cross-Selling), Beitrag zum Umweltschutz und freien IT-Ressourcen.

Welche Voraussetzungen sind für die Einführung von Dublettensuch-Software notwendig?

Die Voraussetzungen sind Mitarbeiterbewusstsein, zentrale Datenhaltung, möglichst vollständige Adressen, Zugriffsberechtigungen und optimierte Prozesse, wie Fehler-Report-System und Adressverantwortliche.

Was sollte ein Anforderungskatalog für Dublettensuch-Software beinhalten?

Der Anforderungskatalog sollte Aspekte der Infrastruktur (Plattform, Architektur), Integration in bestehende Systeme (Schnittstellen, Laufzeitumgebungen), Datenbasis (Datenformat, Sprache, Anzahl Datensätze), Varianten der Dublettensuche (Batch, Online, Negativ-Abgleich), Verarbeitungsoptionen (Übereinstimmungsgenauigkeit, Gewichtung), Ergebnisdarstellung, Verschmelzung von Dubletten, Statistik, Referenzdatenbank und Anwenderunterstützung berücksichtigen.

Welche Werkzeuge können für die Evaluierung von Dublettensuch-Software eingesetzt werden?

Werkzeuge zur Evaluierung umfassen Standards der Evaluierung (Nützlichkeit, Durchführbarkeit, Fairness, Genauigkeit), die Suche und Auswahl von Anbietern, Testumgebungen für die Evaluierung und den Vergleich der Ergebnisse sowie die Reaktionszeit der Online-Dublettensuche und die Performance der Batch-Suche. Auch Anbieterbefragungen sind hilfreich.

Welche Aspekte sind bei der Einführung und dem nachhaltigen Betrieb zu beachten?

Zu beachten sind die technische Einführung der Dublettensuche, die Gestaltung betroffener betrieblicher Prozesse (Bereinigung der Dubletten, Nutzung von Dubletten als Chance für bessere Adressimporte, Neuverteilung von Entscheidungskompetenzen, Umgang mit Belegdaten, Fehler-Report-System, Batch- und Online-Dublettensuche) und die Erstellung einer Kosten/Nutzen-Rechnung.

Wie kann man eine Kosten/Nutzen-Rechnung aufstellen?

Die Kosten/Nutzen-Rechnung wird auf Basis von Studienergebnissen aufgestellt. Es werden die Kosten (Initialkosten, Betriebskosten) den Nutzen/Einsparungspotenzial (Anzahl der Dubletten, Analyse der Kunden, Analyse der internen Prozesse) gegenübergestellt.

Excerpt out of 97 pages - scroll top

Buy now

Title: Unscharfe Dublettensuche in Unternehmens-Adressbeständen

Diploma Thesis , 2008 , 97 Pages , Grade: 2

Autor:in: Mag. (FH) Michael Langerhorst (Author)

Business economics - Information Management

Look inside the ebook

Details

Title: Unscharfe Dublettensuche in Unternehmens-Adressbeständen
Subtitle: Konzept für Evaluierung, Einführung und zum nachhaltigen Betrieb von Softwarelösungen zur unscharfen Dublettensuche
College: FH OÖ Standort Steyr (e-Business)
Grade: 2
Author: Mag. (FH) Michael Langerhorst (Author)
Publication Year: 2008
Pages: 97
Catalog Number: V118251
ISBN (eBook): 9783640217489
Language: German
Tags: Unscharfe Dublettensuche Unternehmens-Adressbeständen
Product Safety: GRIN Publishing GmbH

Quote paper: Mag. (FH) Michael Langerhorst (Author), 2008, Unscharfe Dublettensuche in Unternehmens-Adressbeständen, Munich, GRIN Verlag, https://www.grin.com/document/118251

Unscharfe Dublettensuche in Unternehmens-Adressbeständen

Konzept für Evaluierung, Einführung und zum nachhaltigen Betrieb von Softwarelösungen zur unscharfen Dublettensuche

Excerpt

Inhaltsverzeichnis

Zusammenfassung

Abstract

Vorwort

1 Einleitung

2 Forschungsfrage

2.1 Abgeleitete Zusatzfragen

2.2 Abgrenzung - was ist nicht Thema dieser Diplomarbeit?

2.2.1 Technologische Funktionsweise der Dublettensuche

2.2.2 Adresspflege

3 Grundlagen zum Thema Dubletten

3.1 Definition: Dublette (in Adressbeständen)

3.2 Wie können Dubletten entstehen?

4 Nutzen von bereinigten Adressbeständen

4.1 Höhere Kundenund Mitarbeiterzufriedenheit

4.2 Kostenvorteile

4.2.1 Druck-, Portound Imagekosten

4.2.2 Produktivitätssteigerung

4.2.3 Effektivere Bonitätsprüfung

4.3 Bessere Entscheidungsgrundlage

4.3.1 CRM-Auswertungen

4.3.2 Cross-Selling

4.4 Beitrag zum Umweltschutz

4.5 Freie IT-Ressourcen

4.6 Zusammenfassung

5 Voraussetzungen für die Einführung von Dublettensuch-Software

5.1 Mitarbeiter

5.2 Technologie

5.2.1 Zentrale Datenhaltung

5.2.2 Möglichst vollständige Adressen

5.2.3 Zugriffsberechtigungen

5.3 Prozesse

5.3.2 Adressverantwortliche

6 Erstellung eines Anforderungskatalogs

6.1 Infrastruktur

6.1.1 Plattform

6.1.2 Architektur

Häufig gestellte Fragen

Was ist das Thema dieser Diplomarbeit?

Was versteht man unter Dubletten in Adressbeständen?

Wie entstehen Dubletten?

Was ist der Unterschied zwischen "scharfer" und "unscharfer" Dublettensuche?

Welchen Nutzen haben bereinigte Adressbestände?

Welche Voraussetzungen sind für die Einführung von Dublettensuch-Software notwendig?

Was sollte ein Anforderungskatalog für Dublettensuch-Software beinhalten?

Welche Werkzeuge können für die Evaluierung von Dublettensuch-Software eingesetzt werden?

Welche Aspekte sind bei der Einführung und dem nachhaltigen Betrieb zu beachten?

Wie kann man eine Kosten/Nutzen-Rechnung aufstellen?

Buy now

Details