Inhaltsverzeichnis
1 Einleitung. 1
2 Forschu ng s frage. 1 2
2.1 Abgeleite te Zus a t zf r age n 1 2
2.2 Abgre n z u ng - wa s ist nic h t The m a die se r Diplo m a r b eit? 1 2
2.2.1 Tech n ologisc he Funktio n sweise d e r Duble t te n s uc he. 1 2
2.2.2 Adre s s pflege. 1 3
3 Grundlagen z u m The ma Dubletten 1 4
3.1 Definition: Duble t te (in Adre s s b e s t ä n d e n) 1 4
3.2 Wie kö n ne n Dublet te n e n t s te h e n? 1 4
3.3 Unter sc hie d: sc ha rfe u n d u n s c h a rfe Du ble t te n s u c h e. 1 6
4 Nut z e n v o n b ereinigten Adre s s b e ständ en. 1 8
4.1 Höhe re Kun de n - u n d Mitar beiter z u frie d e n h eit. 1 8
4.2 Koste nvor teile. 1 8
4.2.1 Dr uck - , Por to - u n d Imagekos t e n 1 8
4.2.2 Pro d u k tivitä t s s teiger u ng. 1 9
4.2.3 Effektivere Bonitä t s p r üf u ng. 1 9
4.3 Besse re Entsc hei d u ng sgr u n dlage. 1 9
4.3.1 CRM - Auswer t u nge n 1 9
4.3.2 Cros s - Selling. 2 0
4.4 Beitr ag z u m Umweltsc h u t z 2 0
4.5 Freie IT - Res s o u rce n 2 0
4.6 Zus a m m e nf a s s u ng. 2 0
5 Vorau s s et z un g e n für die Einführung v o n Dubletten s u ch - Soft ware. 2 1
5.1 Mitar beiter. 2 1
5.2 Tec h n ologie 2
5.2.1 Zen t rale Date n h alt u ng 2
5.2.2 Möglich s t vollst ä n dige Adres s e n 2
5.2.3 Zugriffs berec h tigu nge n 2 3
5.3 Pro z e s s e. 2 4
5.3.1 Fehler - Repor t - Syste m 2 4
5.3.2 Adre s svera n t wor tliche 2 4
6 Erstellung eine s Anford erung s katalog s 2 6
6.1 Infra s t r u k t u r 2 6
- 2 -
6.1.1 Plat tfor m 2 6
6.1.2 Architekt u r 2 6
6.2 Integra tio n in be s te he n d e Syste m e. 2 8
6.2.1 Sch nit t s t ellen. 2 9
6.2.2 Lauf z eit u m ge b u nge n 3 0
6.2.3 Echt z eit u m geb u nge n 3 0
6.2.4 Softwa re - Mod ule. 3 1
6.2.5 Reaktio n s z ei t 3 1
6.3 Da te n b a sis. 3 1
6.3.1 Date nfo r m a t 3 1
6.3.2 Sprac he u n d Zeiche n s a t z 3 2
6.3.3 An z a hl d e r Adre s s d a t e n s ä t z e. 3 2
6.4 Varia n te n d e r Duble t te n s uc he. 3
6.4.1 Dublet te n s uc he im Batc h - Verfa h re n 3
6.4.2 Dublet te n s uc he im Online - Verfa h re n 3
6.4.3 Negativ - Abgleich m i t exter ne n Adre s se n 3
6.4.4 Differe n zier u ng z wisc he n Intra - u n d Inter d u blet te n 3 5
6.4.5 Positiv - Abgleich. 3 5
6.5 Vera r beit u ng s o p tio ne n d e r Du blet te n s u c h e. 3 5
6.5.1 Überein s ti m m u n g sge na uigkeit. 3 6
6.5.2 Gewich t u ng d e r ei n z elne n Adre s sfelder 3 6
6.5.3 Clus te r m a n age m e n t 3 8
6.5.4 Nor m alisier u ng. 4 1
6.5.5 Wisse n s ba sier te Met ho d e. 4 2
6.5.6 Tre n ne n u n d Versc h m el ze n von Adres sfel de r n 4 3
6.5.7 NULL - Vergleich. 4
6.5.8 Profile. 4 5
6.6 Ergeb nis d a r s t ellu ng. 4 6
6.6.1 Direkt a m Bildsc hir m 4 6
6.6.2 Überga be a n die Unter n e h m e n s s of tware. 4 7
6.6.3 Export als Tabelle. 4 7
6.7 Versc h m el z u ng vo n Duble t te n 4 8
6.8 Sta tis tik. 4 9
6.9 Refere n z - Date n b a n k 4 9
6.9.1 Ein zigartiges Suchergeb nis. 4 9
6.9.2 Con t r olling fü r die Bereinigu ng d e r Dublet te n 5 1
6.10 Anwe n de r u n t e r s t ü t z u ng 5 2
- 3 -
6.10.1 ISO 90 0 1:2000. 5 2
6.10.2 Sch ul u ng. 5 3
6.10.3 Dok u m e n t a tio n. 5 4
6.10.4 Hilfefu n k tio n 5 4
6.11 Anbiete r ü be r sic ht 5 4
7 Werk z eu g e für die Evaluierung. 5 6
7.1 Sta n d a r d s d e r Evaluier u ng. 5 6
7.1.1 Nüt zlichkeit. 5 6
7.1.2 Durchf ü h r b ar keit. 5 6
7.1.3 Fair ne s s 5 7
7.1.4 Gena uigkeit. 5 7
7.2 Suc he u n d Auswa hl d e r Anbiete r. 5 7
7.2.1 Recherc he p o te n zieller Anbieter 5 7
7.2.2 d e r ers t e Eindr uck. 5 8
7.2.3 Auswa hl d e r Kan di d a te n f ür die Evaluier u ng. 5 8
7.2.4 Testversio ne n a nfor de r n 5 8
7.3 Tes t u m ge b u ng f ür die Evaluier u n g. 5 9
7.3.1 Auswa hl d e r Tes t - Adre s se n 5 9
7.3.2 Auswa hl d e r z u vergleiche n d e n Adres sfel de r. 5 9
7.3.3 Clus te r m a n age m e n t 6 0
7.3.4 Beka n n te u n d u n be ka n n t e Dublet te n 6 0
7.3.5 Nor m alisier u ng u n d Wisse n s d a t e n b a n k. 6 2
7.4 Ergeb nis se vergleiche n 6 2
7.4.1 Sch nit t m e nge d e r ein z el ne n Ergeb ni s se. 6 2
7.4.2 Kaska dier u ng d e r Dublet te n s uc he. 6 3
7.5 Reaktio n s z eit d e r Online - Du ble t te n s uc he. 6 4
7.5.1 Sch nit t s t ellen. 6 5
7.5.2 Auslas t u ng. 6 5
7.5.3 Adre s s be s t a n d 6 5
7.6 Perfor m a nce d e r Batc h - Suc he. 6
7.7 Anbiete r befrag u ng. 6
8 Intervie w s mit Experten und Praktikern. 6 7
8.1 Inte rview Geral d Da n z m air MBA OÖ Nach ric h te n 6 7
8.1.1 Adre s se n u n d Im p or t s 6 7
8.1.2 Mitar beiter. 6 8
8.1.3 Dublet te n s uc he. 6 8
8.1.4 Bereinigu ng. 6 9
- 4 -
8.1.5 Nor m alisier u ng u n d Wisse n s d a t e n b a n k. 7 0
8.2 Inte rview Dr. Siegfrie d Spies s b e rger WKOÖ / Wifi. 7 0
8.2.1 Adre s se n 7 0
8.2.2 Mitar beiter. 7 1
8.2.3 Dublet te n s uc he. 7 1
8.2.4 Bereinigu ng. 7 2
8.2.5 Less o n s lear ne d 7 3
8.3 Inte rview m i t eine m Inka s s o - Ins tit u t 7 3
8.3.1 Adre s se n 7 3
8.3.2 Mitar beiter. 7 4
8.3.3 Dublet te n s uc he u n d Bereinigu ng. 7 4
8.4 Inte rview m i t OÖ Mein u ng sfo r sc h u n g sin s tit u t 7 5
8.4.1 Adre s se n u n d Im p or t s 7 5
8.4.2 Mitar beiter. 7 5
8.4.3 Dublet te n 7 5
8.4.4 Dublet te n s uc he u n d Bereinigu ng 7 6
8.5 Inte rview m i t eine m ö s te r r eichisc he n Vers a n d h a u s 7 6
8.5.1 Adre s se n u n d Duble t te n 7 6
8.5.2 Proble m e u n d Koste n d u rc h Dublet te n 7
8.5.3 Mitar beiter. 7
8.5.4 Dublet te n s uc he u n d Bereinigu ng. 7
8.5.5 Nor m alisier u ng u n d Wisse n s d a t e n b a n k 7 9
8.5.6 Sup p o r t u n d Wart u ng 7 9
8.6 Inte rview m i t eine m Teleko m m u nika tio n s u n t e r n e h m e n 7 9
8.6.1 Adre s se n u n d Duble t te n 8 0
8.6.2 Mitar beiter. 8 0
8.6.3 Dublet te n p r üf u ng u n d Bereinigu ng. 8 0
8.6.4 Preselection 8 2
9 Einführung un d nach haltiger Betrieb. 8 3
9.1 Tec h nisc he Einf ü h r u ng d e r Du blet te n s u c h e. 8 3
9.2 Betroffe ne be t riebliche Pro z e s s e n ac h h altig ges t alte n 8 3
9.2.1 Bereinigu ng d e r Dublet te n 8 3
9.2.2 Dublet te n als Cha nce fü r be s se re Adre s s - Im po r t e. 8 4
9.2.3 Entsc hei d u ng s ko m p e te n z e n n e u verteilen. 8 4
9.2.4 Umga ng mi t Belegda te n 8 5
9.2.5 Fehler - Repor t - Syste m 8 5
9.2.6 Dublet te n s uc he im Batc h - Mod u s 8 6
- 5 -
9.2.7 Online - Dublet te n s uc he. 8 7
9.2.8 Magische s Dreieck. 8
1 0 Kosten / N ut z e n - Rechn ung. 8 9
1 0.1 Stu die ne rgeb nis s e. 8 9
1 0.2 Koste n 8 9
1 0.2.1 Initialkos te n 8 9
1 0.2.2 Betrieb s ko s t e n 8 9
1 0.3 Nut z e n Eins pa r u ngs p o te n zial. 9 0
1 0.3.1 An z a hl d e r Dublet te n 9 0
1 0.3.2 Analyse d e r Kun de n 9 0
1 0.3.3 Analyse d e r int er ne n Pro ze s s e. 9 1
1 0.4 Berec h n u ng s sc he m a 9 2
1 1 Fazit. 9 3
1 2 Glo s sar. 9 5
1 3 Literatur v erz eichni s. 9 6
- 6 -
Abbildungsverzeichnis
Abbild u ng 1: Ko m m u nika tio n m i t d e m Käufer. 1 5
Abbild u ng 2: Ansa t z p u n k t e z u r Date n q u alität sver be s se r u ng. 2 1
Abbild u ng 3: Unvolls t ä n dig a ngelegte Adres se n 2 3
Abbild u ng 4: Server - Clien t - Arc hitekt u r 2 7
Abbild u ng 5: Integra tio n s beis piel: IntelliClea ne r Enter p rise. 2 8
Abbild u ng 6: DQ Real Ti me Server (www.u niserv.co m) 3 0
Abbild u ng 7: Nega tiv - Abgleich mi t Fu z zy Du pe s. 3 4
Abbild u ng 8: Beis piel Int ra - u n d Inte r d u blet t e n 3 5
Abbild u ng 9: Gewicht u ng d e r ein z el ne n Adres sfel der. 3 7
Abbild u ng 10: Such m a t rix vo n Adres sCe n te r (Quelle: O mikro n) 3 8
Abbild u ng 11: Clus ter Nach n a m e 3 9
Abbild u ng 12: Clus ter Straße. 3 9
Abbild u ng 13: Clus ter Or t. 4 0
Abbild u ng 14: Auswa hl von Clus te r in Fu z zy Du pe s 4 0
Abbild u ng 15: Schwelle nwer t Clus t e r (Fuz zy Du pe s) 4 1
Abbild u ng 16: Beis piele f ür Nor m alisier u ng. 4 2
Abbild u ng 17: Nor m alisier u nge n bea r beite n in Fu z zy Du pe s. 4 2
Abbild u ng 18: Tre n n u ng u n d Versc h m el z u ng ein z el ne r Adres s ele m e n te. 4 3
Abbild u ng 19: Tre n ne n u. Versc h m el ze n von Adre s sfel der n (Adres sCe n t e r - O mikr o n) 4
Abbild u ng 20: Beis piel NULL - Vergleich. 4
Abbild u ng 21: NULL - Vergleich in Fu z zy Du pe s 4 5
Abbild u ng 22: Beis piel Ergeb nisliste a m Bildsc hir m (Omikro n Adre s sCe n t er) 4 7
Abbild u ng 23: Zus a m m e nf ü h re n von Dublet te n in q.a d re s s (ACS) 4 8
Abbild u ng 24: Ergeb nis vo n q.a d re s s (ACS) 4 9
Abbild u ng 25: Pro ze s s m o d ell Batc h - Suche mi t Refere n z - DB. 5 0
Abbild u ng 26: Pro ze s s m o d ell Dublet te n - Con t rolling. 5 2
Abbild u ng 27: Anbiete r ü be r sic ht 5
Abbild u ng 28: Eignu ng d e r ein z el ne n Adres sfel der z u r Dublet te n s uc he. 6 0
Abbild u ng 29: Beis piel a b sichtlich einge pflegter Dublet te ngr u p p e n 6 1
Abbild u ng 30: Beis piel Sch nit t m e nge Ergeb nis s e (Dublet t e n s uc he) 6 3
Abbild u ng 31: Pote n zial d e r Kaska dier u ng vo n Dublet te n s uc he. 6 4
Abbild u ng 32: Vera n twor t u ng s bereich von Date n - Qualitä t s - Manage m e n t 8 3
Abbild u ng 33: Magisc he s Dreieck. 8
Abbild u ng 34: Wirku ngs ket t e d e r u n s c h a rfe n Dublet te n s uc he. 9 1
- 7 -
Zusammenfassung
In dieser Diplomarbeit wird ein Teilbereich von Datenqualitätsmanagement (DQM), nämlich die unscharfe Dublettensuche, beschrieben. Aufgrund des großen Umfangs der Thematik von DQM war eine Einschränkung auf diesen Teilbereich erforderlich. Der Untertitel „Konzept für Evaluierung, Einführung und zum nachhaltigen Betrieb von Softwarelösungen zur unscharfen Dublettensuche“ deutet bereits auf die Forschungsfrage „Wie kann so ein Konzept aussehen?“ hin. Um die Frage ausführlich beantworten zu können, wurden neben der Literaturrecherche Interviews mit Experten aus den unterschiedlichsten Branchen (durch)geführt.
Unter Dubletten werden in diesem Fall Adressen, die doppelt oder mehrfach gespeichert sind und sich meist geringfügig voneinander unterscheiden, verstanden. Die Problematik lässt sich zum Teil auch auf Produktdatenbanken und ähnliches übertragen. Zielgruppe dieses Leitfadens bzw. Konzepts sind Projektgruppen, die in Unternehmen für die Einführung und den nachhaltigen Betrieb der unscharfen Dublettensuche verant-wortlich sind oder sein werden.
Was genau unter (un-)scharfer Dublettensuche zu verstehen ist und wie Dubletten entstehen können, wird im ersten Abschnitt erklärt. Nachdem eine einheitliche Wissensbasis geschaffen wurde, werden die Nutzenpotenziale von unscharfer Dublettensuche aus unterschiedlichen Perspektiven beleuchtet. Der umfangreichste Teil ist eine Referenz-Sammlung von Anforderungen, die an die Softwarelösung zur unscharfen Dublettensuche gestellt werden können. Die Projektgruppe kann für ihren eigenen individuellen Anforderungskatalog jene auswählen, welche für das Unternehmen relevant sind, sie entsprechend adaptieren und um eigene Anforderungen ergänzen.
Anschließend werden Werkzeuge zur Evaluierung der Softwarelösungen und Hinweise für eine nachhaltige Einführung vorgestellt. Abschließend wird der Projektgruppe eine Kalkulationsgrundlage für eine eigene Kosten-Nutzen-Rechnung vorgestellt, die Argumente für eine Budgetverhandlung beinhaltet.
In deutschen Banken bewegen sich die direkten Kosten für mangelnde Datenqualität zwischen 8 und 25 % des Umsatzes. 1 Dubletten sind nur ein Teil dieses Problems, deren Bereinigung ein erster Schritt zur Verbesserung der Datenqualität ist.
1 Vgl. Agens Consulting Studie, 2007, S. 2
Abstract
The subject of this diploma thesis is „Fuzzy data cleansing in adress databases“, which is a subarea of data quality management (DQM). Due to the vast size of DQM, this limitation was necessary. The subtitle “Concept for evaluation, implementation and the sustainable operation of software solutions for fuzzy data cleansing” already gives a hint to the research question “What does such a concept look like?”. To answer the question elaborately, literature research and interviews with experts within diverging branches were carried out.
The target groups of this thesis are task forces, who are (or will be) responsible for the implementation and the operation of fuzzy data cleansing within their companies. The first passage of the thesis is about the clarification of fuzzy data cleansing and about the ways duplicate copies can occur. After reaching a consistent knowledge base, the potential benefits are illuminated from different perspectives. The most extensive part is a reference of needs. The task force can sample out needs for their own catalog of requirements. The needs of this reference can also be adapted or complemented to meet the individual needs of the company.
Subsequently, tools for evaluation of the software solutions and hints for a sustainable implementation are part of this thesis. Last but not least a calculating base for a cost-benefit analysis tries to give some arguments for financial discussions. In German banks the direct costs of inadequate data quality were (in the year 2007) between 8 and 25 percent of their turnover. 2 Honestly, duplicate copies are only one aspect of the problem, but they are a good reason to start improving data quality.
Danksagung
An dieser Stelle möchte ich mich bei allen bedanken, die dazu beigetragen haben, dass diese Diplomarbeit zu dem geworden ist, was sie ist. Bei meiner Partnerin Andrea, die mir die Zeit gelassen hat, die ich brauchte. Bei meinem Betreuer Dr. Gerold Wagner, der immer ein offenes Ohr für mich hatte und so manches kritisch hinterfragte. Bei der OÖ Tourismus Technologie GmbH, bei der ich ein Projekt im Bereich Dublettensuche mitgestalten durfte. Last but not least bei allen Professoren, Lektoren und Kollegen, von denen ich so vieles in den vergangenen vier Jahren lernen durfte.
2 Vgl. Agens Consulting Studie, 2007, S. 2
Vorwort
Das Thema dieser Diplomarbeit entstand während meines Praktikums bei der OÖ Tourismus Technologie GmbH 3 , welches ich im Wintersemester 2007 absolvierte. Eines der Projekte umfasste die Evaluierung von Softwarelösungen zur Dublettensuche 4 im Adress-bestand des Oberösterreich Tourismus. Ursprünglich sollte das neu eingeführte CRM-Programm 5 die Dublettensuche durchführen. Mit aufwändigem Programmieraufwand wurde das CRM-Programm angepasst. Trotzdem wurden viele Adressdubletten nicht gefunden, wie sich später herausstellte. Drei Softwarelösungen für die Dublettensuche erfüllten unsere Anforderungskriterien und wurden evaluiert.
Während der Evaluierungsphase kamen viele Fragen auf und das anfänglich kleine Projekt wurde zunehmend komplexer. Ihnen, werte Leser, soll diese Diplomarbeit als Leitfaden zur Evaluierung, Einführung und zum nachhaltigen Betrieb der unscharfen Dublettensuche dienen.
„Data Quality Management umfasst die ganze Skala
vom Commitment der Unternehmensführung, über Prozesse, Dokumentation, Return on Investment, Risikoprofilierung bis hin zu den Tools, die eingesetzt werden, um die Datenqualität zu verbessern und zu sichern.“
Gender-Hinweis
Aus Gründen der besseren Lesbarkeit wird in diesem Dokument bei Personenbezeichnungen die männliche Form verwendet, obwohl die weibliche und männliche Form gemeint ist.
3 eine Tochter der Oberösterreich Tourismus
4 Dublette: zB Adresse, die mehrmals (in leicht unterschiedlicher Schreibweise) in einem Adressbestand vorkommt
5 CRM = Customer Relationship Management = Kundenbeziehungsmanagement
6 Sekundärzitat: Vgl. Wandt, Database Marketing 01/2006, S. 6
1 Einleitung
Doppelte Zusendungen in Form von Werbung oder ähnlichem kennt fast jeder. Früher wurde damit argumentiert, dass es zu teuer wäre, diese doppelten Adressen aus der Datenbank zu entfernen. Heute helfen moderne Softwarelösungen diese effizient aufzuspüren. Moderne Softwarelösungen helfen dabei und finden auch dann doppelte Adressen, wenn diese unterschiedlich geschrieben sind (was meistens auch der Fall ist). Mittels Integration in bestehende IT-Systeme können Dubletten damit sogar bereits bei ihrer Entstehung effektiv verhindert werden.
Eine manuelle Dublettensuche ist schon ab 5000 7 Adressen nur mit großem Aufwand möglich. Software hilft bei der Vorauswahl von potenziellen Dubletten. Die Entscheidung, ob es sich um richtige oder falsche Dubletten handelt, kann in letzter Instanz nur der Mensch treffen. Die Software kann maximal eine Vorauswahl treffen. Datenqualität ist für viele Unternehmen zu einem strategischen Faktor geworden. Die intelligente Verwaltung der Daten in einem Unternehmen ist keine kurzfristige Aktivität, sondern stellt sich als kontinuierlicher Prozess dar, in dem alle Daten stets aktuell, korrekt, vollständig, eindeutig, administrierbar, kosteneffektiv und akzeptabel sind. 8 Die Dublettensuche ist das Kernthema dieser Diplomarbeit. Gleichzeitig muss darauf hingewiesen werden, dass die Korrektheit und Vollständigkeit der Daten ebenso wichtig sind wie deren Redundanzfreiheit 9 .
7 Vgl. is report, 6/2004, S. 48
8 Vgl. Gohr, Database Marketing 01/06, S. 5
9 Redundanz = Vorhandensein eigentlich überflüssiger, für die Information nicht notwendiger, Elemente (Duden 1989)
2 Forschungsfrage
Diese Diplomarbeit soll folgende Forschungsfrage beantworten bzw. behandeln:
Aus dieser globalen Forschungsfrage ergeben sich folgende untergeordnete Fragen: ● Wie können Dubletten entstehen? ● Welche Probleme können dadurch auftreten? ● Welcher Nutzen entsteht aus bereinigten Adressbeständen? ● Welche exemplarischen Software-Anforderungen gibt es? ● Welche (neuen) Anforderungen werden an die betrieblichen Prozesse gestellt? ● Welche Werkzeuge können für die Evaluierung der Software eingesetzt werden? ● Was ist bei der Implementierung der Software zu beachten? ● Durch welche Maßnahmen können Dubletten nachhaltig verhindert werden? ● Welche Einsparungspotenziale gibt es in diesem Zusammenhang?
Es gibt nicht DAS Konzept, welches für jedes Unternehmen passt, ohne modifiziert zu werden. Aus diesem Grund soll in dieser Arbeit ein möglichst breites Spektrum an Anforderungen und Herausforderungen im Zusammenhang mit Dublettensuche beleuchtet werden. Sie soll als Basis für die Erstellung eines eigenen Konzepts dienen, welches auf die jeweiligen Bedürfnisse abgestimmt ist.
2.2 Abgrenzung - was ist nicht Thema dieser Diplomarbeit? Folgende Themen stehen in engem Zusammenhang mit der Dublettensuche, würden aber den Rahmen dieser Diplomarbeit sprengen. Trotzdem möchte ich auf die Wichtigkeit der einzelnen Vorsorgemaßnahmen zur Erhaltung und Erlangung von nahezu vollständigen und korrekten Daten hinweisen.
2.2.1 Technologische Funktionsweise der Dublettensuche
Die mathematischen Algorithmen, Fuzzy-Logic, Pattern-Matching, Phonologie, Trigramm-Vergleiche, wissensbasierte Methoden und andere (technologische) Hintergründe
zur Dublettensuche sind für Entwickler 10 sehr interessant, spielen aber in der Anwendung der Software eine untergeordnete Rolle. Wichtig ist vor allem das Ergebnis.
2.2.2 Adresspflege
Durch Umzug und Sterblichkeit haben Adressen eine relativ kurze Gültigkeitsdauer. Sterberegister und Umzugsdatenbanken können erheblich dazu beitragen, die Adressen auf dem aktuellen Stand zu halten und somit eine kontinuierliche Kommunikation mit dem Kunden (bzw. dem Lieferanten) ermöglichen. Bei Firmenadressen können sich die Ansprechpartner aber auch der Firmenname selbst ändern. Sogar Straßennamen und Postleitzahlen (Beispiel: Einführung neuer PLZ in Deutschland 1993 11 ) sind nicht für immer gültig.
Insbesonders bei A-Kunden 12 sollte unbedingt darauf geachtet werden, dass diese Adressen aktuell sind und bleiben. Die Überprüfung der Adressdaten kann mittels Outsourcing 13 zugekauft oder durch Implementierung von entsprechender Software durchgeführt werden.
Neben Umzugs- und Sterbedatenbanken gibt es auch noch die so genannte Robinsonliste 14 . In diese Liste können sich Personen eintragen lassen, die keine persönlich adressierte Werbung zugestellt bekommen wollen. Ein Abgleich mit dieser Liste stellt sicher, dass diese Empfänger gefiltert werden, bevor das Mailing verschickt wird. Dieser Vorgang setzt wiederum postalisch korrekte Adressen voraus.
Einige Dienstleister bieten auch Daten über die Bonität von Personen an. Durch Abgleich mit diesen Listen, vermindert sich das Risiko, Mailings an bekannte „schwarze Schafe“ zu versenden und danach auf unbezahlten Rechnungen „sitzen zu bleiben“. EU, UNO und USA führen so genannte Boykott- oder Sanktionslisten 15 in denen Unternehmen gelistet werden, gegen die ein Embargo verhängt wurde. Human Inference ist einer der Hersteller, die den Adressbestand hinsichtlich dieser Adressen durchsuchen können. 16
10 eine Diplomarbeit über die technisch-mathematische Seite von unscharfer Dublettensuche, mit sogar sehr ähnlichem
Titel, ist: „Unscharfe Suche in großen Adressbeständen“ von Jochen Schulz, 2006
11 Vgl. http://de.wikipedia.org/wiki/Postleitzahl_(Deutschland), Februar 2008
12 A-Kunden sind zB jene, die den höchsten Deckungsbeitrag bzw. Umsatz generieren
13 Details dazu in der Anbieterübersicht (Seite 54)
14 Vgl. www.fachverbandwerbung.at/de-service-robinsonliste.shtml
15 etwa 20.000 internationale Unternehmen sind mit Stand 11/07 gelistet
16 Vgl. Schmidt, enable 11/2007, S. 24
3 Grundlagen zum Thema Dubletten
3.1 Definition: Dublette (in Adressbeständen)
Unter einer Dublette versteht man das zwei- oder mehrmalige Vorhandensein derselben Adresse innerhalb eines Adressbestands. Insbesonders leichte Abweichungen in der Schreibweise (zB Umlaute), Abkürzungen von Vornamen oder Lesefehler bei Hausnummern (zB 36 statt 3b) sind dafür verantwortlich. 17
3.2 Wie können Dubletten entstehen?
Dubletten können sowohl aus technologischen als auch aus „menschlichen“ Gründen entstehen. Mitarbeiter, denen die Fertigkeit zu präzisem Arbeiten fehlt, die nicht motiviert sind, Schwierigkeiten haben sich zu konzentrieren oder einfach nur überlastet sind, verursachen bei der Eingabe leichte Vertipper oder Verdreher 18 , die beim Suchen dieser fehlerhaften Adresse dafür sorgen, dass sie nicht gefunden werden. Meist wird die Adresse neu angelegt, obwohl sie schon vorhanden wäre. Fehlende Berechtigungen beim Ändern von Adressen oder das Anlegen von einzelnen Firmen-Abteilungen als „Firmenadressen“ können ebenfalls zu Dubletten führen. 19
Ein beliebter Fehler ist auch das Vertauschen von Vor- und Nachnamen. Namen wie zB Thomas Hermann lassen schwer erkennen, welcher Name nun der Vorname ist. Werden die Daten in das falsche Feld eingetragen, finden klassische Datenbanken den bereits vorhandenen Eintrag nicht. Aber auch Namen von Personen mit Migrationshintergrund führen speziell bei telefonischer Übermittlung immer wieder zur Missverständnissen und in Folge zur Anlage von Dubletten. 20
Werden Adressen zugekauft oder im Unternehmen verteilte Adressdatenbanken zusammengeführt, ist eine gute Dublettensuche unbedingt notwendig, wenn doppelte Einträge weitestgehend vermieden werden sollen. Voneinander unabhängige Adressdatenbanken innerhalb des Unternehmens können auf unterschiedliche Weise entstehen:
- Fusionen von Unternehmen
- scheinbar unabhängige Vertriebsabteilungen
- Insellösungen von Mitarbeitern
17 Vgl. Elsner, 2003, S. 55
18 Verdreher: beim schnellen Schreiben können Buchstaben vertauscht werden (zB Dulbette statt Dublette)
19 Siehe Interview mit Dr. Spiessberger auf Seite 71.
20 Siehe Interview mit einem Inkasso-Institut auf Seite 73 und mit einem Versandhaus auf Seite 76.
Hat nun ein Käufer Kontakt mit zwei Verkäufern eines Unternehmens, die jedoch unterschiedliche Kundendatenbanken verwenden, kann es bei Überschneidungen hinsichtlich der Anfrage oder des Kundenproblems schnell zu Irritationen und Frusterlebnissen auf beiden Seiten kommen. Eine einheitliche Datenbasis, wie sie in der rechten unteren Abbildung zu sehen ist, würde den Kundenkontakt wesentlich vereinfachen und zu einer höheren Kunden- und Mitarbeiterzufriedenheit führen.
Ein prominentes Beispiel für den obigen Fall ist die Zusammenführung der separaten Polizzensysteme von Swiss Life Niederlande (Versicherungsunternehmen). Vor der Zusammenführung gab es insgesamt etwa 1.000.000 Adressen verteilt auf vier Systeme, die nach Produktgruppen gegliedert waren. Nachdem eine einheitliche Kundenverwaltungsumgebung geschaffen wurde, konnte der Adressbestand ohne „Verluste“ auf 450.000 reduziert werden. Viele Kunden hatten mehr als eine Versicherung bei Swiss Life und wurden deshalb mehrfach in den vier Polizzensystemen angelegt. 21 Die Online-Überprüfung bei der Eingabe von Adressen reagiert bei den Datenbankbasierten Lösungen meist nur auf exakte Übereinstimmungen. Sobald die Eingaben leicht abgeändert sind, liefern sie keine Ergebnisse im Gegensatz zu modernen Systemen, die nach ähnlichen Einträgen suchen.
Abweichungen bei Adressen können auch verbal bedingt sein. Gründe dafür können sprachliche Barrieren (zB Sprachfehler oder fehlende Sprachkenntnisse) sein. Undeutliche Aussprache im direkten oder telefonischen Kontakt sind leider auch keine Seltenheit und
21 Vgl. Human Inference Case „Swiss Life Feeling“, 2007, S. 2
nicht jeder Mitarbeiter fragt so oft nach, bis er sich sicher ist, alles richtig verstanden zu haben. 22 Absichtlich abweichende Adressdaten (bei Betrugsversuch), die vom Kunden selbst angegeben werden, können, genauso wie schlampig ausgefüllte Webformulare, zu Dubletten führen. 23
Medienbrüche verursachen oft Fehlinterpretationen. Ursachen dafür können beispielsweise eine undeutliche Handschrift oder schlecht lesbare Faxnachrichten sein. Von einem Medienbruch spricht man, wenn Daten manuell zB von Papier auf elektronische Systeme übertragen oder aber auch maschinell mittels OCR-Software 24 interpretiert werden müssen. 25
Namensänderungen 26 und Umzug können ebenso zu Dubletten führen, wenn die Adressen neu angelegt werden, anstatt die bestehenden zu aktualisieren. Sehr schwierig wird die Auffindung von Dubletten wenn Umzug und Heirat (mit Namensänderung) gleichzeitig stattfindet. 27
Zitat von Holger Helmold (GF der CRM-Beratung LoyalQ):
Die scharfe Dublettensuche stellt für herkömmliche Datenbanken kein Problem dar. Scharfe Dubletten sind ident wie folgendes Beispiel zeigt: Adresse A: Max Mustermann, Hausnummer 9a, 1100 Wien Adresse B: Max Mustermann, Hausnummer 9a, 1100 Wien
Klassische Datenbanken können solche Dubletten leicht finden.
Unscharfe Dubletten sind für den Menschen oft ebenso leicht zu identifizieren wie scharfe Dubletten. Für Datenbanken stellt eine solche Identifikation aber eine große Her-ausforderung dar, weil es sich rein mathematisch um ganz unterschiedliche Adressen handelt wie folgende Beispiele zeigen:
22 Vgl. is report 6/2004, S. 44
23 Siehe Interview mit einem Versandhaus auf Seite 76.
24 OCR = Optical Character Recognition
25 Vgl. Eberspächer / Reden, 2005, S. 74f
26 wie zB durch Eheschließung, Scheidung, Firmenfusion und - akquisition
27 Siehe Interview mit Dr. Spiessberger auf Seite 71
Adresse A: Max Mustermann Hausnummer 9a 1100 Wien Adresse B: Maximilian Mustermann HAusnr. 9a 1100 Wien
Adresse A: AAE Hausnummer 66 9640 Kötschach Adresse B: Alpen Adria Energie Nr. 66a 9640 Ktöschach
Aus Gründen der besseren Lesbarkeit steht in diesem Dokument das Wort „Dublettensuche“ immer als Synonym für die unscharfe Dublettensuche (außer wenn aus dem Zusammenhang heraus die klassische (scharfe) Dublettensuche gemeint ist, wie in obigem Beispiel).
4 Nutzen von bereinigten Adressbeständen
Bei einer Adressdatenbank (die häufigen Änderungen unterworfen ist) gibt es den Ideal-zustand der hundertprozentigen Dublettenfreiheit nur in Ausnahmefällen, und wenn, dann nur über eine begrenzte Zeit hinweg. Mit der unscharfen Dublettensuche kann jedoch der Idealzustand näherungsweise erreicht werden. In diesem Kapitel wird der Nutzen von einem von Dubletten bereinigten Adressbestand herausgearbeitet. Eine Nutzenbetrachtung ist wichtig, weil die Anschaffungskosten im IT-Bereich fast immer mit einem (finanziellen) Mehrwert für das Unternehmen begründet werden müssen. Dieser Mehrwert kann durch niedrigere (Prozess-)Kosten, aussagekräftigere CRM-Daten, gesteigerter Mitarbeiterzufriedenheit und einem besseren Image des Unternehmens generiert werden.
4.1 Höhere Kunden- und Mitarbeiterzufriedenheit
Bei Reklamationen besteht die Gefahr, dass es zu Missverständnissen kommt, wenn die Reklamation vom Bearbeiter nicht nachvollzogen werden kann, weil die „falschen“ Kundendaten aufgerufen wurden und der Grund der Reklamation in dieser Dublette nicht ersichtlich ist. Im schlimmsten Fall wird der Kunde „abgewimmelt“, im besten Fall wird (auf beiden Seiten) Zeit durch die neuerliche Suche der richtigen Kundendaten vergeudet. Sind die Bestellungen und Umsätze nicht auf mehrere Dubletten verteilt, wird Mahnproblemen durch falsche Saldi vorgebeugt. 28
4.2 Kostenvorteile
4.2.1 Druck-, Porto- und Imagekosten
Dubletten verursachen bei Mailings nicht nur unnötige Mehrkosten (durch Druck und Porto), sie sind sogar oft kontraproduktiv. Im besten Fall kommt die Dublette als Postrückläufer 29 retour und der Kunde hat nichts gemerkt. In vielen Fällen erzeugen die Mehrfachmailings, die beim Kunden ankommen, einen negativen Eindruck, der sich zusätzlich verstärkt, wenn Teile der Adresse nicht (mehr) richtig sind. Gibt der Kunde diese Erfahrung auch noch durch negative Mundpropaganda weiter, multipliziert sich der Image-Schaden.
28 Ist ein Kunde doppelt angelegt und bezahlt 2 Rechnungen seiner verschiedenen Kundennummern, kann es dennoch
zu einer Mahnung kommen, weil nach Verbuchung des Zahlungseingangs auf einer der beiden Kundennummern, bei
beiden derselbe Saldo - allerdings mit unterschiedlichen Vorzeichen - aufscheint. Vgl. Interview, Spiessberger, S. 71
29 Post, die an den Absender retourniert wird, weil der Empfänger nicht (eindeutig) identifiziert werden konnte.
Diese Kosten können durch Implementierung von unscharfer Dublettensuche vermieden werden. 30
4.2.2 Produktivitätssteigerung
Eine erfolgreiche Implementierung steigert zusätzlich die Produktivität. Die Reaktionszeit in Zusammenhang mit Anfragen kann durch die Reduzierung von Korrektur- und Recherchetätigkeiten minimiert werden. Reklamationen können effizienter behandelt werden, da die damit verbundenen Kundendaten einer eindeutigen Adresse zugewiesen sind.
4.2.3 Effektivere Bonitätsprüfung
Die unscharfe Dublettensuche kann aber auch vor zahlungsunwilligen Kunden schützen, die bewusst unter leicht unterschiedlichen Identitäten Waren bestellen, aber nie bezahlen. 31 Ein Abgleich der eigenen Adressdaten mit einer hausinternen „schwarzen Liste“ oder denen von Kreditschutzverbänden kann helfen, die leicht modifizierten Adressen von Kunden mit schlechter Bonität zu identifizieren.
4.3 Bessere Entscheidungsgrundlage
Auswertungen und Analysen von Kundendatenbanken bzw. CRM-Systemen dienen oft als Entscheidungsgrundlage für die Unternehmensführung, Marketing und Vertrieb. Dubletten führen zu verfälschten Ergebnissen beim analytischen CRM und vermindern die Erfolgsquoten beim operativen CRM. 32
4.3.1 CRM-Auswertungen
Erst wenn der Umsatz eines Kunden nicht mehr auf mehrere Dubletten verteilt ist, kann eine ABC-Analyse korrekt durchgeführt werden. Andernfalls könnte ein A-Kunde, der mehrfach als Dublette im System aufscheint, sehr leicht als B- oder C-Kunde identifiziert werden. Dies gilt auch für die Segmentierung in Stammkunden und gelegentliche Kunden. Während bei der ABC-Analyse der Umsatz zählt, ist bei der Segmentierung in Stammkunden und gelegentliche Kunden 33 das Bestelldatum der ausschlaggebende Faktor. Zu beach-
30Um die Richtigkeit der Adresse zu gewährleisten, sollten die Adressen regelmäßig auf ihre Richtigkeit geprüft wer-
den. Entsprechende Dienstleister befinden sich in der Anbieterübersicht auf Seite 54.
31 Vgl. Naumann, 2006, S. 27
32 Vgl. Gohr, Database Marketing 01/06, S. 6
33 Im Fachjargon auch XYZ-Analyse genannt.
ten ist jedoch, dass Statistiken, die Kundenzahlen darstellen, nach der Bereinigung nicht mehr ohne weiteres mit den Statistiken der vergangenen Jahre vergleichbar sind. 34
4.3.2 Cross-Selling
Wirksames Cross-Selling 35 wird durch Dubletten ebenfalls verhindert, weil die einzelnen Daten verteilt gespeichert sind und der Kunde das Angebot möglicherweise schon wahrgenommen hat und nicht versteht, warum es ihm noch einmal angeboten wird. Ebenso können Aktion und Reaktion nicht eindeutig zugeordnet werden. 36
4.4 Beitrag zum Umweltschutz
Indem man Kunden nicht mehr mit Mehrfachmailings belästigt, wird gleichzeitig die Umweltbilanz des Unternehmens verbessert, weil die Mailings weder gedruckt, noch versendet werden müssen.
4.5 Freie IT-Ressourcen
Im Beispiel von Swiss Life 37 (siehe Seite 15) wurde der Adressbestand mehr als halbiert. Dies steigert die Performance der zugrunde liegenden Datenbank, die sich in schnelleren Responsezeiten bemerkbar macht. Die verringerte Anzahl von Adressen bedeutet gleichzeitig auch wiedergewonnene Speicherkapazität.
4.6 Zusammenfassung
Die unscharfe Dublettensuche bietet neben deutlichen Kostenvorteilen auch noch eine Produktivitätssteigerung, welche mit einer höheren Mitarbeiter- und Kundenzufriedenheit einhergeht. Die höhere Qualität der CRM-Daten führt zu besseren Analysen und zieht bessere Entscheidungen nach sich. Die nicht gedruckten Mailings und die geringere Auslastung der Server verbessern obendrein die Klimabilanz des Unternehmens.
34 Vgl. Interview Spiessberger, S 71
35 Cross-Selling: Dem Kunden werden zusätzlich zu bisher bezogenen Produkten gezielt weitere Produkte angeboten.
36 Vgl. is report 6/2004, S. 45
37 Vgl. Human Inference Case „Swiss Life Feeling“, 2007, S. 2
5 Voraussetzungen für die Einführung von
Dublettensuch-Software
Es gibt drei Bereiche, die einen (in-)direkten Einfluss auf die Qualität der Daten haben: Mitarbeiter, Prozesse und Technologie sind Ansatzpunkte für die Datenqualitätsoffensive. 38
5.1 Mitarbeiter
Bewusstseinsbildung bei allen beteiligten Mitarbeitern ist der erste Schritt zur Erhöhung der Datenqualität. Noch vor Einführung der Software sollte im Rahmen einer Informationsveranstaltung auf die wesentlichen Vorteile dieser Software hingewiesen werden. Gleichzeitig soll durch begleitende Schulungsmaßnahmen die Bedeutung von Kundendaten als einer der wesentlichsten Produktionsfaktoren des Unternehmens hervorgehoben werden. Eine höhere Datenqualität kann nur durch gemeinsame Anstrengungen erreicht werden und resultiert in folgende Nutzenpotenziale (wie im vorigen Kapitel bereits beschrieben), die sich direkt auf die Mitarbeiter- und Kundenzufriedenheit auswirken: ● weniger Korrekturen, Umbuchungen und Recherchetätigkeiten
● aussagekräftigere CRM-Analysen möglich (wichtig für Marketing/Vertrieb) ● Beitrag zu einer besseren Klimabilanz
38 Vgl. BARC-Studie, 2005, Kapitel 6
Um das Projekt zu starten, muss zuerst die Projektgruppe festgelegt werden. Es ist wichtig, dass auch betroffene Mitarbeiter, die täglich mit den Adressdaten arbeiten, im Projektteam sind. So ist gewährleistet, dass mögliche Änderungen in der Benutzeroberfläche auch gleich von diesen Teammitgliedern getestet werden können und deren Feedback in die Gestaltung des Prototyps einfließt. Dies führt letztlich zu einer höheren Akzeptanz nach der Einführung der unscharfen Dublettensuche.
5.2 Technologie
5.2.1 Zentrale Datenhaltung
Um überhaupt sinnvoll nach Dubletten suchen zu können, sollten, falls vorhanden, verteilte Adressbestände 39 zusammengeführt werden. 40 Handelt es sich um reine Adressdatenbanken ohne dazugehörige Dokumente (wie zB Rechnungen, Korrespondenz, Notizen,...), ist dies mit relativ geringem Aufwand möglich. Meist jedoch werden die Adressdaten (mitsamt den Dokumenten) in einem ERP- oder CRM-System verwaltet. In diesen Fällen soll genau darauf geachtet werden, dass auch die Dokumente innerhalb der Dubletten, falls gesetzlich erlaubt, zusammengeführt werden.
Im Fall von BMW wurden die Adressdaten des Vertriebs, des Marketings und der Distribution auf jeweils eine Oracle-Datenbank pro Land zusammengeführt. Es wurde bewusst auf eine globale Adressdatenbank verzichtet, weil die internationalen Adressformate sich zu stark voneinander unterscheiden. 41
5.2.2 Möglichst vollständige Adressen
Um unscharfe Dublettensuche überhaupt sinnvoll betreiben zu können, sollten die Adressdaten möglichst vollständig sein. Gründe für unvollständige Adressdaten sind zB: ● Import von zugekauften Adressen in schlechter Qualität ● Unvollständig angelegte Adressen durch eigene Mitarbeiter ○ weil keine Mussfelder definiert sind (oder diese umgangen wurden) ○ weil nur einzelne Adresselemente benötigt wurden (E-Mail, Telefon,...)
39 Unter verteilten Adressbeständen werden in diesem Fall Adressen gleicher Art, wie zB alle Kunden- oder Lieferante-
nadressen verstanden, die in mehreren Datenbanken verwaltet werden. In den Interviews zeigte sich, dass eine
getrennte Haltung von Adressen unterschiedlicher Kategorien in der Praxis bewusst vorkommt (siehe Interview OÖ
Nachrichten bzw. OÖ Meinungsforschungsinstitut)
40 Vgl. Statement von Dr. Spiessberger im Interview auf Seite 71.
41 Vgl. Wierner, Direkt Marketing 11/03, S. 26f
Je unvollständiger die Einträge sind, desto mehr potenzielle Dubletten ergibt die Dublettenprüfung. Folgendes Beispiel soll dies verdeutlichen:
A b bild u n g 3 : Unvollstä n dig a n gelegte A dressen
Angenommen, diese drei Adressen stellen drei unterschiedliche Kunden dar. Je nach Kontaktart wurden nur die relevanten Daten erhoben (Adresse oder Telefonnummer oder E-Mail), die in der obigen Grafik schwarz hinterlegt wurden. Die durchgestrichenen Adresselemente wurden nicht erhoben. Eine unscharfe Dublettensuche würde alle drei Adressen als mögliche Dublettengruppe auflisten. Würde man die drei Adressen verschmelzen, ergäbe sich sogar ein vollständiger Datensatz, allerdings mit vollkommen falschen Daten. Die Entscheidung, ob es richtige oder falsche Dubletten sind, sollte daher nach wie vor der Mensch und nicht der Computer treffen. 42
Aus dem obigen Beispiel lässt sich also ableiten, dass unvollständige Datensätze eine höhere Anzahl potenzieller Dubletten bewirken. Das Ergebnis einer Dublettensuche würde solch unvollständigen Adressen als potenzielle Dubletten (zu anderen vollständigen Adressen) auflisten. 43 Mithilfe der Dublettensuche können unvollständige Adressen sehr leicht aufgespürt werden. Diese gilt es dann entweder zu vervollständigen oder zu entfernen, falls sie nicht mehr benötigt werden.
5.2.3 Zugriffsberechtigungen
Adressbestände können durch unsachgemäßen Umgang sehr schnell verunreinigt werden. Mitarbeiter sind daher entsprechend zu schulen, bevor sie schreibenden Zugriff auf die Adressdaten haben. Es empfiehlt sich auch zu definieren, welche Mitarbeiter diesen schreibenden Zugriff brauchen und welche nicht. Bei den Interviews 44 stellte sich heraus, dass in den meisten Unternehmen nur so viele Mitarbeiter wie nötig Zugriff auf sensible Adressdaten haben.
42 Ein weiteres Beispiel dazu befindet sich im Interview mit einem Inkasso-Institut auf Seite 73 bzw. im Interview mit
einem Meinungsforschungsinstitut auf Seite 75.
43 Fuzzy Dupes zB vergleicht unvollständige Adressen mit vollständigen indem es die leeren Felder ignoriert bzw.
davon ausgeht, dass sie ident sind mit dem zu vergleichenden (gefüllten) Adressfeld.
44 Siehe Seite 67ff (zB OÖ Nachrichten)
5.3 Prozesse
Prozesse, welche sich direkt auf die Aktualität, Vollständigkeit und Redundanzfreiheit des Adressbestands auswirken, sollten auf ihre Wirksamkeit überprüft und optimiert werden. Einer der Gründe warum Dubletten entstehen, ist die Neuanlage von Adressen. Reicht die bisherige Online-Dublettenprüfung 45 nicht aus, sollte überprüft werden, welche Schnittstellen es gibt, um eine Online-Dublettenprüfung eines Dritt-Herstellers 46 zu integrieren.
5.3.1 Fehler-Report-System
Werden Dubletten oder Fehler in den Adressen bemerkt, ist ein leicht zu bedienendes Fehler-Report-System von großer Bedeutung für die Datenqualität. Jeder Mitarbeiter (auch solche mit nur lesendem Zugriff) soll die Möglichkeit haben, auf einfachste Weise einen Fehler bei einer Adresse zu melden. Ein möglicher Vorschlag wäre zB, dass neben der Adresse ein Button „Fehler melden!“ angeklickt und in einem kleinen Eingabefenster eine Begleit-Notiz hinterlegt werden kann. Wichtig ist, dass diese Meldung in kurzer Zeit erledigt werden kann, sonst sinkt die Bereitschaft der Mitarbeiter sie überhaupt zu nutzen. Datum und Benutzer werden automatisch gespeichert und die Meldung wird direkt an die verantwortliche Person weitergeleitet. 47
5.3.2 Adressverantwortliche
Dieses Fehler-Report-System setzt natürlich einen Empfänger der Fehlermeldung voraus. Ganz wichtig ist, dass der Empfänger mit der Nachricht auch etwas anfangen kann bzw. den Fehler auch mit möglichst geringem Aufwand beheben kann. Deshalb ist es wichtig, dass es für jede Adresse eine verantwortliche Person gibt, die diese Fehlermeldung erhält. Sobald mehr als eine Person dafür in Frage kommt, ist die Antwort auf diese Frage nicht mehr so leicht. Hier gibt es unterschiedliche Ansätze, wer das sein könnte. ● Gibt es eindeutig zugewiesene Key Account Manager bzw. Betreuer, sollten sie Empfänger der Fehlermeldung sein. Durch den häufigen Kundenkontakt wird es ihnen am ehesten möglich sein, den Fehler zu beheben. ● Gibt es innerhalb des Unternehmens keine eindeutigen Kontaktpersonen für den Kunden, können unterschiedliche Benutzer als Empfänger der Fehlermeldung in
45 Bereits während der Eingabe der neuen Adresse sucht das System im Hintergrund nach möglichen Dubletten im Sys-
tem und bietet dem Benutzer die Möglichkeit eine der bestehenden Adressen zu übernehmen, oder die Neuanlage der
Adresse fortzuführen.
46 Fuzzy Dupes zB bietet Softwarelösungen für .NET oder COM-Schnittstellen an.
47 Ein praktisches Beispiel dazu befindet sich im Interview mit einem Meinungsforschungsinstitut auf Seite 76.
Frage kommen. Grundvoraussetzung ist, dass bei jedem Kontakt hinterlegt ist, wer Verfasser, letzter Bearbeiter, häufigster Bearbeiter, etc. war. Welche Benutzer nun tatsächlich am geeignetsten sind, den Fehler zu beheben, kann global nicht beant-wortet werden. Wichtig ist, dass die Fehlermeldung auch wirklich ankommt und der Fehler erkannt und die Adresse richtig gestellt wird. Die Empfänger der Fehlermeldung könnten nicht mehr im Unternehmen sein. Für diesen Fall sollte vorge-sorgt werden (durch Mail-Weiterleitung oder ähnlichem). Andernfalls würde die Fehlermeldung entweder gar nicht berücksichtigt oder zum falschen Bearbeiter gelangen.
Im Umgang mit Adressen sind klare Verantwortungen äußerst hilfreich. Aktivitäten rund um Adressen sollten in regelmäßigen Abständen evaluiert und vor allem koordiniert werden. Durch die Abstimmung der Reihenfolge der Aktivitäten lassen sich Kosten sparen. Es macht zB einen Unterschied (auf die Kosten bezogen), ob unbereinigte Adressbestände von externen Dienstleistern postalisch geprüft werden, oder ob zuerst alle Dubletten verschmolzen und nicht mehr benötigte Adressen entfernt werden.
Wie bereits auf Seite 16 erwähnt, sollten Medienbrüche in der Be- und Verarbeitung von Adressen vermieden werden, da sie fehleranfällig sind und Ressourcen verschwenden, wenn sie vermeidbar wären.
Durch bessere Prozesse kann eine höhere Qualität der Daten erreicht werden. Zuerst sollten jene Prozesse verbessert werden, die ein großes Potenzial zur Verbesserung der Datenqualität versprechen. Weiterhin sind dann Prozesse vorzuziehen, die am einfachsten anzupassen sind. Das Pareto-Prinzip, wonach mit 20% des Aufwands 80% des Erfolgs möglich wird, findet auch hier Anwendung. 48
48 Vgl. BARC-Studie, 2005, Kapitel 6
6 Erstellung eines Anforderungskatalogs
Dieses Kapitel dient als Grundlage für die Erstellung eines Anforderungskatalogs, welcher auf die spezifischen Anforderungen des Unternehmens zugeschnitten sein muss. Nicht jede Funktion ist für die unterschiedlichen Einsatzszenarien gleich wichtig. Vielmehr dient die Auflistung der Kriterien als Diskussionsgrundlage für das Projektteam. Bei der Erstellung des Anforderungskatalogs sollten die einzelnen Kriterien gewichtet werden. Eine Unterscheidung in Muss- und Soll-Kriterien ist sinnvoll, um bei der Auswahl der Anbieter eine Vorauswahl anhand der Muss-Kriterien treffen zu können.
6.1 Infrastruktur
Unter Infrastruktur ist im Zusammenhang mit der Dublettensuche sowohl die Plattform als auch die Architektur gemeint.
6.1.1 Plattform
Unter Plattform ist in diesem Zusammenhang das zugrunde liegende Betriebssystem gemeint. Die Projektgruppe sollte die unterstützten Plattformen beim zuständigen IT-Ver-antwortlichen erfragen.
Die Anbieter in der Übersicht 49 unterstützen zT folgende Betriebssysteme: Windows, Linux, Solaris, Unix, Mac OS, AS/400 und einige mehr. 50
Bei der Entscheidung, welche Plattform unterstützt werden soll, spielt auch die strategische Ausrichtung eine große Rolle. Vor allem dann, wenn in absehbarer Zeit ein Wechsel der Plattform ins Haus steht (wie zB bei der Migration auf Debian-Linux in München 51 ). Die Dublettensuche sollte somit auch mit der zukünftigen Plattform zu betreiben sein. Beim Kauf der Lizenz soll in diesen Fällen darauf geachtet werden, dass sie plattform unabhängig gültig ist.
6.1.2 Architektur
Die Architektur beschreibt die Art, wie die Dublettensuche zur Verfügung gestellt wird. Die einfachste Variante ist die Installation auf einer Workstation 52 . Bei geringen Hard-wareanforderungen und einer überschaubaren Menge an Installationen macht dies Sinn.
49 siehe Anbieterübersicht (Seite 54)
50 die Version des Betriebssystems sollte ebenfalls beim Anbieter bzw. beim IT-Verantwortlichen nachgefragt werden
51 Vgl. www.muenchen.de/Rathaus/dir/limux/publ/147183/index.html
52 Die Dublettensuche wird auf dem jeweiligen Arbeitsplatz-Rechner (Workstation) installiert.
Bei einer Client/Server-Architektur werden die Aufgaben der Dublettensuche verteilt. Der Client stellt die Eingabedaten zur Verfügung 53 und stellt das Ergebnis dar. Der Server übernimmt die Verarbeitung, im Falle der Dublettensuche den Abgleich der Adressen. 54 Die Client/Server-Architektur bietet sich an, wenn die Hardwareanforderungen durch die hohe Anzahl an Adressen höher sind und/oder viele Clients 55 auf die Dublettensuche zugreifen. Soll die Dublettensuche bereits während der Eingabe von Adressen (zB in ein CRM- oder ERP-System) stattfinden, ist die Client-Server-Architektur mit einem einzigen Ausnahmefall 56 zwingende Voraussetzung. Folgende Grafik soll dies verdeutlichen:
Bereits während der Eingabe wird nach ähnlichen Adressen gesucht. Der ERP-Server übergibt die Daten (die er von den Clients bereits während der Eingabe erhält 57 ) dabei an den Server, auf dem die Dublettensuche installiert ist. Dieser wiederum gibt die gefundenen ähnlichen Adressen an den ERP-Server zurück, der diese Adressen an den Client übergibt und sie dort als Übernahmevorschlag präsentiert.
Die Client-Server-Architektur spart Kosten, weil die Hardwareanforderungen bei den Clients nicht so groß sind und die Rechenlast (Adressvergleich durch unscharfe Dublettensuche) auf dem Server konzentriert ist.
53 bzw. gibt an wo sie sich befinden (zB auf einem weiteren Server)
54 Vgl. Herden / Gomez / Rautenstrauch / Zwanziger, 2006, S. 26
55 dies können auch andere Server sein
56 Ausnahme: es gibt nur EINE Workstation, auf der alle Programme (CRM/ERP + Dublettensuche) installiert sind.
57 Mussfelder für Dublettensuche sollen definiert und entsprechend gekennzeichnet werden: Im Projekt der WKOÖ
waren dies Vorname + Nachname + Geb.Dat. oder PLZ
6.2 Integration in bestehende Systeme
Am wirkungsvollsten und nachhaltigsten werden Dubletten bereits bei der Eingabe bekämpft (siehe Kapitel „Architektur“ auf Seite 26). Die Dublettensuche ist oft schon in der Unternehmenssoftware integriert. In vielen Fällen ist die Leistungsfähigkeit aber unzureichend 58 im Vergleich zu professioneller Dublettensuch-Software. Aus diesem Grund sollte bei der Auswahl großen Wert auf die Integrationsmöglichkeiten in die bestehende IT-Landschaft gelegt werden. Zweck der Integration ist die Dublettensuche bereits während der Eingabe von neuen Adressen (auch Online-Überprüfung genannt). Diese ähnlichen Adressen werden vom System zur Übernahme vorgeschlagen. Wenn die Adresse, die der Benutzer gerade anlegt, schon besteht, kann er den passenden Vorschlag übernehmen. Handelt es sich tatsächlich um eine neue Adresse, kann er die Vorschläge als unpassend zurückweisen oder ignorieren. Die Produktivität kann damit erheblich gesteigert werden. 59
Scarus Software bietet zB mit der IntelliCleaner Enterprise Edition ein entsprechendes Produkt, welches sich weitestgehend integrieren lässt, wie obige Abbildung schematisch illustriert. 60
58 Die OÖ. Tourismus Technologie GmbH war mit der Dublettenprüfung vom CRM-System P2Plus nicht zufrieden und
setzte zusätzlich auf Fuzzy Dupes von Kroll-Software, wodurch die Anzahl der Dubletten nochmals erheblich redu-ziert werden konnte.
59 Vgl. Naumann, 2006, S. 30
60 Vgl. www.scarus.de/downloads/ps_intellicleaner_3_0_web.pdf, Mai 2008
IntelliCleaner Enterprise setzt bei dieser Lösung auf eine web-basierte Client-/Server-Lösung, die in Java programmiert auf einer LAMP- oder WAMP-Umgebung 61 einsetzbar ist. Die Adressdaten werden von verschiedenen Systemen zentral in eine Datenbank eingelesen und anschließend verglichen. 62
6.2.1 Schnittstellen
Schnittstellen sind Grundvoraussetzung für die Integration von zwei oder mehreren Informationssystemen. Im Falle der Dublettensuche handelt es sich bei den Informationssystemen um die Adressdatenbank, die Unternehmenssoftware (CRM, ERP 63 ,...) und die Dublettensuch-Software. Damit die Adressen von der Dublettensuch-Software richtig importiert (und die Übereinstimmungsvorschläge exportiert) werden können, muss mit der Adressdatenbank und der Unternehmenssoftware über eine jeweils gemeinsame Schnittstelle kommuniziert werden. Meist bieten die Softwarelösungen 64 mehrere Schnittstellen an. Gibt es keine Schnittstellen, die von den Softwarelösungen gleichermaßen unterstützt werden, bieten sich folgende Lösungsmöglichkeiten an: ● Integration mittels EAI 65 oder Middleware 66
● Schnittstellen-Erweiterung der Adressdatenbank und/oder Unternehmenssoftware ● Schnittstellen-Erweiterung der Dublettensuch-Software ● Wahl einer anderen Dublettensuch-Software
Die ersten drei Lösungen sind sehr aufwändig und meist dann erforderlich, wenn auf wenig verbreitete oder nicht genormte Standards gesetzt wird. Einige weit verbreitete Schnittstellen sind zB: ● ODBC-Datenbank-Treiber
○ Open DataBase Connectivity ist ein Datenbanktreiber, der eine Schnittstelle zur Anbindung von Anwendungen an vielfältige Datenbanksysteme bietet 67 ○ Die Grundfunktionen von ODBC sind
61 LAMP = Linux, Apache, MySQL, PHP - WAMP = Windows, Apache, MySQL, PHP
62 Vgl. www.scarus.de/intellicleaner_enterprise_d.php, Mai 2008
63 Enterprise Ressource Planning (wie zB BMD, SAP, CUON, ...)
64 Adressdatenbank, Unternehmenssoftware und Dublettensuche
65 EAI = Enterprise Application Integration
66 Vgl. Herden / Gomez / Rautenstrauch / Zwanziger, 2006, S. 51
67 Vgl. Godschalk, 2007, S. 197
● Oracle- / MS SQL- / MySQL-API 69
○ bietet die Möglichkeit mit Oracle- / MS SQL / MySQL-Datenbanken zu
In Englisch auch „runtime environment“ genannt. Sie bezeichnen virtuelle Maschinen mit ihren Funktionsbibliotheken. Laufzeitumgebungen sind Ausführungsebenen. 70 Die populärsten Vertreter sind Java (von Sun), .NET (von Microsoft) und MONO (das Open Source Pendant zu .NET) 71 . Kroll-Software bietet die Dublettensuche auch für .NET an. Human Inference bietet sie unter anderem für Java an.
6.2.3 Echtzeitumgebungen
Unter einer Echtzeitumgebung wird eine Kombination aus Hard- und Software verstanden, die bereits vom Anbieter vorkonfiguriert ist oder vom „Kunden“ selbst in Verbindung mit der gekauften Software und der dazu passenden Hardware konfiguriert wird. Echtzeitsysteme sind immer für einen bestimmten Zweck ausgerichtet und daraufhin optimiert 72 . Diese Systeme sind für die Online-Dublettensuche optimiert, da hier die Reaktionszeit eine große Rolle spielt. Sie können aber auch in Zeiten geringer Auslastung für die Batchsuche eingesetzt werden. Uniserv ist ein Anbieter, der solche Echtzeitsysteme anbietet, wie folgende Abbildung verdeutlicht:
68 Vgl. Wieseckel, 2007, S. 36
69 API = Application Programming Interface = Schnittstelle zur Anwendungsprogrammierung
70 Vgl. Henkel, 2004, S. 144
71 Vgl. www.mono-project.com/Main_Page
72 Vgl. Google mini als Suchmaschine für Unternehmen (integrierte HW/SW-Appliance)
Der „DQ Real Time Server“ ist die HW/SW-Kombination, welche über diverse Schnittstellen (gelber Kreis) von den Client-Applikationen angesprochen werden kann.
6.2.4 Software-Module
Software-Module sind einzelne Bausteine einer Unternehmenssoftware (wie zB Warenwirtschaft, Finanzbuchhaltung, Personalwesen,...). Sowohl der Hersteller der Unternehmenssoftware, als auch Dritthersteller können einzelne Module für Unternehmenssoftware (wie zB SAP) vertreiben.
Einige Hersteller bieten ihre Dublettensuche (auch) als Modul zu einer bestehenden Unternehmenssoftware. Die Integrationsfähigkeit dieses Moduls ist in diesen Fällen oft durch ein entsprechendes Zertifikat des Herstellers der Unternehmenssoftware gewährleistet. Marble AdressCheck Pro (für SAP), Fuzzy!Double (für SAP) und Adress-Reiniger (Excel-AddIn) sind Beispiele dafür.
Diese Module sind meist hoch integrierte Anwendungen. Nachteilig könnte sich die Bindung des Moduls an eine einzige Unternehmenssoftware bei einem möglichen Wechsel eben dieser auswirken.
6.2.5 Reaktionszeit
Die Reaktionszeit spielt grundsätzlich nur bei der Online-Dublettenprüfung eine Rolle. Unter Reaktionszeit wird in diesem Zusammenhang die Zeit von der erfolgten Eingabe der (neuen) Adresse bis zur Präsentation der möglichen Übereinstimmungen (Dubletten) verstanden. In dieser Zeit müssen die eingegebenen Adressdaten an die Dublettensuche übergeben, die Dublettensuche durchgeführt und das Ergebnis an die Unternehmenssoftware zur Darstellung übergeben werden. Die Projektgruppe sollte sich unter Einbeziehung von betroffenen Mitarbeitern auf eine Mindestanforderung einigen, die nach Möglichkeit nicht überschritten werden sollte. Details dazu befinden sich im Kapitel Reaktionszeit auf Seite 64.
6.3 Datenbasis
6.3.1 Datenformat
Die firmenintern gebräuchlichen Datenformate (in Bezug auf Adressen) sollten von der Software ohne Konvertierungsmaßnahmen unterstützt werden. Beispiele für diese Datei-formate sind:
● CSV (Comma Separated Values) ● ODS (Open Document Spreadsheet) ● XLS(X) (MS Excel) ● usw.
6.3.2 Sprache und Zeichensatz
Ein Zeichensatz beschreibt die Zuordnung zwischen Zahlencodes 73 und Buchstaben. ISO-8859-15 ist zB der westeuropäische Zeichensatz mit Euro-Zeichen, ISO-8859-13 ist der Zeichensatz für den baltischen Raum, usw. 74
Alle Anbieter auf Seite 54 unterstützen selbstverständlich zumindest deutschsprachige Adressen und die entsprechenden Zeichensätze 75 . Werden rein mathematische Prozeduren bei der Dublettensuche angewandt, spielt die Sprache selbst eine untergeordnete Rolle im Gegensatz zu angewandten wissensbasierten Methoden, bei denen auch länderspezifisches Wissen nötig ist, welches nationale Besonderheiten der Adressierung, Namen und deren Schreibweisen berücksichtigt. 76
Befinden sich in den Adressdaten auch internationale Adressen bzw. sind diese in einem abweichenden Zeichensatz gespeichert, sollte geprüft werden, ob die Dublettensuche mit diesen Sprachen bzw. Zeichensätzen umgehen kann. Insbesonders dann, wenn wissensbasierte Methoden angewandt werden.
6.3.3 Anzahl der Adressdatensätze
Um ihre Produkte in mehreren Preiskategorien anbieten zu können, limitieren viele Hersteller die maximale Anzahl der Adressen, die verarbeitet werden können. Bei der Auswahl sollte darauf geachtet werden, dass sich ihr Adressbestand in Zukunft erhöhen kann. 77 Wählen Sie daher eine Lizenzvariante, die noch Spielraum für zusätzliche Adressen lässt, auch wenn sich der Adressbestand durch die Dublettensuche kurzfristig vermindern wird. Die meisten Hersteller bieten nachträglich Upgrade-Varianten an. Diese sollten bereits gekauft werden, wenn eine Überschreitung des Limits absehbar ist. Eine der wenigen Ausnahmen bezüglich dieser Limitierung ist Fuzzy Dupes von Kroll-Software.
73 Beispielsweise ist der Zahlencode 65 bei sehr vielen Zeichensätzen der Buchststabe A
74 Vgl. Kofler, 2007, S. 505
75 wie zB ISO 8859-15 (Quelle: www.iso.org)
76 Vgl. Wandt, 2007, S. 2
77 Vgl. Kenneweg, Direct Marketing (7/03), S. 29
6.4 Varianten der Dublettensuche
6.4.1 Dublettensuche im Batch-Verfahren
Batch-Verfahren bedeutet in diesem Zusammenhang den Adressbestand komplett auf Dubletten zu prüfen. 78 Das Batch-Verfahren eignet sich sehr gut für die regelmäßige Überprüfung aller Adressen, die bevorzugt (automatisiert) in einem Nachtlauf stattfinden kann. Auch wenn bereits bei der Eingabe eine Online-Überprüfung stattfindet, kann es trotzdem passieren, dass Dubletten angelegt werden. 79 In diesen Fällen werden diese Dubletten bei der Batch-Überprüfung erneut gefunden. Adressen, die nicht neu angelegt, sondern nur geändert werden, können sich ebenfalls zu Dubletten „entwickeln“, welche wiederum mit dieser Art der Dublettensuche gefunden werden können. Die gefundenen Dubletten sollten nach Möglichkeit nicht automatisch gelöscht, sondern manuell durchgesehen und bearbeitet werden können. 80
6.4.2 Dublettensuche im Online-Verfahren
Diese Variante wurde bereits in einigen Kapiteln beschrieben. 81 Sie spielt im Regelbetrieb häufig die wichtigste Rolle, da mit ihr bereits das Entstehen von Dubletten verhindert werden kann. Im Kapitel „Integration in bestehende Systeme“ auf Seite 28 wird auf die Möglichkeiten und Voraussetzungen einer Integration in die Infrastruktur des Unternehmens hingewiesen. Damit die Dublettensuche effektiv arbeiten kann, sollten Mussfelder definiert werden, die befüllt sein müssen, bevor die Online-Dublettensuche startet. 82
6.4.3 Negativ-Abgleich mit externen Adressen
Externe Adressen können mithilfe dieser Abgleich-Variante mit dem Adressbestand des Unternehmens verglichen werden. Dabei werden jene Adressen aus der externen Liste entfernt, die sich bereits im internen Adressbestand befinden. Somit wird die Anlage von Dubletten beim Import von externem (zugekauftem) Adressmaterial vermieden. Meist hat der unternehmensinterne Adressbestand eine andere Struktur wie die externen abzugleichenden Adressen. Dies sollte berücksichtigt werden können, indem die Daten- 78Vgl. Kenneweg, Direct Marketing (7/03), S. 29
79 zB wenn Übereinstimmungsvorschläge vom Benutzer ignoriert werden
80 Vgl. Kenneweg, Direct Marketing (7/03), S. 29
81 siehe Kapitel „Architektur“ auf Seite 26 und Kapitel „Reaktionszeit“ auf Seite 31
82 Im Projekt der WKOÖ waren dies Vorname + Nachname + Geb.Dat. oder PLZ
feld-Bezeichnungen einander zugeordnet werden können. Fuzzy Dupes zum Beispiel bietet folgende Einstellungsmöglichkeiten:
In der linken Spalte „Zielfeld“ werden mittels Drop-Down-Feld die einzelnen Datenfelder des eigenen Adressbestands dargestellt. Diese gilt es den „Werten aus der Importquelle“ zuzuordnen. 83
Bei häufiger Anwendung des Negativ-Abgleichs mit ähnlichen Datenquellen ist es hilfreich, die Zuordnung als eigenes Profil abspeichern bzw. laden zu können (wie in obiger Abbildung dargestellt).
Der Abgleich kann auch dazu verwendet werden, dass nur potenzielle Neukunden (aus den externen Adressen) ein Mailing bekommen und Bestandskunden vorher ausgeschieden werden. In diesem Zusammenhang soll die Software auch die Möglichkeit bieten, die abzugleichenden Listen mit Prioritäten zu versehen, um definieren zu können, von welcher Liste die Dubletten entfernt werden sollen. 84
Bei einigen externen Adresslisten kann es auch sinnvoll sein, zuerst innerhalb dieser Listen nach Dubletten zu suchen, bevor der Abgleich mit dem eigenen Adressbestand stattfindet. 85
83 Vgl. www.kroll-software.de, April 2008
84 Vgl. Kenneweg, Direct Marketing (7/03), S. 29
85 Siehe Interview mit einem Versandhaus auf Seite 76.
Werden zwei Adresslisten miteinander verglichen, kann zwischen Intra- und Interdubletten unterschieden werden. Eine Intradublette ist eine Dublette zu einer Adresse selben Ursprungs (also in der gleichen Liste).
Dublettengruppen mit Interdubletten bestehen aus Dubletten, die sich in beiden Adresslisten befinden. Zum Beispiel bietet AdressCenter von Omikron die Möglichkeit die Suche nach Intradubletten explizit zu deaktivieren, damit nur Dublettengruppen gefunden werden, die beide Adresslisten betreffen. In folgender Abbildung wurden Intradubletten gelb (Wagner bzw. Stallman) und die Interdubletten grün (Torvalds) dargestellt.
A b bild u n g 8 : Beispiel Intra - u n d Interd u bletten
Bei einem Negativ-Abgleich sind die Intradubletten meist nicht relevant. Gesucht werden dann nur die Interdubletten, während die Intradubletten das Ergebnis auf den ersten Blick verfälschen können, wenn sie nicht deutlich gekennzeichnet sind.
6.4.5 Positiv-Abgleich
Der Positiv-Abgleich kann verwendet werden um den eigenen, „veralteten“ Adressbe-stand mit aktuelleren oder zusätzlichen Daten aufzufrischen. Diese Funktion wird oft als Datenanreicherung beschrieben. Werden dabei Daten geändert, besteht das Risiko, dass richtige mit falschen Daten überschrieben werden. Der Erfolg einer Datenanreicherung hängt also sehr stark von der Qualität und vor allem Aktualität der zugekauften Daten ab. 86
6.5 Verarbeitungsoptionen der Dublettensuche
In diesem Kapitel werden die Einstellungsmöglichkeiten beschrieben, die vorgenommen werden können, um bessere oder effizientere Ergebnisse zu erzielen.
86 Vgl. Welck, Direct Marketing (11/2002), S. 23
Wie bereits auf Seite 16 beschrieben, sind unscharfe Dubletten schwerer zu identifizieren als „scharfe“, bei denen es nur zwei Unterscheidungen gibt: „ist eine Dublette“ oder „ist keine Dublette“.
Bei der unscharfen Dublettensuche wird mit unterschiedlichen Methoden der Grad der Übereinstimmung berechnet und oft in Prozentwerten angegeben. Im Einstellungsdialogfenster der Dublettensuche kann der Benutzer einen Prozentwert (oder eine Toleranzstufe) wählen, ab dem die Adresse als Dublette identifiziert wird. Man kann großzügig sein und zwei Adressen auch noch bei relativ starken Abweichungen als Dubletten ansehen (niedriger Prozentwert der Übereinstimmung). Dann senkt man den Underkill 87 und vergrößert den Overkill 88 . Umgekehrt verhält es sich, wenn man den Prozentwert zu hoch ansetzt. Dann senkt man den Overkill, gleichzeitig erhöht sich der Underkill. 89
Für eine Marketingkampagne wird wahrscheinlich eher riskiert, dass manche Kunden das Mailing nicht bekommen (bedingt durch einen Overkill), indem die Dubletten automatisch entfernt werden. Dabei wird in Kauf genommen, dass Adressen entfernt werden, die gar keine Dubletten sind. Der Prozentwert wird bei der Dublettensuche entsprechend niedrig eingestellt (zB 80%).
Die gleiche Einstellung von 80% würde bei der Online-Dublettenprüfung wahrscheinlich eine zu hohe Anzahl an Übereinstimmungsvorschlägen bedeuten und der Benutzer würde in seiner Arbeit nicht mehr unterstützt sondern behindert, wenn er gewissenhaft alle Übereinstimmungsvorschläge prüft.
Tatsächlich gibt es keinen allgemein gültigen Wert, da dieser immer von sehr vielen verschiedenen Faktoren 90 abhängig ist. Nach mehrmaligen Versuchen wird aber ein Gespür dafür entwickelt.
6.5.2 Gewichtung der einzelnen Adressfelder
Nicht jedes Adressfeld ist gleich wichtig. Gleiche PLZ oder Orte kommen wesentlich häufiger in Adressen vor als Familiennamen oder auch Straßenbezeichnungen. Um die Treffsicherheit der Dublettensuche zu erhöhen, können Adressfelder, die häufiger vorkom-
87Underkill: Adressen werden im Bestand belassen, obwohl es sich um dieselbe Firma oder Person handelt.
88 Man spricht von "Overkill", wenn Adressen als Dubletten identifiziert und aus dem Bestand entfernt werden, die in
Wirklichkeit gar keine Dubletten sind.
89 Vgl. www.qadress.de/hintergrund/dublettensuche.htm, April 2008
90 zB Anzahl und Dichte der Adressen, Anwendungszweck (Marketingkampagne oder Stammdatenbereinigung),...
men, mit einer geringeren Gewichtung und wichtige Felder, wie zB der Familienname, mit einer höheren Gewichtung versehen werden. 91 Folgender Screenshot soll dies verdeutlichen: 92
Je mehr sich die einzelnen Adressen ähneln bzw. je höher die Anzahl der Adressen, desto wichtiger ist diese Funktion. Mithilfe der Gewichtung kann der Overkill- bzw. Underkill-Effekt vermindert, aber nicht ausgeschlossen werden. Fuzzy Dupes stellt die Gewichtungsoptionen identisch, hoch, normal und niedrig zur Verfügung. AdressCenter von Omikron geht hier sogar noch einen Schritt weiter, indem für jedes Adressfeld jeweils Prozentwerte definiert werden können. Um die Dubletten im Ergebnis besser differenzieren zu können, gibt es die Möglichkeit sie nach unterschiedlichen Suchkriterien einzuteilen. Die Suchmatrix, wie sie von Omikron genannt wird, bietet einen sehr hohen Freiheitsgrad, der gleichzeitig mit mehr Komplexität gekoppelt ist. Die einzelnen Spalten (in der Abbildung) stellen jeweils unterschiedliche Kategorien von Dubletten dar und werden im Ergebnis entsprechend gekennzeichnet. Diese Differenzierung eignet sich auch für eine Einteilung in automatische bzw. manuelle Weiterverarbeitung von Dubletten.
91 Vgl. Whitepaper von Human Inference, 2006, S. 10
92 Quelle: Screenshot von Fuzzy Dupes (Kroll-Software)
6.5.3 Clustermanagement
Auch auf den schnellsten Rechnern ist es momentan nicht möglich, in einem Adressbe-stand, der größer ist als nur einige tausend Adressen, jede Adresse gegen jede zu vergleichen. Bei 10.000 Adressen wären es 50 Millionen Adressvergleiche, bei 100.000 Adressen bereits 5 Milliarden. Um diese Menge in einer Stunde durch zu bringen, müssten in jeder Sekunde 1,39 Millionen Adressen verglichen werden, was mit der heutigen Rechenkapazität in den Unternehmen eine Illusion oder zumindest sehr unwirtschaftlich ist. Aus dieser „Not“ heraus wurde das Clustermanagement erfunden. Dabei wird versucht Adress-Paare von einem Jeder-gegen-jeden-Vergleich auszuschließen, die für Dubletten nicht in Frage kommen. Man bildet so genannte „Cluster“ und vergleicht zB nur Adressen im gleichen Ort, mit der gleichen Straße bzw. mit den gleichen Familien- oder Vornamen. 93
Das Clustermanagement kann anhand einer Adresstabelle plastischer erklärt werden:
93 Vgl. www.qadress.de/hintergrund/dublettensuche.htm, April 2008
Angenommen, Sie haben 10.000 Adressen mit den üblichen Adressfeldern, wie zB Vor-und Nachname, Straße, PLZ, Ort, Telefon und E-Mail. Bei der Clusterbildung sortieren Sie die Adressen für jeden Cluster neu nach einer dieser Spalten. Wenn Sie nach allen Spalten sortieren, erhalten Sie sieben Cluster bzw. sieben gleiche Adresstabellen, die nach unterschiedlichen Kriterien sortiert sind.
Damit innerhalb dieser Cluster wiederum nicht alle Adressen gegeneinander verglichen werden müssen, schränken Sie die Anzahl der Adressen, mit der jede einzelne Adresse verglichen wird, auf einen bestimmten Wert (zB 20) ein. Dies würde nun bedeuten, dass nicht mehr jede Adresse mit jeder verglichen wird, sondern jede Adresse mit zB 20 anderen, die in ihrer unmittelbaren Nähe sind (10 davor und 10 danach, gemäß der Sortierung). In Fuzzy Dupes wird dieser Wert auch „Schwellenwert Cluster“ genannt. Durch Bildung von mehreren Clustern werden auch Adressen als Dubletten erkannt, die (zB durch einen Tippfehler) einen abweichenden Anfangsbuchstaben (oder Zahl) in einem der Adressfelder haben, da davon ausgegangen werden kann, dass nicht in jedem Adressfeld der erste Buchstabe oder die erste Zahl abweicht. 94 Folgende Beispiel-Cluster sollen die Vorgangsweise schematisch darstellen:
A b bild u n g 1 1 : Cluster N ac h n a m e
A b bild u n g 1 2 : Cluster Straße
94 Es gibt unterschiedliche Varianten, wie Clustermanagement betrieben werden kann. AdressCenter von Omikron wen-
det diese beschriebene Methode an.
A b bild u n g 1 3 : Cluster Ort
Gelb markiert ist immer jene Spalte, nach der die Sortierung erfolgt. Verglichen wird immer die ganze Adresse und nicht bloß ein Teil davon. Bei einer größeren Anzahl von Adressen würde „Clinton“ und „Klinton“ im Cluster Nachname nicht gefunden werden. Durch die alphabetische Sortierung würden sie zu weit auseinander liegen. Im Cluster Straße bzw. Ort würden die beiden Clintons jedoch gefunden werden. 95 Beim Clustermanagement gibt es demnach zwei wesentliche Faktoren, die das Ergebnis stark beeinflussen: ● Anzahl (geeigneter) Cluster ● Schwellenwert des Clusters
Bei der Auswahl von Clustern soll darauf geachtet werden, dass die darin enthaltenen Werte möglichst unterschiedlich sind. So ist zB eine Clusterbildung mit dem Adressfeld Anrede (Herr/Frau/Firma) nicht Ziel führend.
Beispielhaft sei hier eine Auswahl von Clustern abgebildet (Vorname, Nachname, Straße, PLZ, Ort):
95 Abhängig davon, wieviel andere Adressaten (die in der Datenbank gespeichert sind) ebenfalls in dieser Straße/diesem
Ort wohnen bzw. wie hoch der Wert „Schwellenwert Cluster“ eingestellt ist.
Im Falle von Fuzzy Dupes (siehe Abbildung oben) wurden fünf Cluster definiert. Nach diesen Clustern werden die Adressen jeweils sortiert. Im Zuge der Dublettensuche selbst werden aber alle (in der Spalte Dublettensuche) markierten Adressfelder berücksichtigt. Die Zahl der zusätzlich gefundenen Dubletten nimmt mit der Zahl der zusätzlich gewählten Cluster ab, während die Rechenzeit mit der Anzahl der gewählten Cluster zunimmt. Daher macht es keinen (zeitökonomischen) Sinn alle Adressfelder als Cluster zu verwenden.
Ähnlich verhält es sich mit dem Schwellenwert des Clusters. Fuzzy Dupes benutzt hier eine Abstufung von „Schneller“ bis „Besser“.
● „Schneller“ bedeutet, dass weniger Adressen miteinander verglichen werden. Um Rechenkapazität zu sparen, wird riskiert, weniger Dubletten zu finden. ● „Besser“ bedeutet wiederum eine höhere Anzahl von Adressen, die miteinander verglichen werden, um möglichst viele Dubletten identifizieren zu können. Dementsprechend erhöht sich die Auslastung der Rechenkapazität. ● Der Wert „Normal“ stellt den Mittelwert dieser beiden Extreme dar. Er wird auch seitens Kroll-Software als Standardwert empfohlen.
6.5.4 Normalisierung
Vor der Dublettensuche werden die Adressen im Speicher (temporär) normalisiert. Dies bedeutet, dass Sonderzeichen und Umlaute ersetzt und gebräuchliche Abkürzungen und Schreibweisen einheitlich umgewandelt werden (zB Strasse, Straße → str.). 96 Durch die Normalisierung werden die unterschiedlichen Schreibweisen mit gleicher Bedeutung vereinheitlicht und somit während der Dublettensuche besser vergleichbar. Voraussetzung für die Normalisierung ist ein entsprechendes Regelwerk, das meist auch um firmenspezifische Regeln erweitert oder angepasst werden kann. Beispiele für Normalisierung sind:
96 Vgl. www.kroll-software.de/fuzzydupes5/help_de/glossar.asp, Mai 2008
A b bild u n g 1 6 : Beispiele f ü r Nor m alisieru ng
Fuzzy Dupes bietet zB einen eigenen Editor, in dem bestehende Normalisierungsregeln bearbeitet bzw. neue eingepflegt werden können, wie folgender Screenshot zeigt:
Die normalisierten Daten bleiben nur für den Dublettenvergleich temporär im Speicher. Die Adressdaten selbst bleiben unversehrt.
6.5.5 Wissensbasierte Methode
Mit dieser Methode lassen sich syntaktische und semantische 97 Zusammenhänge der einzelnen Adresselemente besser identifizieren und interpretieren. Wissensbasierte Methoden ermöglichen eine höhere Erkennungsquote von Dubletten, die mit rein mathematischen Methoden nicht erreicht werden könnte. Mit Hilfe der Informationen aus den verschiedenen Wissensdatenbanken werden phonetische Variationen geprüft, spezielle
97 Semantik = Bedeutung
Sprachmuster erkannt und länderspezifische Sprach- und Kulturregeln zur Interpretation der Informationen genutzt. 98 Human Inference ist ein Anbieter, der diese Interpretationsmethode nicht nur für den deutschsprachigen Raum, sondern auch für internationale Adressdaten entwickelt hat. Bei den Interviewpartnern 99 setzen die OÖ Nachrichten und das Versandhaus auf Wissensdatenbanken und Normalisierungsregeln.
6.5.6 Trennen und Verschmelzen von Adressfeldern
Bei einem Abgleich mit zB zugekauften Adressen kann es vorkommen, dass die Adressen in unterschiedlicher Struktur vorliegen. Ein Beispiel für solch unterschiedliche Strukturen ist in folgender Grafik schematisch dargestellt:
In der obigen Abbildung sind die einzelnen Adresselemente farblich hervorgehoben. Die Zahlen auf den Pfeilen sollen die Verhältnisse zwischen den beiden Adresstabellen definieren. 1:2 bedeutet, dass eine Trennung erfolgen muss, um gleiche Strukturen herzustellen. 2:1 stellt eine Verschmelzung der Adresselemente dar. Je nachdem, wie oft der Abgleich mit externen Daten nötig ist, sollte auf die Funktion der Verschmelzung bzw. Trennung von einzelnen Adresselementen geachtet werden. Unter anderen hat der Anbieter Omikron diese Funktion in AdressCenter integriert:
98 Vgl. Wandt, 2007, S. 2
99 Siehe Seite 67ff
Die OÖ Nachrichten sind ein gutes Beispiel für die Existenzberechtigung dieser Funktion (siehe Interview auf Seite 67ff bzw. Interview mit dem Meinungsforschungsinstitut auf Seite 75).
6.5.7 NULL-Vergleich
Die unscharfe Dublettensuche ignoriert in der Regel Adressfelder die leer sind bzw. wird davon ausgegangen, dass die Werte identisch sind. Folgendes Beispiel soll dies verdeutlichen:
Diese beiden Adressen würden bei einer unscharfen Dublettensuche als sehr sichere Dubletten eingestuft, weil E-Mail, Telefonnummer und URL bei der jeweils anderen Adresse fehlen und die Software davon ausgeht, dass Adresselemente mit dem Wert NULL mit den Adresselementen der jeweils anderen Adresse übereinstimmen.
Der Begriff NULL ist dem Konzept der relationalen Datenbank entlehnt. Fehlt in einem Feld ein Wert (zB der Vorname), wird das Feld mit dem Wert NULL markiert, wobei NULL nicht identisch ist mit dem numerischen Wert 0 oder dem Leerzeichen. 100 Bei Fuzzy Dupes ist die Standardeinstellung wie oben beschrieben. Wird jedoch explizit verlangt, dass der Wert NULL tatsächlich als solcher interpretiert werden soll, dann muss der NULL-Vergleich aktiviert werden.
Bei der Dublettensuche sollte der NULL-Vergleich nur für jene Spalten aktiviert werden, die in den allermeisten Fällen Werte enthalten (zB Nachname, Straße, PLZ, Ort). Alternativ kann er auch aktiviert werden, wenn der Wert NULL eine andere Bedeutung hat als „nicht ausgefüllt“.
6.5.8 Profile
Profile 101 sind Konfigurationsdateien, in denen die Einstellungen für die Dublettensuche zwischen zwei (oder manchmal mehreren 102 ) Adresslisten gespeichert und bei gleichen oder ähnlichen Projekten wiederverwendet oder angepasst werden können. Bei der Batch- oder Online-Überprüfung ist die Dublettensuche im Idealfall bereits automatisiert und Profile daher für die Wiederverwendung eher nebensächlich. Beim Import bzw. Abgleich von (zugekauften) externen Adressen sparen Profile viel Zeit, wenn es eine überschaubare Anzahl von immer wieder gleichen Dateiformaten gibt, in der die externen Adressen vorliegen.
100 Vgl. Matthiessen / Unterstein, 2003, S. 73
101 auch „Vorlagen“ genannt
102 AdressCenter von Omikron beispielsweise kann Dubletten auch innerhalb von zwei oder mehr Adresslisten suchen
Folgende Informationen können in Profilen gespeichert werden: 103 ● Speicherort und Format der Datenquellen ● Zuordnung der Adressfelder zwischen den Datenquellen ● Definition der Cluster ● Gewichtung der Adressfelder ● NULL-Vergleich von bestimmten Adressfeldern ● Normalisierung ● Clustermanagement ● Übereinstimmungsgenauigkeit ● Art der Ergebnisdarstellung oder -speicherung ● manuelle oder automatische Bereinigung bzw. Zusammenführung
6.6 Ergebnisdarstellung
Bei der Online-Überprüfung wird das Ergebnis 104 direkt in der jeweiligen ERP- oder CRM-Software ausgegeben. Das Layout der Ergebnisdarstellung ist daher von der im Einsatz befindlichen Unternehmenssoftware abhängig.
Im Gegensatz dazu steht die Ergebnisdarstellung der Dublettensuche im so genannten Batch-Modus. Die Adressen werden über eine Schnittstelle „abgeholt“ und geprüft. Die gefundenen Dubletten können dann wie folgt zur Verfügung gestellt werden:
6.6.1 Direkt am Bildschirm
Die gefundenen Dublettengruppen werden nach der Suche übersichtlich dargestellt. In vielen Fällen können diese Daten direkt bearbeitet werden. 105 Mitarbeiter, die die Adressdaten ausreichend kennen, können bereits in dieser Übersicht zwischen richtig und falsch identifizierten Dubletten unterscheiden. Als „falsche Dubletten“ werden jene bezeichnet, die zwar den vorher definierten Übereinstimmungskriterien entsprechen, tatsächlich aber unterschiedliche Adressen sind. Die Übersicht kann auch als Werkzeug für die Vorauswahl verwendet werden. Diese bereits „bereinigte“ Liste kann dann zB mittels Workflow an die verantwortlichen Mitarbeiter zur Berichtigung übergeben werden.
103 Quelle: Fuzzy Dupes, q.adress und AdressCenter (siehe Anbieterübersicht auf Seite 54)
104 in Form von Übereinstimmungsvorschlägen
105 Voraussetzung dafür sind Schreibrechte auf der Adressdatenbank.
In der obigen Abbildung ist die Ergebnisliste von AdressCenter (Omikron) dargestellt. Bereits in der Übersicht können Adressen aus der Dublettengruppe entfernt, Gruppen geteilt (abgespalten), verschmolzen oder aufgelöst werden.
6.6.2 Übergabe an die Unternehmenssoftware
In diesem Fall wird das Ergebnis direkt an die Unternehmenssoftware übergeben, in der auch die Weiterverarbeitung erfolgt. Bei dieser Art der Weiterverarbeitung werden keine Schreibrechte für die Dublettensuch-Software benötigt. Im Falle der Online-Dublettensuche sollte die Darstellungsform der Übereinstimmungsvorschläge in der Unternehmenssoftware so gewählt sein, dass sie dem Benutzer auffallen „muss“, ihn aber nicht bei seiner Arbeit behindert.
6.6.3 Export als Tabelle
Der einfache Export in eine Tabelle eignet sich als Übergangslösung oder auch dann, wenn es innerhalb der Unternehmenssoftware keine Möglichkeit gibt, die Daten weiter zu
verarbeiten bzw. wenn die Dublettensuch-Software keine Schreibrechte auf die Adressdatenbank erhalten soll. 106
6.7 Verschmelzung von Dubletten
Werden Dubletten gefunden, soll idealerweise nur eine dieser Adressen übrig bleiben. Damit die Informationen der zu löschenden Dubletten nicht verloren gehen, sollen diese Informationen in der verbleibenden Adresse zusammengeführt werden können. 107
Sollte die Zusammenführung der Adressdaten automatisiert werden, gibt es zB bei q.adress von ACS folgende vordefinierte Regeln:
● Bester: es wird anhand von einer Wissensdatenbank der „beste“ Feldinhalt ermittelt („Hans“ wäre zB „Hasn“ (Buchstabendreher!) oder „H.“ vorzuziehen). ● Längster: Es wird der längste Feldinhalt übernommen.
● Zusammenfügen: Die Feldinhalte werden zusammengefügt und durch „ ; “ getrennt. ● Summieren: Die Feldinhalte (Zahlen) werden addiert. ● Jüngster: Es wird der Feldinhalt aus dem jüngsten Datensatz übernommen. ● Priorität: Es wird der Feldinhalt aus dem Datensatz entnommen, der der Datei mit der höchsten Priorität entstammt. 108
106 Nach der Einführung von Fuzzy Dupes bei der OÖ Tourismus Technologie GmbH, wurden die Ergebnislisten in
Tabellen exportiert, um dann an die Benutzer zur Richtigstellung verteilt zu werden. Die Integration der Dublettensu-
che (bereits bei der Eingabe) ist geplant.
107 Vgl. Naumann, 2006, S. 30
108 Vgl. www.qadress.de/dubletten/verschmelzung.htm, April 2008 bzw. Interview Spiessberger, S. 72
Auch wenn die Zusammenführung automatisiert wird, sollten die aktualisierten Adressen in einer manuellen Nachkontrolle geprüft werden können. Ein wesentlicher Unterschied besteht hierbei zwischen reinen Adressdatenbanken und ERP- bzw. CRM-Systemen, in denen wesentlich mehr Kundendaten wie zB Korrespondenz, Rechnungen, Bestellungen und ähnliches gespeichert sind. In diesen Systemen gilt es auch die jeweiligen Dokumente zusammenzuführen (sofern gesetzlich erlaubt).
6.8 Statistik
Gemeint ist die Übersicht nach der Dublettenprüfung, bei der unter anderem folgende Informationen abgelesen werden können: ● Dauer der Prüfung ● Anzahl geprüfter Adressen ● Anzahl gefundener Dubletten(-gruppen)
Die Statistik bietet eine rasche Übersicht über das Ergebnis der Dublettensuche. In der Evaluierungsphase kann mit ihr effizient getestet werden, wie sich Änderungen in den Einstellungen auf das Ergebnis auswirken.
6.9 Referenz-Datenbank
6.9.1 Einzigartiges Suchergebnis
Diese Funktion bezieht sich nur auf den Batch-Modus, wenn der unternehmensinterne Adressbestand in regelmäßigen Abständen auf Dubletten geprüft wird. Die Referenz-Datenbank (Referenz-DB) verhindert, dass bereits (in vergangenen Batch-Läufen) gefundene Dublettengruppen erneut als solche identifiziert werden.
Sie ist vor allem dann sehr wichtig, wenn die Bereinigung der Dubletten mehr Zeit in Anspruch nimmt, als die Zeit, welche zwischen den einzelnen Batch-Läufen zur Verfügung stünde.
In die Referenz-DB sollen alle (neu) gefundenen Dublettengruppen 109 gespeichert werden. Jedes Ergebnis der Dublettensuche wird vor der Weiterbearbeitung mit der Referenz-DB verglichen. Jene Dublettengruppen, welche sich schon in der Referenz-DB befinden, werden aus dem Ergebnis entfernt. Alle übrigen verbleiben im Ergebnis und werden zusätzlich in die Referenz-DB aufgenommen (damit sie bei der darauf folgenden Suche nicht mehr im Endergebnis angezeigt werden).
Die Dublettengruppen im bereinigten Ergebnis können dann zur Bereinigung an die jeweils verantwortlichen Mitarbeiter (zB mittels Workflow) weitergeleitet werden. Mit der Referenz-DB wird sichergestellt, dass gefundene Dublettengruppen nur jeweils einmal zugestellt werden.
Der Prozess ist in folgender Abbildung schematisch dargestellt:
109 oder der errechneter Hash-Wert (wie Fuzzy Dupes ihn zB zur Verfügung stellt)
Tritt der Fall ein, dass sich innerhalb der bisher gefundenen Dublettengruppen Änderungen ergeben, werden diese (weil nicht identisch mit den Einträgen in der Referenz-DB) als neue Dublettengruppen identifiziert, in die Referenz-DB aufgenommen und im Endergebnis belassen.
Damit die Referenz-DB durch die sich laufend ändernden Dublettengruppen nicht zu groß wird und infolge die Dublettensuche zu stark bremst, sollte sie in regelmäßigen Abständen gelöscht werden. Auf diese Weise bekommen eventuell „vergessene“ Dublettengruppen eine zweite Chance zur Bereinigung. Das gewählte Intervall zur Löschung sollte aber nicht zu kurz sein, denn sonst werden die Mitarbeiter zu oft mit denselben „falschen Dubletten“ konfrontiert, die sie bereits einmal als solche markiert haben. Vorteile dieser Referenz-DB liegen bei einer höheren Akzeptanz der Dublettensuche bei den Mitarbeitern (weil die gleichen Dublettengruppen nicht mehrfach weitergeleitet werden) und bei den niedrigeren Prozesskosten für die Bereinigung der Dubletten.
6.9.2 Controlling für die Bereinigung der Dubletten
Ein weiterer Vorteil liegt in der Möglichkeit ein Dublettenbereinigungs-Controlling mittels der Referenz-DB zu betreiben. Voraussetzung dafür ist, dass die Benutzer die Möglichkeit haben falsch identifizierte Dublettengruppen entsprechend zu kennzeichnen. 110 Das Controlling kann in folgenden Schritten erfolgen:
● Ausgangspunkt: Dublettengruppen werden den Verantwortlichen weitergeleitet. ● Bei darauf folgender Dublettenprüfung wird gemessen, welche Dublettengruppen bereits bei einer vorhergehenden Prüfung gefunden worden sind (weil in der Referenz-DB vermerkt) und nicht als falsch identifizierte Dublettengruppen markiert wurden.
● Aus dem Teil-Ergebnis der bereits gefundenen Dublettengruppen 111 werden jene entfernt, die als „falsch identifiziert“ markiert wurden. ● Aus diesem bereinigten Ergebnis kann ermittelt werden, welche Dublettengruppen seit dem letzten Batch-Lauf noch nicht bereinigt worden sind.
110 Die Kennzeichnung einer falsch identifizierten Dublettengruppe wird ebenfalls in der Referenz-DB vermerkt.
111 Welche in der Referenz-DB vermerkt und im Endergebnis nicht mehr sichtbar sind.
Diese Art des Controllings kann allerdings nur quantitativ messen. Ob die Dublettengruppe qualitativ richtig bereinigt wurde, kann nur von Mitarbeitern festgestellt werden, die die Adressen gut kennen. Dies ist in der Praxis wesentlich schwieriger zu realisieren.
6.10 Anwenderunterstützung
6.10.1 ISO 9001:2000
Die ISO 9001:2000 nennt im Kapitel 6.2.2 (Fähigkeit, Bewusstsein und Schulung) folgende Vorgehensweise: Die Organisation muss
a) die notwendigen Fähigkeiten des Personals, das die Produktqualität beeinflussende Tätigkeiten ausübt, ermitteln,
b) zur Deckung dieses Bedarfs für Schulung sorgen oder andere Maßnahmen ergreifen
c) die Wirksamkeit der ergriffenen Maßnahmen beurteilen,
d) sicherstellen, dass ihr Personal sich der Bedeutung und Wichtigkeit seiner Tätigkeit bewusst ist und weiß, wie es zur Erreichung der Qualitätsziele beiträgt, und
e) geeignete Aufzeichnungen zur Ausbildung, Schulung, Fertigkeiten und Erfahrung führen. 112
Diese einzelnen Schritte können das jeweilige Unternehmen und der Anbieter der unscharfen Dublettensuche nur gemeinsam bewältigen. Der Anbieter kann das notwendige Know-How einbringen, während das Unternehmen die Verantwortung dafür trägt, dass die Maßnahmen auf die spezifischen Bedürfnisse des Unternehmens adaptiert werden.
6.10.2 Schulung
Bereits während der Evaluierung der Software lässt sich erahnen, inwieweit Schulung der Anwender notwendig ist. Die Schulung selbst kann im Unternehmen oder beim Anbieter stattfinden. Die günstigste Lösung ist eine Telefonkonferenz mit Remote-Desktop-Verbindung, da keiner der beiden Partner Reisezeit und -kosten finanzieren muss. Weiters stellt sich die Frage, wie viele Mitarbeiter geschult werden sollen. Oft gibt es nur einige wenige Key-User, die eine Schulung benötigen. In weiterer Folge schulen die Key-User neue Mitarbeiter ein 113 , wobei darauf geachtet werden sollte, dass sich das Wissen nicht zu stark auf eine Person konzentriert. Die Schulungsunterlagen und Parameter der Dublettensuche sollten entsprechend dokumentiert sein, um bei Bedarf abrufbereit zu sein. Nach der Evaluierungsphase sollten die verbleibenden (Key-)User möglichst kurzfristig geschult werden, damit das Gelernte noch gut im Gedächtnis bleibt. 114 Eine modernere Form der Schulung sind so genannte Webcasts. Die Teilnehmer können die Live-Demonstration via Webbrowser interaktiv verfolgen, indem auch Fragen gestellt werden können. Erfahrene Referenten (des Anbieters) erläutern die Einsatz- und Lösungsmöglichkeiten und geben wertvolle Tipps und Tricks. Nach der Live-Übertragung steht die Online-Schulung oft zum Download bereit. 115 Unter anderen bieten q.adress, Vordruckverlag (Nexo 2007), Uniserv und Fuzzy!Informatik diese Art der Schulung bereits an.
112 Vgl. Qualitätsmanagementsysteme Anforderungen (EN ISO 9001:2000), 2000
113 Die Schulung neuer Mitarbeiter durch Key-User ist einerseits günstiger und andererseits können die Key-User die
unternehmensspezifischen Adaptierungen oft besser vermitteln als externe Trainer, die sich dieses Wissen erst aneig-nen müssten.
114 Vgl. Palmetshofer / Lindinger, 2005, S. 25
115 Vgl. Roeltgen, 2006, S. 103
Die Dokumentation sollte auf die Zielgruppe abgestimmt sein und ein Selbststudium ermöglichen. Es sollte darauf geachtet werden, dass sich „neu angepriesene“ Funktionen auch in der Dokumentation befinden. Oft kann die Dokumentation nicht mit dem Funktionsumfang der Dublettensuche mithalten, da sie vom Anbieter ständig weiterentwickelt wird und der Hersteller nicht immer darauf achtet, dass die Änderungen in der Dokumentation nachgezogen werden. Ob die Dokumentation aktuell ist, kann kontrolliert werden: Das Datum der Dokumentation und der aktuellen Version der Software sollten nicht zu weit auseinander liegen. Garantie ist der Datumsvergleich dennoch keine.
6.10.4 Hilfefunktion
Die Hilfefunktion der Software sollte über einen Suchindex verfügen und vor allem kontext-orientiert sein. Im Regelbetrieb sollte die kontext-orientierte Hilfe die Dokumentation quasi überflüssig machen, da sie rascher zielgerichtete Information liefert.
6.11 Anbieterübersicht
Folgende Übersichtstabelle soll einen Überblick über die am Markt agierenden Anbieter von Softwarelösungen zur Dublettensuche bieten. Da dieser Markt sehr jung und schnelllebig ist, sollte dennoch nicht auf eine Anbieterrecherche verzichtet werden. Diese Liste kann aber als Grundlage dazu dienen.
7 Werkzeuge für die Evaluierung
In den vorhergehenden Kapiteln wurde die Theorie für die unscharfe Dublettensuche behandelt. Im folgenden Kapitel werden Standards für die Evaluierung, Vorgehensweisen zur Suche und Auswahl der geeigneten Anbieter, Testumgebungen für die Evaluierung, Hinweise zum Vergleich von Ergebnissen und die Bedeutung der Reaktionszeit erläutert.
7.1 Standards der Evaluierung
Die DeGEval 116 (Deutsche Gesellschaft für Evaluation e. V.) beschreibt vier grundlegende Eigenschaften, die bei der Evaluierung beachtet werden sollten: ● Nützlichkeit ● Durchführbarkeit ● Fairness ● Genauigkeit
7.1.1 Nützlichkeit
Nützlichkeitsstandards sollen sicher stellen, dass die Evaluierung sich an den geklärten Evaluierungszwecken sowie am Informationsbedarf der vorgesehenen Nutzer ausrichtet. ● Identifizierung der Beteiligten und Betroffenen ● Klärung der Evaluierungszwecke ● Glaubwürdigkeit und Kompetenz der Evaluatoren ● Auswahl und Umfang der Informationen ● Transparenz von Werten
● Vollständigkeit und Klarheit der Berichterstattung ● Rechtzeitigkeit der Evaluierung ● Nutzung und Nutzen der Evaluierung
7.1.2 Durchführbarkeit
Die Durchführbarkeitsstandards sollen sicher stellen, dass eine Evaluierung realistisch, gut durchdacht, diplomatisch und kostenbewusst geplant und ausgeführt wird. ● Angemessene Verfahren (im Vergleich zum Nutzen) ● Diplomatisches Vorgehen
● Effizienz von Evaluierung (im Vergleich zum Nutzen)
116 Vgl. www.degeval.de/index.php?class=Calimero_Webpage&id=9025, Mai 2008
Die Fairnessstandards sollen sicher stellen, dass in einer Evaluierung respektvoll und fair mit den betroffenen Personen und Gruppen umgegangen wird. ● Formale [schriftliche] Vereinbarungen [über die Vorgangsweise] ● Schutz individueller Rechte ● Vollständige und faire Überprüfung ● Unparteiische Durchführung und Berichterstattung ● Offenlegung der Ergebnisse
7.1.4 Genauigkeit
Die Genauigkeitsstandards sollen sicher stellen, dass eine Evaluierung gültige Informationen und Ergebnisse zu dem jeweiligen Evaluierungsgegenstand und den Evaluierungsfragestellungen hervor bringt und vermittelt. ● Beschreibung des Evaluierungsgegenstandes ● Kontextanalyse ● Beschreibung von Zweck und Vorgehen ● Angabe von Informationsquellen ● Valide und reliable Informationen ● Systematische Fehlerprüfung ● Analyse qualitativer und quantitativer Informationen ● Begründete Schlussfolgerungen
Diese Standards beziehen sich nicht speziell auf die Evaluierung von Software-Lösungen zur Dublettensuche, sondern sind allgemein gehalten, damit sie einer breiteren Anwendung zugeführt werden können.
7.2 Suche und Auswahl der Anbieter
7.2.1 Recherche potenzieller Anbieter
In der Übersicht auf Seite 54 sind die meisten Anbieter (aus dem deutschsprachigen Raum) aufgelistet. Diese Liste soll als Grundlage für die weitere Recherche dienen. Als Suchbegriffe für die Web-Recherche können neben „unscharfe Dublettensuche“ folgende
Wörter verwendet werden: „Data Cleansing“, „Dedupe“ oder auch Doublette (französische Schreibweise).
7.2.2 ... der erste Eindruck
Um die unscharfe Dublettensuche noch besser zu verstehen, bieten sich so genannte WebCasts oder Webinare an 117 . Diese werden (meist kostenlos) via Internet angeboten.
7.2.3 Auswahl der Kandidaten für die Evaluierung
Nachdem eine Liste von potenziellen Anbietern erstellt wurde, sollte der Leistungsumfang der Kandidaten mit dem Anforderungskatalog verglichen werden. In die engere Auswahl sollten nur jene kommen, welche zumindest die Muss-Kriterien erfüllen. Je nach Anzahl der verbleibenden Kandidaten können die Kann-Kriterien mehr oder weniger berücksichtigt werden. Zu beachten ist, dass die Evaluierung der Software sehr zeitaufwändig ist und daher möglichst wenig Kandidaten übrig bleiben sollten. 118
7.2.4 Testversionen anfordern
Nicht jeder Anbieter stellt auf seiner Website eine Testversion zur Verfügung, die uneingeschränkt für zB 30 Tage getestet werden kann. 119 Omikron bietet verschiedene Lizenzschlüssel an, mit denen Funktionen zum Testen „freigeschalten“ werden können. ACS limitiert seine Software (q.adress) standardmäßig auf gerade mal 100 Datensätze und stellt als Service eine Testtabelle mit 100 Datensätzen zur Verfügung. Letztlich ist Verhandlungsgeschick gefragt um die Software-Anbieter dazu zu bewegen, eine Version zur Verfügung zu stellen, die auch ausreichend getestet werden kann. Im Projekt mit der OÖ Tourismus Technologie GmbH reichte ein Hinweis, dass Fuzzy Dupes innerhalb von 30 Tagen uneingeschränkt getestet werden kann, um die Anbieter ebenfalls dazu zu bewegen vergleichbare Versionen für die Evaluierung anzubieten. Sehr wichtig ist, dass bereits vor der Anforderung der Testversion bekannt ist, was und in welchem Umfang getestet werden soll. Dies sollte dem Anbieter bei der Anforderung der Testversion bereits mitgeteilt werden, damit er eine entsprechende Version bereitstellen kann.
117 Details dazu im Kapitel Schulung auf Seite 53
118 Im Rahmen des Projekts mit der OÖ Tourismus Technologie waren es 3 SW-Lösungen, die näher evaluiert wurden.
119 Fuzzy Dupes von Kroll-Software kann 30 Tage lang uneingeschränkt getestet werden.
7.3 Testumgebung für die Evaluierung
Die Zeit bis die Testversionen für die Evaluierung zur Verfügung stehen, sollte dazu genutzt werden, eine einheitliche Testumgebung für alle Kandidaten zu entwerfen. Dabei soll bereits bei der Erstellung darauf geachtet werden, dass die Ergebnisse der Evaluierung vergleichbar sind. Beispiele für unzureichende Vergleichbarkeit wären:
- Vergleich der Anzahl gefundener Dubletten zwischen bereinigten 120 und unbereinigten Dubletten-Listen
- Unterschiedliches Clustermanagement je Kandidat
- Verwendung unterschiedlicher Hardwarekonfigurationen je Kandidat
- uneinheitliche Auswahl der Adressfelder, die zur Dublettensuche verwendet werden
Nur wenn die Testbedingungen für alle Kandidaten so weit wie möglich identisch sind, können aussagekräftige Ergebnisse gewährleistet sein. Sobald mehr als eine Person die Tests durchführt, ist eine detaillierte Abstimmung der Vorgehensweise notwendig, um die Testergebnisse vergleichbar zu machen.
7.3.1 Auswahl der Test-Adressen
Zum Testen der Software sollte im ersten Durchlauf nur ein Teil der Adressdaten verwendet werden (zB 5000 Adressen). Achten Sie dabei darauf, dass die Adressen „eng bei-einander liegen“. Dies erreichen Sie durch eine Selektion über die PLZ-Daten (zB nur oberösterreichische oder nur Linzer Adressen, etc.). 121 Die Test-Adressen sollten sich während der Evaluierung nicht ändern, da die Ergebnisse der einzelnen Test-Kandidaten sonst verfälscht würden. Ein SQL-View 122 auf Produktiv-Daten ist zwar für den Regelbetrieb eine gute Lösung, für die Vergleichbarkeit der Ergebnisse aber äußerst ungeeignet, da diese Daten „ständigen“ Änderungen unterworfen sind. Die klassische CSV-Tabelle hingegen ist „statisch“ und somit bestens für die Testumgebung geeignet, da dieses Format von allen Anbietern unterstützt werden sollte.
7.3.2 Auswahl der zu vergleichenden Adressfelder
Um die Adressen miteinander zu vergleichen, müssen (und sollen auch) nicht alle Datenfelder miteinander verglichen werden. Je öfter ein bestimmter Wert in einem Daten-
120„Bereinigt“ bedeutet, dass falsch identifizierte Dublettengruppen aus dem Ergebnis entfernt worden sind.
121 Vgl. Welck, Direct Marketing 11/2002, S. 23
122 Mittels SQL-View kann die SQL-Datenbank einen lesenden(!) Zugriff auf die (Adress-)Daten gewähren.
feld innerhalb der Adressdaten vorkommen kann, desto weniger eignet er sich für die Dublettensuche.
A b bild u n g 2 8 : Eign u n g der ein zelne n A dressfelder z u r Dublettens uche
Die Eignung der einzelnen Datenfelder kann natürlich von Unternehmen zu Unternehmen variieren. Jene Felder, die weniger gut für den Vergleich geeignet sind, können aber sehr wohl für die Nachkontrolle von gefundenen Dublettengruppen verwendet werden. Die obige Tabelle wurde aufgrund von Erfahrungswerten während des Praktikums bei der OÖ Tourismus erstellt. Bei der Nachkontrolle wird „manuell“ festgestellt, ob die gefundenen Dubletten tatsächlich welche sind.
7.3.3 Clustermanagement
Die einzelnen Cluster für die Dublettensuche sollten für alle Testkandidaten gleichermaßen gelten. Aus diesem Grund müssen sie bereits vor der Evaluierung der Testkandidaten festgelegt und in weiterer Folge auch eingehalten werden (sofern die Software dies zulässt). Wie Clustermanagement funktioniert und auf was dabei zu achten ist, steht im Kapitel Clustermanagement auf Seite 38.
7.3.4 Bekannte und unbekannte Dubletten
Einen Auszug vom Adressbestand zu nehmen hat den Vorteil, dass mit „Echt-Daten“ getestet werden kann. Der Nachteil ist allerdings, dass ohne enormen Aufwand nicht exakt bestimmt werden kann, wie viele Dubletten sich tatsächlich darin befinden. Aus diesem Grund sollten Dubletten bewusst eingepflegt werden. Die einzelnen „künstlichen“ Dublet-
ten sollten Eigenschaften haben, die die Realität möglichst nahe widerspiegeln, wie zB Hörfehler, Tippfehler, Verdreher, Namensänderung, neue Adresse durch Umzug, etc. Folgende Dublettengruppe soll als Beispiel für die Entwicklung von bewussten Dubletten dienen, die den Test-Adressen beigemengt werden. Die jeweiligen Abweichungen von der richtigen Adresse sind gelb markiert.
A b bild u n g 2 9 : Beispiel a bsichtlich ein ge pflegter Dubletten gr u p pe n
Abweichungen in einem einzigen Adressfeld können noch relativ einfach erkannt werden. Schwieriger wird es für die Testkandidaten, wenn die Abweichungen gleich mehrere Adressfelder betreffen. Aus diesem Grund sollte je Dublettengruppe eine Steigerung des Schwierigkeitsgrades erkennbar sein (indem zuerst ein Adressfeld und dann mehrere betroffen sind).
Die Erkennungsquote der bekannten, „künstlichen“ Dubletten kann als exakter Wert in Prozent (Zielerreichungsgrad) in den Evaluierungsergebnissen angegeben werden. Die restlichen Dublettengruppen sollten auf ihre Richtigkeit hin geprüft werden.
Sinngemäß kann dies auch auf den Vergleich zwischen mehreren Tabellen (interne und externe/zugekaufte Adressen) angewandt werden. Die „Original-Adresse“ der bewusst eingepflegten Dublettengruppe(n) sollte(n) sich im eigenen Adressbestand befinden, während sich die dazugehörigen Dubletten in der jeweils anderen (externen/zugekauften) Adressenliste befinden.
Nicht jede unscharfe Dublettensuche unterstützt diese Funktionen. Sie sollten aber dennoch aktiviert werden, auch wenn andere Testkandidaten diese Funktionen nicht unterstützen. Weiterführende Informationen zu diesem Thema befindet sich auf Seite 41ff. Werden benutzerdefinierte Normalisierungsregeln definiert, sollten diese Regeln auch bei den anderen Testkandidaten (falls unterstützt) verwendet werden.
7.4 Ergebnisse vergleichen
Während die meisten Anforderungen an die Software mit ja oder nein beantwortet werden können, gilt dies für die Beurteilung des Ergebnisses der Dublettensuche nicht. Um die Aussagekraft der gefundenen Dublettenanzahl zu erhöhen sollten die Ergebnisse in folgende Untergruppen aufgeschlüsselt werden. bewusst eingepflegte Dubletten ●
richtig identifizierte Dubletten ●
falsch identifizierte Dubletten ●
Während die bewusst eingepflegten Dubletten sehr leicht zu identifizieren sind, ist die Unterscheidung zwischen „richtig“ und „falsch“ identifizierten Dubletten schon erheblich schwieriger und setzt zum Teil das Wissen und die Erfahrung von Mitarbeitern voraus, die mit diesen Adressen arbeiten.
Falls eine Reduzierung der Untergruppen erwünscht ist, könnten die falsch identifizierten Dubletten von den richtigen abgezogen werden, wodurch nur mehr zwei absolute Zahlen je Kandidat übrig bleiben würden und eine Gegenüberstellung erleichtert wird. Neben den absoluten Zahlen können die Ergebnisse auch in Prozentzahlen ausgedrückt werden.
7.4.1 Schnittmenge der einzelnen Ergebnisse
Neben den absoluten bzw. relativen Werten der gefundenen Dubletten sollte auch die Schnittmenge zwischen den einzelnen Ergebnissen erhoben werden.
123 Vgl. Kopp, 1993, S. 5
In der obigen Abbildung wird die Schnittmenge als Beispiel von zwei Ergebnissen von Software A und Software B schematisch dargestellt.
Mithilfe dieser schematischen Darstellung lässt sich leicht erkennen, dass es sich lohnen kann, die Ergebnisse der einzelnen Kandidaten qualitativ zu vergleichen und Schnittmengen bzw. potenzielle Vereinigungsmengen festzustellen. Durch die unterschiedlichen Suchalgorithmen finden die einzelnen Kandidaten möglicherweise etwa gleich viele Dubletten, durch einen qualitativen Vergleich kann sich aber herausstellen, dass ein beträchtlicher Anteil von Dubletten nur von jeweils einem Kandidaten gefunden wird.
7.4.2 Kaskadierung der Dublettensuche
Bei einem Vergleich 124 der Ergebnisse von Fuzzy Dupes und AdressCenter stellte sich heraus, dass die Überschneidungen der Ergebnisse viel geringer waren als angenommen. Insgesamt wurden etwa 160.000 Adressen geprüft. Fuzzy Dupes fand 1.277 Dubletten während Adress Center 1.069 Dubletten fand. Auf den ersten Blick könnte man annehmen, dass Fuzzy Dupes einfach mehr Dubletten gefunden hat. Durch die qualitative Analyse der beiden Ergebnisse 125 konnte festgestellt werden, dass die Schnittmenge (jene Menge von Adressen, die beide Kandidaten gefunden haben) wesentlich geringer war als angenommen. Ein entscheidender Grund dafür könnten die sehr unterschiedlichen Suchalgorithmen der beiden Kandidaten sein. Insgesamt hätten also 1.886 126 potenzielle Dubletten (Vereinigungsmenge) gefunden werden können, wenn beide Softwarelösungen mittels Kaskadierung (Hintereinanderschaltung) eingesetzt worden wären.
124 Vergleich wurde während des Praktikums bei der OÖ Tourismus Technologie durchgeführt.
125 Es wurde eine Dublettensuche zwischen beiden Ergebnistabellen durchgeführt. Dabei wurde untersucht, wieviele
Adressen in beiden Tabellen vorkamen (Einstellungen: 100 Prozent Übereinstimmung).
126 Aufgrund der hohen Anzahl von Dubletten wurde nicht mehr zwischen richtig und falsch identifzierten Dubletten
unterschieden. Sonst wären es jedenfalls weniger als die angegebenen 1886 gewesen.
Folgende Grafik soll die obigen Aussagen noch einmal verdeutlichen:
Je größer der Unterschied zwischen Einzelergebnis und Ergebnis der Vereinigungsmenge ist, desto eher macht eine Kaskadierung Sinn. Theoretisch könnten mittels Kaskadierung auch noch mehr als 2 Softwarelösungen hintereinander geschalten werden. In der Praxis macht dies nur dann Sinn, wenn durch das Auffinden von zusätzlichen Dubletten ein beträchtlicher Kostenanteil eingespart werden kann. Durch Kombination von unterschiedlichen Kandidaten-Paaren sollte jenes Paar gewählt werden, welche in Summe die meisten Dubletten findet (sofern die Kaskadierung technisch und kostenmäßig realisierbar ist).
Die Herausforderung der Kaskadierung besteht darin, die Ergebnisse möglichst automatisiert zu verschmelzen. Wichtig dabei ist, dass übergreifende Dublettengruppen zu einer einzigen Dublettengruppe zusammengefasst werden. Doppelte Einträge (Adressen, die in beiden Ergebnissen vorkommen) müssen dabei ausgeschieden werden, dienen aber gleichzeitig für die Identifizierung der Zusammengehörigkeit von Dublettengruppen.
7.5 Reaktionszeit der Online-Dublettensuche
Die Reaktionszeit ist bei der Online-Dublettensuche ein kritischer Faktor. In den Interviews wurde eine Reaktionszeit von bis zu max. 5 Sekunden als akzeptabel bezeichnet. Die Reaktionszeit sollte grundsätzlich so kurz wie möglich sein. Die Online-Dublettensuche soll Mitarbeiter bei der täglichen Arbeit unterstützen und nicht durch zu lange Wartezeiten behindern. Die Reaktionszeit ist von mehreren Faktoren abhängig.
Je mehr Schnittstellen für die Online-Dublettensuche notwendig und je stärker diese auch noch ausgelastet sind, desto länger ist die Reaktionszeit. Die Flaschenhälse bei den Schnittstellen sollen identifiziert und behoben werden. Für den Fall, dass eine Internetverbindung Voraussetzung für die Online-Dublettensuche ist (weil zB Filialen auf die Zentrale zugreifen müssen), ist eine möglichst störungsfreie Internetverbindung mit kurzen Verzögerungszeiten von Vorteil.
7.5.2 Auslastung
Die Auslastung der Dublettensuche ist bestimmt durch die Anzahl von gleichzeitigen 127 Abfragen, die anfangs nur anhand der Anzahl der Clients, die darauf zugreifen, geschätzt werden können.
Die Hardwarekonfiguration des Servers sollte auf folgende Faktoren Rücksicht nehmen: ● Die Dublettensuche sollte idealerweise ohne gleichzeitigem Zugriff auf die Festplatte durchgeführt werden können. 128
● Nach ausreichendem Arbeitsspeicher spielt auch die Prozessorgeschwindigkeit eine wesentliche Rolle bei der Dublettensuche.
● Je nach zu erwartender Auslastung sollte der Server nicht zu sehr oder gar nicht durch andere Anwendungen, die gleichzeitig darauf laufen, belastet werden. ● Die max. Reaktionszeit sollte bei durchschnittlicher Belastung unterschritten werden, damit genug Puffer für Zeiten höherer Auslastung zur Verfügung steht.
7.5.3 Adressbestand
Die Anzahl der Adressen spielen ebenfalls eine bedeutende Rolle für die Reaktionszeit. Vorausgesetzt der Arbeitsspeicher ist bereits ausreichend dimensioniert, kann nur mehr durch folgende Maßnahmen eine ausreichende Reaktionszeit erzielt werden: ● Reduzierung der Anzahl und Größe der definierten Cluster 129 ● Reduzierung der ausgewählten Adressfelder für die Dublettensuche ● Vollständigkeit der Aressen verbessern (unvollständige Adressen werden eher als Dublette identifiziert)
127 Mit dem Begriff „gleichzeitig“ sind in diesem Fall Abfragen gemeint, die noch während der Verarbeitung der vori-
gen Abfrage stattfinden.
128 Damit ist gemeint, dass der Arbeitsspeicher so dimensioniert sein sollte, dass eine Auslagerung von temporären
Daten auf die Festplatte nicht notwendig ist.
129 Details dazu im Kapitel Clustermanagement auf Seite 38
Im Projekt zur Evaluierung von Softwarelösungen für die Dublettensuche im Adressbe-stand der Tourismus OÖ versuchten wir die Online-Dublettenprüfung zu simulieren, indem wir 160.000 Adressen mit einer Adresse verglichen. Unter der Voraussetzung, dass der Adressbestand bereits in den Arbeitsspeicher eingelesen war, dauerte der Prüfvorgang etwa eine Sekunde. Client und Server waren beide über das interne Netzwerk verbunden, wodurch keine Internetverbindung notwendig war (welche die Reaktionszeit verschlechtert hätte). Als Server diente eine virtuelle Machine auf Basis von Windows 2003 Server in Verbindung mit Fuzzy Dupes. Es handelte sich dabei um eine zugewiesene 130 Prozessorleistung eines AMD Opteron Prozessors mit 3,4 Ghz und 2,4 GB RAM.
7.6 Performance der Batch-Suche
Beim Experimentieren spielt die Performance eine größere Rolle als später im regulären Betrieb, wo ein qualitativ besseres Ergebnis der Dublettensuche mehr zählen sollte, als ein rasches Ergebnis, ohne Rücksicht auf die Qualität.
7.7 Anbieterbefragung
Die Muss-Kriterien im Anforderungskatalog sollten zum verbindlichen Vertragsbe-standteil gemacht werden, um dem Anbieter keine Rückzugsmöglichkeit auf die von ihm „normalerweise“ zur Verfügung gestellten Funktionalitäten zu eröffnen. Die Anbieterbefragung selbst sollte schriftlich erfolgen, um die Zusagen besser dokumentieren zu können. Um die Ergebnisse der Anbieterbefragung besser vergleichen zu können, sollte der Anbieter drei Antwortmöglichkeiten haben: „im Standard vorhanden“, „mit Zusatzaufwand realisierbar“ und „nicht vorgesehen“. 131
130 Der Server wird über die Virtualisierungslösung VMWare verwaltet.
131 Vgl. Gronau, 2001, S. 3
8 Interviews mit Experten und Praktikern
In diesem Kapitel werden Interviews mit Experten und Praktikern auf dem Gebiet der unscharfen Dublettensuche zusammengefasst. Bei der Auswahl der Interviewpartner wurde darauf geachtet, dass möglichst unterschiedliche Branchen abgedeckt werden. Die Interviews stellen den direkten Bezug zur Praxis her und helfen möglicherweise Parallelen zu eigenen individuellen Problemstellungen zu finden.
8.1 Interview Gerald Danzmair MBA - OÖ Nachrichten
Herr Danzmair ist Leiter der Bereiche Kundenbeziehungsmanagement und Abo-Service. Davor war er (ebenfalls bei den OÖN) im IT-Bereich tätig und unter anderem haupt-verantwortlich für den Bereich Dublettensuche (Interview vom 14. Mai 2008).
8.1.1 Adressen und Imports
Die OÖ Nachrichten arbeiten mit insgesamt knapp 1,2 Mio. Adressen allein im Einzugsbereich von Oberösterreich. Unterschieden wird zwischen Abo-Adressen für den Zeitungsverkauf und Anzeigen-Adressen für den Werbebereich. Da diese beiden Kundengruppen sehr unterschiedlich sind, werden sie getrennt in zwei Abteilungen betreut. Bei Überschneidungen (wenn ein Werbekunde auch Abonnent ist) gibt es eine entsprechende Verlinkung.
Adressen werden aus dem Bestand grundsätzlich nicht gelöscht, sie werden allerdings als Dublette markiert und mit der „Original“-Adresse verlinkt. Dies hat den Vorteil, dass bei der Dublettensuche ein besseres Ergebnis erzielt werden kann, weil die Vergleichsdaten vollständiger 132 sind (gerade bei Umzugsadressen). Dies trifft auf folgende Fälle zu:
● Umzugsadressen
○ Kunde gibt neue Adresse bekannt
○ Zeitung kommt als „verzogen“ zurück
● Adressänderungen bei neuen Abos (durch die Telefonmarketing-Abteilung)
Vor jedem Import werden die Adressen geprüft, ob es sich um aktive Abonnenten handelt. Wenn nicht, werden die Daten an das Telefonmarketing weitergereicht. Die unter- 132Die Import-Adressen müssen nicht immer aktuell sein, daher ist ein Vergleich mit „veralteten“ Daten in dieser Hin-
sicht sehr hilfreich. Die Trefferquote bei der Dublettensuche kann somit deutlich erhöht werden.
schiedliche Struktur der externen und internen Adressen muss vor dem Import vereinheitlicht werden. Die Adressen werden intern exakt erfasst, damit es bei der Zustellung möglichst wenig Missverständnisse gibt. Dies bedingt eine detaillierte Aufschlüsselung der Adressfelder. Die komplexe interne Struktur der Adressen stimmt praktisch nie mit jener der externen Datenquelle überein. Daher müssen die externen Datenfelder vor dem Vergleich bzw. Import so getrennt werden, dass ein Vergleich bzw. Import erst möglich ist. Ein Beispiel wäre die Aufspaltung des Feldes „Straße“ in „Straßenbezeichnung“, „Hausnummer“, „Buchstabe“, „Stock“ und „Türnummer“.
Wird eine Dublette bei Imports nicht erkannt, kann es sehr leicht passieren, dass bestehende Kunden ein neues (besseres) Angebot bekommen. Dadurch entstehen einerseits Kosten durch das Telefonmarketing oder Porto und der Kunde ist irritiert bzw. besteht auf das bessere Angebot. Der kleinste „Schaden“ wäre ein Rückläufer durch den Postversand bzw. ein erfolgloser Anruf.
8.1.2 Mitarbeiter
Von den insgesamt ca. 540 Mitarbeitern haben etwa 25 Mitarbeiter 133 vollen Schreibzugriff auf die Adressdaten. Eine Ausnahme stellen die Mitarbeiter in der Telefonmarketing-Abteilung dar, welche bei der Akquise von neuen Abonnenten ebenfalls (aktuellere) Adressdaten über das Web-Interface in die Datenbank schreiben können. Bei der Anlage oder Änderung von Adressen wird der Benutzername des jeweiligen Bearbeiters hinterlegt. Dies hilft, falls bei Unklarheiten Rückfragen notwendig sind.
8.1.3 Dublettensuche
Es wird keine externe Software zu Dublettensuche eingesetzt. Durch die ständige Bearbeitung der Adressen passiert die Bereinigung „automatisch“. Eine Batch-Suche in bestimmten Intervallen ist deswegen auch nicht nötig. Für die Dublettensuche innerhalb von SAP bzw. den Abgleich mit Import-Adressen wurde die Soundex-Methode 134 implementiert. Mittels Soundex wird eine Adresse auf eine sehr kurze Zeichenfolge „komprimiert“. Die Komprimierung wird mit folgenden Hilfsmitteln erreicht:
133 15 davon im Abo-Service und 10 in der Anzeigenabteilung
134 Robert C. Russel patentierte diese Methode bereits 1917 (Vgl. Stock, 2006, S. 307ff)
● Verhärtung von Konsonanten
○ D zu T, B zu P, G zu K
● Weglassen von Vokalen
○ A, E, I, O, U, Y, Ä, Ö, Ü (außer am Wortbeginn)
● Umwandlung in Großbuchstaben
Beispiel:
Zeichenfolge: Name, drei Stellen der Straße und drei Stellen der Hausnummer (wobei bei ein- und zweistelligen Hausnummern ein oder zwei„ _“ vorangestellt wird/werden) und PLZ.
Michael Langerhorst Bäckergasse 78 4600
MCHL LNKRHRST PCK _78 4600
ergibt: MCHLLNKRHRSTPCK_784600
Die Soundex-Zeichenfolge wird bereits bei der Anlage einer Adresse generiert und in einem entsprechenden Feld gespeichert. Noch vor der endgültigen Anlage der Adresse wird das Soundex-Feld mit allen anderen verglichen und mögliche Dubletten in einer Trefferliste dargestellt. Da die Datenmenge in diesem Verfahren viel geringer ist, können alle Datensätze tatsächlich untereinander verglichen werden, ohne dass das System zu sehr belastet wird. Diese Methode wurde von Herrn Danzmair über mehrere Jahre hinweg verfeinert um die Trefferqualität zu erhöhen.
Neben den oben genannten Kriterien spielt auch die Telefonnummer eine wichtige Rolle beim Vergleich von Adressen. Die Dubletten werden durch folgende Aktivitäten gefunden: ● Vergleich bei Imports ● Hinweise von Telefonmarketing-Abteilung ● Rückläufer bei Umzugsadressen
Damit die Dublettensuche Zeit spart (und nicht verschwendet), wird eine Antwortzeit von unter 2 Sekunden angestrebt und meist auch erreicht.
8.1.4 Bereinigung
Dubletten werden nicht gelöscht, sondern nur markiert und mit der „Original“-Adresse verlinkt. Diese Vorgangsweise erhöht die Trefferquote bei der Dublettensuche in Verbin-
dung mit Import-Adressen. Bei Bedarf werden aktuellere Daten manuell zusammengeführt. Speziell in der Buchhaltung müssen die Daten zusammengefasst bzw. umgebucht werden, um die Abrechnung gegenüber dem Kunden korrekt durchführen zu können (die Belege selbst verbleiben an den Dubletten).
8.1.5 Normalisierung und Wissensdatenbank
Um die Korrektheit der Adressen gewährleisten zu können, setzen die OÖ Nachrichten auf ein geografisches Informationssystem (WiGeoGIS).
Speziell Straßennamen können sehr unterschiedlich und teilweise trotzdem „richtig“ geschrieben werden. Aus diesem Grund wurde eine interne Datenbank mit den unterschiedlichsten Schreibweisen der einzelnen Straßennamen erstellt. Mit dieser Datenbank können die einzelnen Adressen vor dem Vergleich normalisiert werden.
8.2 Interview Dr. Siegfried Spiessberger - WKOÖ / Wifi
Dr. Spiessberger ist selbständiger Berater der Wirtschaftskammer OÖ und des Wifi. Im Rahmen eines großen Projekts, in dem die Dublettensuche ein Teilprojekt war, wurde diese eingeführt. An dem Projekt waren Mitarbeiter der Fachabteilungen, der IT und Dr. Spiessberger beteiligt. (Interview vom 17. April 2008)
8.2.1 Adressen
Die WKOÖ hat insgesamt 630 Mitarbeiter 135 und verwaltet etwa 600.000 Adressen. Alle Mitarbeiter sind grundsätzlich berechtigt, Adressen anzulegen oder zu ändern (mit Ausnahme der gesetzlich geschützten Adressdaten 136 ). Die Adressen waren auf 4-5 Bereiche aufgeteilt und wurden im gegenständlichen Projekt zusammengeführt. Einige Adressen werden bewusst doppelt angelegt, weil diese mehreren Bereichen zugeordnet werden können und die jeweiligen Mitarbeiter dieser Bereiche aber nur bedingt auf die Adressen der jeweils anderen Bereiche zugreifen können.
Adressimports finden so gut wie keine statt - eher im Gegenteil - die WKOÖ ist Lieferant von Adressen. Durch die Zusammenführung von unterschiedlichen internen Adressdatenbanken entstehen aber sehr wohl (zum Teil gewollt) Dubletten.
135 Auskunft v. Anita Riepl Personalabt. WKOÖ: Zahl der MA beinhaltet Vollzeit- und Teilzeitkräfte (Juni 2008)
136 Standortadressen von Gewerbebetrieben sind geschützt und dürfen nur von best. Mitarbeitern verändert werden.
Als Grund für die Entstehung von Dubletten werden folgende Gründe genannt: ● Heirat ● Umzug
● Heirat in Kombination mit Umzug ● fehlende Berechtigungen beim Ändern von Adressen ● wenn Abteilungen von Firmen als eigenständige Firmen angelegt werden
Folgende Probleme entstehen dadurch:
● Mahnprobleme (falscher Saldo)
● „verfälschte“ Statistik, speziell im 1. Jahr der Einführung der Dublettensuche ○ die Daten der Vorjahre waren somit nicht mehr eindeutig vergleichbar ● lückenhafte Kundenhistorie (durch Verteilung auf mehrere Dubletten) ● Probleme bei der Zulassung zu Prüfungen
○ zB zur Meisterprüfung, weil notwendige (bereits absolvierte) Voraussetzungen auf Dublette(n) gespeichert wurden ● unnötige Mailingkosten
● Personalkosten (durch Zusammenführung von Kundendaten und -belegen)
8.2.2 Mitarbeiter
Die Zugriffsrechte der Mitarbeiter sind sehr komplex und sind sogar bis auf Feldebene konfigurierbar. Vor allem seit dem Projekt zur Verbesserung der Datenqualität sind die Mitarbeiter sehr stark auf Dubletten sensibilisiert.
8.2.3 Dublettensuche
Die Adressen sind in einer objektorientierten Datenbank (Fabasoft) gespeichert. Während dem Migrationsprojekt wurden die Adressen vor der Batch-Suche gesammelt in eine MS SQL-Datenbank exportiert, damit Fuzzy Dupes auf die Adressen zugreifen und nach Dubletten suchen konnte. Mit Fuzzy Dupes wurden etwa 30.000 Dubletten zusammengeführt. Für den regulären Batch-Suchlauf wurde in der Fabasoft-Umgebung ein eigener Algorithmus entwickelt, der aus dem gesamten Pool an Dubletten in der Datenbank etwa 250 Vorschläge (zur Bereinigung) pro Woche ermittelt. Es liegt leider noch keine aktuelle Analyse vor, welche aussagt, wie hoch der Anteil an neuen Dubletten im Verhältnis zu [in diesem Zeitraum] erzeugten Datensätzen ist.
Bei der Online-Dublettensuche wird eine maximale Reaktionszeit von 5 Sekunden eingehalten. Damit die Online-Suche durchgeführt werden kann, müssen folgende Felder ausgefüllt sein: ● Vorname ● Nachname ● Geburtsdatum oder PLZ
Meistens werden die Adressen über die Online-Suche gefunden und nicht neu angelegt. Wartungs- oder Supportvertrag gibt es keinen. Kroll Software gab bei Anfragen stets kurzfristig und kompetent Auskunft.
8.2.4 Bereinigung
Die potenziellen Dubletten aus der Batch-Suche werden mittels Workflow gleichmäßig auf die Mitarbeiter zur Bereinigung verteilt. Die Bereinigung wird durch Zusammenführung der Dublettengruppen durchgeführt. Folgende Regeln wurden für die Automatisierung der Zusammenführung definiert:
● Rollen - Datensätz mit definierten Mitgliedsrollen bleiben erhalten ● Datum - neuere Einträge (zT auch neuere Datenfeldeinträge) bleiben bestehen ● leere Felder werden mit Informationen aus Dubletten aufgefüllt Die einzelnen „angehängten“ Belege (wie zB Rechnungen, Bestätigungen, ...) werden ebenfalls zusammengefasst.
Jene Dubletten, die gar keine sind, dennoch aber im wöchentlichen Report ausgewiesen sind, werden markiert und können ab dann nicht mehr als potenzielle Dublette identifiziert werden. Dies birgt das Risiko, dass zu diesen markierten Adressen keine Dubletten mehr gefunden werden. Eine Referenz-Datenbank, wie sie auf Seite 49 beschrieben ist, hat das Potenzial, dieses Problem zu lösen.
Bei der Online-Suche 137 entscheiden die Benutzer sofort, ob es sich bei der neu einzugebenden Adresse um eine Dublette oder tatsächlich um einen Neueintrag handelt. Die Mitarbeiter entscheiden selbständig, bei Unklarheiten gibt es jedoch die Möglichkeit, sich an die Mitarbeiter zu wenden, die zuletzt Änderungen vorgenommen haben bzw. die Adresse angelegt haben.
137 Für die Online-Suche setzt die WKOÖ ein selbst entwickeltes Tool ein, welches weniger Adressfelder berücksichtigt
und somit auch rasch zu Ergebnissen führt.
Auf die Frage „Was würden Sie heute anders machen?“ antwortete Dr. Spiessberger, dass er kritisch hinterfragen würde, ob es sinnvoll ist, wirklich JEDE Dublette zu bereinigen. In der Praxis sind sie wesentlich schneller gefunden als bereinigt. Vor dem Produktivstart der Dublettensuche würde er zuerst die Teilsysteme (die verteilten Adressdatenbanken) bereinigen, bevor eine Dublettensuche innerhalb des Gesamtbestands an Adressen durchgeführt würde. Es sei darauf hingewiesen, dass hier die persönliche Meinung von Dr. Spiessberger wiedergegeben wird und nicht jene der Verantwortlichen in der WKOÖ.
8.3 Interview mit einem Inkasso-Institut 138
Es handelt sich um ein mittelständisches österreichisches Inkasso-Institut mit etwa 30 Mitarbeitern. (Interview vom 27. Mai 2008)
8.3.1 Adressen
Insgesamt werden ca. 250.000 Adressen verwaltet. Die Adressdaten sind verteilt auf mehrere Standorte und werden in regelmäßigen Abständen mit Hilfe von Speichermedien abgeglichen. Adressimports im klassischen Sinn finden keine statt. Die neuen Adressen sind meist Kundendaten, die von Gläubigern übermittelt werden. Da keine direkte Schnittstelle zum Kunden 139 vorhanden ist, werden die Adressdaten in unstrukturierter Form (Mail, Brief, Fax, Telefon) übermittelt und manuell ins System übertragen. Oft sind diese Daten unvollständig oder veraltet. Dieser Umstand begünstigt die Anlage von Dubletten. Weitere Gründe für die Anlage von Dubletten sind Schreibfehler (sowohl kundenseitig als auch von Mitarbeitern) und die Vertauschung von Vor- und Nachnamen. Es kann auch vorkommen, dass Adressdaten von Personen mit Migrationshintergrund falsch geschrieben werden.
Namensgleichheiten von zwei unterschiedlichen Schuldnern können dazu führen, dass angenommen wird, dass es sich um die gleiche Person handelt. Tatsächlich stellt sich dann oft im Nachhinein heraus, dass es unterschiedliche Personen sind (wenn nachgeforscht wird und weitere Personendaten, wie zB das Geburtsdatum, bekannt werden). Bei der Eingabe werden die neuen Adressdaten phonetisch auf mögliche Übereinstimmungen mit Adressdaten aus dem eigenen Bestand geprüft und das Ergebnis in einer Auswahlliste dargestellt.
138 Das Unternehmen möchte anonym bleiben.
139 Die Kunden eines Inkasso-Instituts sind Gläubiger, die Schulden (von ihren Schuldnern) einfordern wollen.
Ein Sonderfall von gewollten Dubletten im System sind Schuldner, die mehr als einen Wohnsitz haben/hatten. Das momentan eingesetzte System lässt nur eingeschränkt alternative Adressen zu, darum wird der „Umweg“ über eine zusätzlich bewusst angelegte Dublette mit der alternativen Adresse gewählt.
8.3.2 Mitarbeiter
Adressen können von insgesamt 18 Mitarbeitern angelegt, geändert oder auch gelöscht werden. Der Umfang der Zugriffsberechtigungen von einzelnen Mitarbeitern nimmt meist mit der Beschäftigungsdauer im Unternehmen zu.
Die Adressen der Gläubiger (= Kunden des Inkasso-Instituts) können nur von sehr wenigen Mitarbeitern bearbeitet werden. Fehler in diesen Daten könnten dazu führen, dass eine angeforderte Auskunft über einen Schuldner dem falschen Gläubiger zur Verfügung gestellt wird. Da ein Fehler in diesen Adressdaten weitreichende Folgen hätte, werden sie mit äußerster Sorgfalt verwaltet.
Die Sensibilisierung in Bezug auf Dubletten ist bei den Mitarbeitern stark ausgeprägt. Da das Inkasso-Institut auch als Auskunftei am Markt auftritt, ist eine möglichst hohe Qualität der Daten erforderlich.
8.3.3 Dublettensuche und Bereinigung
Zur Zeit werden die Adressdaten einmal pro Jahr manuell auf Dubletten geprüft. Etwa 30 Personenstunden sind dafür notwendig, diese werden mit 20 Euro je Stunde kalkuliert (~600€). Die Mitarbeiter sind dazu angehalten, Dubletten, die im Zuge der Aktenbearbeitung entdeckt werden, zu bereinigen. Jene Dublette mit den meisten Informationen wird im System belassen und die leeren Felder mit Informationen (falls vorhanden) aus den restlichen Dubletten aufgefüllt, bevor sie aus dem System gelöscht werden. Dieser Vorgang wird manuell von erfahrenen Mitarbeitern durchgeführt. Änderungen an den Adressen werden vom System protokolliert.
Das Institut befindet sich gerade in einer Phase der Umstrukturierung im EDV-Bereich und ist am Ergebnis der Diplomarbeit sehr interessiert.
Es handelt sich um ein oberösterreichisches Markt- und Meinungsforschungsinstitut, welches anonym bleiben möchte. 35 fest angestellte Mitarbeiter werden durch etwa 400 freie Dienstnehmer im Bereich Telefonumfragen unterstützt. (Interview vom 4. Juni 2008)
8.4.1 Adressen und Imports
Im Bereich Telefonumfragen werden ca. 5 Mio. Adressen verwaltet. Sie sind zentral in einer MS SQL-Datenbank gespeichert. Neben diesen Adressen gibt es noch etwa 2000 Kundenadressen, die gesondert behandelt werden.
Bevor neue (zugekaufte) Adressen in den Adressbestand importiert werden können, müssen sie manuell so aufbereitet werden, dass sie strukturell mit dem Adressbestand kompatibel sind. Automatisierte Abläufe für die Umstrukturierung der zu importierenden Adressen gibt es zur Zeit nicht. Zusätzlich zur unterschiedlichen Struktur sind einige Adressen derart unvollständig, dass eine manuelle Recherche zur Ergänzung der restlichen Informationen notwendig, aber nicht immer erfolgreich, ist. Als Beispiele werden fehlende PLZ, fehlende Ansprechpartner in Firmen und Verwechslung von Vor- und Nachnamen genannt.
Neue Adressen werden vor dem Import auf Dubletten geprüft. Dabei werden selbst erstellte SQL-Skripts eingesetzt und bei Bedarf entsprechend angepasst.
8.4.2 Mitarbeiter
Alle Mitarbeiter können lesend auf den Adressbestand für Telefonumfragen zugreifen. Fünf der 35 Mitarbeiter können neue Adressen anlegen bzw. bestehende ändern. Die Mitarbeiter sind alle stark auf Dubletten sensibilisiert und wissen um deren Problematik.
8.4.3 Dubletten
Dubletten können aufgrund von unzureichender Wartung, Namensänderung, Umzug oder mangelhafter Prüfung beim Import von Adressen entstehen. Eine Online-Dublettenprüfung wird nicht eingesetzt.
Die Doppelbefragung von einzelnen Teilnehmern kann aufgrund von Dubletten vorkommen. Dies geschieht jedoch sehr selten, da die Befragungen in alphabetischer Reihenfolge stattfinden und etwaige Dubletten durch die Sortierung von den Mitarbeitern erkannt werden können.
Sperrvermerke 140 in Verbindung mit Dubletten können dazu führen, dass sie nur einmal hinterlegt sind und diese Personen dann trotzdem angerufen werden.
8.4.4 Dublettensuche und Bereinigung
Die Dublettensuche findet einerseits vor Imports bzw. über den gesamten Adressbe-stand mittels Batch-Suche täglich über Nacht statt. Um die verschiedenen Schreibweisen von Straßennamen zu berücksichtigen, wird bei der Dublettensuche nur der erste Teil des Straßennamens berücksichtigt.
Entdecken Interviewer während der Befragung Dubletten, werden diese mit einer Notiz versehen und als Dublette markiert. Die Ergebnisse der Dublettenprüfung werden manuell abgearbeitet. Werden falsche Dubletten gefunden, wird entweder das Skript angepasst oder die Adresse entsprechend ergänzt/geändert, so dass sie im nächsten Ergebnis mit hoher Wahrscheinlichkeit nicht mehr vorkommt. Noch vor dem Entfernen von Dubletten aus dem Adressbestand werden die Informationen manuell verschmolzen.
8.5 Interview mit einem österreichischen Versandhaus
Die beiden Interviewpartner möchten auf eigenen Wunsch hin anonym bleiben. Das Unternehmen beschäftigt 1.100 Mitarbeiter. (Interview vom 3. Juni 2008)
8.5.1 Adressen und Dubletten
3 Mio. Adressen werden zentral auf einer Oracle-Datenbank verwaltet. Externe Adressenlisten werden grundsätzlich nicht importiert, sondern erst dann in den Adressbestand aufgenommen, wenn der potenzielle Kunde auf Mailingaktionen reagiert. Dubletten entstehen meist aus folgenden Gründen: ● Kommunikationsprobleme, Hörfehler (speziell bei internationalen Namen) ● Einträge in Web-Formulare können unvollständig oder falsch sein ● Absichtliche Abweichungen aufgrund von betrügerischen Absichten ● unleserliche Handschrift
○ wird seltener (aufgrund abnehmender handschriftlicher Kommunikation)
Werden Adressen für Marketing-Aktivitäten zugekauft, kann es vorkommen, dass sich innerhalb dieser Adressliste bereits bis zu 7% Dubletten befinden. Eine Überprüfung hinsichtlich Dubletten findet aus diesem Grund vor der Weiterverarbeitung dieser externen
140 Ein Teilnehmer kann einen Sperrvermerk hinterlegen lassen, wenn er nicht mehr angerufen / interviewt werden will.
Adresslisten routinemäßig statt. Die Adressen werden nicht personen- sondern haushaltsbezogen verwendet. Daher werden Adressen einzelner Haushaltsmitglieder als „Familiendubletten“ bezeichnet.
8.5.2 Probleme und Kosten durch Dubletten
Durch Dubletten entstehen hauptsächlich zusätzliche Porto- und Druckkosten (für Kataloge, Prospekte, etc.). Da die Mailingaktionen mittlerweile eine Vorlaufzeit von bis zu sechs Wochen haben, können bis zur Entdeckung der Dublette bereits bis zu 100 € an Kosten angefallen sein (Werbemittel, Porto, Prozesskosten). Abgesehen davon ist der Adressbestand durch die Dubletten größer als notwendig.
8.5.3 Mitarbeiter
Im Callcenter arbeiten ca. 150 Mitarbeiter, die eingeschränkten Zugriff auf den Adress-bestand haben. 25 Mitarbeiter im Bereich Kundenbetreuung haben die Möglichkeit Adressen umfassend zu ändern bzw. Dubletten zu bereinigen. Aber auch im Callcenter gibt es eine eigene Gruppe von Mitarbeitern, die Werbesperren eintragen, Kunden neu anlegen und Dubletten verlinken können. Änderungen an Adressen werden protokolliert, um bei Unklarheiten besser nachvollziehbar zu sein. Alle Mitarbeiter bekommen eine Ersteinschulung bei der unter anderem die Dublettenproblematik bewusst gemacht wird. Durch Schulungen, die laufend angeboten werden, können die Mitarbeiter ihre Aufgabengebiete, und somit auch die Zugriffsrechte auf Adressen, erweitern.
8.5.4 Dublettensuche und Bereinigung
Fuzzy! Double (von Fuzzy Informatik) wird bereits seit 10 Jahren für die Dublettensuche eingesetzt, wobei die Online-Suche erst seit etwa 5 Jahren implementiert ist. Bei der Eingabe von neuen Adressen wird bereits im Hintergrund die Online-Dublettensuche gestartet und potenzielle Dubletten als Auswahlliste am Bildschirm dargestellt. Je detaillierter die Eingabe ist, desto stärker wird die Auswahlliste eingeschränkt und somit auch übersichtlicher. Die Online-Dublettensuche ist fehlertoleranter als die Batch-Suche. Trotz der hohen Anzahl von Adressen ist bei der Online-Dublettensuche eine maximale Reaktionszeit von einer Sekunde gewährleistet.
Die monatliche postalische Überprüfung wird mittels Fuzzy Post (ebenfalls von Fuzzy Informatik) durchgeführt. 141 Vierteljährlich werden alle Adressen mittels Batchlauf 142 auf Dubletten durchsucht. Jener Anteil von Dubletten, den Fuzzy! Double als „sichere Dublette“ einstuft, wird automatisiert verknüpft, während der Rest manuell bewertet und gegebenenfalls verknüpft wird. Die Batch-Suche wird in zwei Etappen durchgeführt. Der erste Batch-Lauf listet alle Dubletten mit einer Übereinstimmungsgenauigkeit bis mindestens 90 Prozent. Nachdem die Liste (zum Teil automatisiert) abgearbeitet wurde, startet der zweite Batch-Lauf mit einer Übereinstimmungsgenauigkeit von mindestens 80 Prozent. Dubletten mit einer Übereinstimmung unter 80 Prozent werden ignoriert. Die Übereinstimmungsgenauigkeit kann je Adressfeld einzeln definiert werden. Zusätzlich kann sie aber auch global für die gesamte Adresse definiert werden. Die Anzahl der manuell zu bearbeitenden Dubletten ist im Vergleich zu den „sicheren Dubletten“ viel geringer. Durch die Verknüpfung werden die Informationen der verknüpften Adressen nach dem Öffnen einer der Adressen gesammelt in einer Bildschirmmaske dargestellt. Dennoch verbleiben die einzelnen Informationen physikalisch in den einzelnen Dubletten. Für die Darstellung der Verknüpfungen wurden eigene Regeln definiert. Bei der Verknüpfung von Dubletten werden so genannte Verknüpfungsstatus vergeben, die ausdrücken, wie sicher sich der Bearbeiter war, ob es sich tatsächlich um eine Dublette handelt oder nicht. Werden bei der Dublettensuche zwei Familiengenerationen, die in einem Haus (in zwei getrennten Wohnungen) leben, als Dublette ausgewiesen, werden sie als „gewollte Dublette“ markiert.
Eine Besonderheit bei der Dublettensuche sind so genannte Eckhaus-Dubletten, bei denen Häuser, die sich an Straßenecken befinden zwei verschiedene Hausnummern bzw. Straßenbezeichnungen tragen. Insgesamt sind in Österreich etwa 50.000 Häuser davon betroffen.
Die Dublettensuche wirkt auch unterstützend beim Auffinden von Betrügern oder Risiko-Kunden, die mit leicht abgewandelten Adressen bewusst versuchen an der Bonitätsprüfung vorbei zu kommen.
141 Allerdings können bei Umzüglern nur jene Kunden berücksichtigt werden, die einen (kostenpflichtigen) Nachsende-
auftrag bei der Post beantragt haben. Jene Kunden, die diesen Nachsendeauftrag nicht gemacht haben, fallen meist
durch Postretouren auf.
142 Dieser Batchlauf dauert auf der dafür einesetzten Unix-Plattform maximal 30 Minuten.
Für die Dublettensuche werden die Adressdaten temporär normalisiert. 10 Regeln und ca. 2000 Referenzdaten sind für die Normalisierung hinterlegt. Beispiele für die Regeln sind: ● Satzzeichen werden entfernt ● Zusatzinfos von Hausnummern werden normiert ● doppelte Leerzeichen durch ein Leerzeichen ersetzt ● Vereinfachung von Doppellauten wie zb TZ zu Z, TT zu T, DT zu T,... Diese Datenbank wurde innerhalb der letzten zweieinhalb Jahren aufgebaut und ständig weiterentwickelt.
Als zusätzliche Unterstützung für die Dublettensuche wird auf eine Referenz-Datenbank gesetzt, die ähnlich konfiguriert ist wie auf Seite 49 beschrieben. Darin werden alle falsch gefundenen Dublettengruppen gespeichert. Falsche Dublettengruppen werden mit einer „Flag“ gekennzeichnet. Diese erlischt aber automatisch, sobald Feldinhalte innerhalb dieser Gruppen geändert werden.
Der Inhalt der Referenz-Datenbank wurde bis dato noch nie gelöscht, um irrtümlich markierten Dublettengruppen erneut die Chance zu geben „entdeckt“ zu werden. Die Kosten/Nutzen-Relation wäre einfach zu schlecht, um den großen Aufwand zu rechtfertigen. Da jedoch Adressen einem stetigen Wandel unterzogen sind, erneuert sich diese Datenbank zu einem guten Teil automatisch.
8.5.6 Support und Wartung
Im Support- und Wartungsvertrag ist ein automatisches Update der Software inkludiert. Weiters wurden Techniker für die Implementierung der Schnittstellen vor Ort seitens Fuzzy Informatik bereitgestellt. Die postalischen Referenzdaten werden monatlich automatisch aktualisiert.
8.6 Interview mit einem Telekommunikationsunternehmen
Das Unternehmen ist Komplettanbieter in den Bereichen Festnetz, Mobilfunk und Internet. 25 Mitarbeiter sind in der Zentrale im Innendienst tätig. Etwa 200 freie Handelsvertreter in ganz Österreich verkaufen die Produkte. Wie einige andere Interviewpartner möchte auch dieser anonym bleiben. (Interview vom 2. Juni 2008)
Zur Zeit werden etwa 65.000 Kunden betreut. In dieser Zahl nicht enthalten sind alle bisher abgelehnten Kunden, die in einer eigenen Referenz-Datenbank gespeichert sind. Die Adressdaten sind zentral gespeichert und können via Web-Applikation abgerufen werden. Als Gründe für die Entstehung von Dubletten gelten: ● Kunden, die bewusst unterschiedliche Abrechnungen verlangen (weil sie eine Aufteilung je nach Filiale wünschen, oder weil ihnen mehrere Firmen gehören) ● Betrugsversuch (ähnlich wie im Versandhandel), Kunde gibt bewusst abweichende Adresse bekannt, um die Bonitätsprüfung zu manipulieren. Im Falle des Betrugs wären die Zahlungsausfälle beträchtlich, wenn nicht mittlerweile eine sehr effektive Bonitätsprüfung (Delta Vista) verwendet würde.
8.6.2 Mitarbeiter
15 der 25 Innendienst-Mitarbeiter können Adressen direkt anlegen bzw. verändern. Die EDV-Abteilung, die Geschäftsführung und zwei weitere Mitarbeiter haben als einzige das Recht die Adressdaten zu exportieren.
Sämtliche externen Vertriebspartner (Handelsvertreter) faxen die Unterlagen bzw. tragen die Kundendaten in ein Web-Formular ein. Diese externen Daten werden in eine so genannte Zwischendatenbank übernommen. Dort werden die Daten auf Plausibilität 143 , Bonität und Dubletten geprüft.
Die Mitarbeiter sind sehr stark auf Dubletten sensibilisiert. Kunden, die zwei oder mehr gewollte Kundennummern haben werden sogar in regelmäßigen Abständen kontaktiert und gefragt, ob ihre Kundennummern zusammengelegt werden dürfen. Dies spart bei der Fakturierung Papier und Portospesen.
Bei Unklarheiten zu Kundendaten wird der Vertriebspartner, der den Kunden abgeschlossen hat, kontaktiert. Für potenzielle Betrugsfälle wurde ein Fraudmanagement eingerichtet, das sich um die Risiko-Kunden kümmert.
8.6.3 Dublettenprüfung und Bereinigung
Das Thema Dubletten wurde bei der Einführung der Bonitätsprüfung aktuell. Für die Dublettenprüfung werden selbst entwickelte SQL-Skripts verwendet. Eine eigene Softwarelösung zur Dublettensuche gibt es nicht. Um die Trefferquote zu erhöhen, werden manu- 143Die Überprüfung auf Plausibilität wird mit Hilfe der Feibra-Datenbank durchgeführt. Feibra ist ein Hauszusteller von
Werbematerialien.
ell Cluster 144 erstellt. Insgesamt dauerte die Einführung der Dublettensuche etwa ein Quartal, wobei diese nach wie vor verfeinert wird.
Die Datenbank (Filemaker) prüft von sich aus, ob die Telefonnummer bereits existiert und verweigert die Anlage von neuen Kunden mit bereits bestehenden Rufnummern. Weiters werden bei der Anlage von neuen Adressen Name, Adresse und die Kontonummer auf Dubletten geprüft.
Adressen mit gleichen Kontonummern werden verknüpft und in der Übersicht „Zahlungsverpflichtung“ bei jeder verknüpften Adresse angezeigt. Die Zahlungsverpflichtung ist ein entscheidendes Kriterium, da nicht jeder Vertragsinhaber auch gleich der Zahlungspflichtige ist. Wird ein gewisser Mahnstatus überschritten, wird nicht nur der eine betroffene Vertrag bzw. die eine betroffene Rufnummer gesperrt, sondern alle anderen Verträge auch, die eine idente Zahlungsverpflichtung (Bankverbindung) aufweisen. Etwa einmal pro Monat werden alle Kundendaten mittels Batch-Lauf auf Dubletten geprüft. Als Suchkriterien dienen die Kontonummer, Geburtsdatum in Kombination mit dem Namen und die Firmenbuchnummer (falls es sich um Firmenkunden handelt). Zusätzlich zur klassischen Dublettenprüfung wird der gesamte Adressbestand auch mit archivierten Risikoadressen verglichen, um Kunden mit schlechter Zahlungsmoral möglichst frühzeitig zu identifizieren.
Um frisch Verheiratete, die möglicherweise auch noch umgezogen sind, aufzufinden, wird einmal jährlich nach den Kriterien „Vorname + Geburtsdatum + Adresse“ bzw. nur „Vorname + Geburtsdatum“ geprüft.
Es werden - allein schon aus rechtlichen Gründen - keine Adressen aus der Datenbank gelöscht bzw. Daten unwiederbringlich überschrieben. Dubletten werden verlinkt, sodass die Mitarbeiter sofort sehen können, ob der Kunde auch noch weitere Verträge hat, sobald einer dieser Verträge aufgerufen wird. Belegdaten (Rechnungen,...) werden nicht verschoben, allerdings werden die neuen Kundenbelege nach der Verlinkung nur noch an die „Kopfdublette“ 145 gehängt. Markierte Dubletten können aber sehr wohl noch als Dubletten zu anderen als den bisher verlinkten Adressen durch die Dublettensuche erkannt werden. Vertriebspartner haben die Möglichkeit Rufnummern online abzufragen, um festzustellen, ob diese Rufnummer bereits ein Vertragsverhältnis mit dem Unternehmen hat. Die Online-Abfrage dauert maximal 2 Sekunden.
144 verschiedene Sortierungen der Kundendaten
145 Kopfdublette = Die Firma Omikron bezeichnet Kopfdubletten als jene Dubletten, die weiterverwendet werden, wäh-
rend die „Folgedubletten“ meist gelöscht werden.
Eine Besonderheit in dieser Branche ist die Preselection 146 im Festnetzbereich. Werden Telekom-Austria-Kunden abgeworben, muss die Preselection bei der Telekom Austria beantragt werden. Die Adresse muss exakt mit der Adresse übereinstimmen, die die Telekom in ihrer Kundendatenbank gespeichert hat - auch wenn diese nicht ganz richtig geschrieben ist. Aus dieser Not heraus wird bei Abweichungen sowohl die Preselection-Adresse als auch die tatsächlich richtige Adresse in der Datenbank gespeichert. Dies verhindert, dass der Kunde bewusst mit der unrichtigen Adresse angeschrieben wird.
146 Verbindungsnetzbetreibervorauswahl - wie es von der Telekom Austria auch genannt wird. Durch die Preselection
wird automatisch die Verbindung über den jeweils vorher definierten Betreiber hergestellt.
9 Einführung und nachhaltiger Betrieb
Die Bereinigung der Dubletten soll nicht alleine der IT-Abteilung überlassen werden. Sie ist vielmehr dafür verantwortlich die Dublettensuche IT-unterstützt durchzuführen und die Ergebnisse dieser Suche aufzubereiten, damit sie an die zuständigen Verantwortlichen zur Bereinigung verteilt werden können. Daher ist es sehr wichtig die notwendigen abteilungsübergreifenden Prozesse festzulegen, zu optimieren und die Verantwortung dieser Prozesse Experten aus der IT und dem Qualitätsmanagement zu übertragen. Daraus entsteht ein neuer Verantwortungsbereich des Daten-Qualitäts-Managements, der sich wie folgt darstellen lässt: 147
9.1 Technische Einführung der Dublettensuche
Wesentliche Aspekte wurden bereits im Kapitel Erstellung eines Anforderungskataloges auf den Seiten 26ff behandelt. Details dazu sollten besser direkt mit dem jeweiligen Anbieter geklärt werden.
9.2 Betroffene betriebliche Prozesse nachhaltig gestalten
9.2.1 Bereinigung der Dubletten
Der Prozess der Bereinigung betrifft Dubletten, die in der Batch-Suche gefunden werden bzw. von Mitarbeitern gemeldet werden. Im Falle der OÖ Tourismus Technologie GmbH wurden - für die Erstbereinigung - Listen mit Dublettengruppen an die jeweils ver-antwortlichen Abteilungen verteilt. Die jeweiligen Teamleiter der Abteilungen waren dann für die Bereinigung verantwortlich. Darauf aufbauend kann in Folge ein Workflow-Sys-
147Wende, 2007, S. 3
tem 148 , das die Dubletten automatisiert den verantwortlichen Mitarbeitern zustellen und gleichzeitig ein effizientes Controlling der Bereinigung ermöglichen kann, eingeführt werden.
Das Controlling kann (wie auf Seite 51 bereits erwähnt) allerdings nur quantitativ und nicht qualitativ durchgeführt werden. Insofern sollte das Controlling als Informationsinstrument angesehen werden und nicht dazu dienen, Druck auf die Mitarbeiter auszuüben bzw. ihnen das Gefühl zu geben, dass ihnen „ständig“ über die Schulter gesehen wird, denn dies könnte sich negativ auf die Qualität der Bereinigung auswirken. Viel erfolgsversprechender ist es, wenn gemeinsame Evaluierungsgespräche stattfinden, in denen das Projektteam und die betroffenen Mitarbeiter über Lösungen zu aktuellen Problemen diskutieren und die daraus resultierenden Lösungen gemeinsam umsetzen.
9.2.2 Dubletten als Chance für bessere Adress-Importe
Bei den Interviews 149 mit den OÖ Nachrichten, dem Telekommunikationsunternehmen und dem Versandhaus stellte sich heraus, dass Dubletten nicht aus dem System entfernt werden, sondern als Dublette markiert und so verlinkt werden, dass die Informationen der Dubletten bei Aufruf innerhalb der Bildschirmmaske „verschmolzen“ werden. Ein wichtiger Vorteil ergibt sich dadurch bei Imports von externen Adressen. Durch die Ansammlung der Dubletten wird nicht nur die unterschiedliche Schreibweise der Adressen, sondern auch die Umzugshistorie erfasst. Dadurch wird der Abgleich mit externen Adressen erheblich erleichtert, weil nicht davon auszugehen ist, dass Import-Adressen auf dem jeweils neuesten Stand bezüglich der Wohnadresse sind.
9.2.3 Entscheidungskompetenzen neu verteilen
Dubletten sollten idealerweise von jenen Mitarbeitern bereinigt werden, die häufig mit den Adressen zu tun haben. Diese Mitarbeiter müssen ohnehin schon bei der Online-Dublettensuche entscheiden, ob der Kunde bereits existiert oder nicht. Für den Fall, dass es so genannte Adressverantwortliche 150 oder Key Account Mitarbeiter gibt, sollten die Dublettengruppen von diesen bereinigt werden, wobei davon ausgegangen wird, dass die jeweiligen Mitarbeiter bei den Adressen hinterlegt sind.
148 Die Wirtschaftskammer OÖ setzt zB ein Workflowsystem ein, das sich auch um die Verteilung der Dubletten küm-
mert. (Vgl. Interview, Spiessberger, S. 70ff)
149 Siehe Seite 67ff
150 Siehe Seite 24
Innerhalb eines bestehenden Workflow-Management-System kann ein Regelwerk definiert werden, das dafür sorgt, dass die Dublettengruppen auch dann aufgelöst werden, wenn einzelne Mitarbeiter nicht mehr im Unternehmen bzw. in Urlaub oder im Kranken-stand sind. Damit die Mitarbeiter überhaupt die Möglichkeit haben die Dubletten zu bereinigen müssen die Kompetenzen 151 der Mitarbeiter entsprechend angepasst werden. Bei einigen Mitarbeitern kann es durchaus Sinn machen diese Berechtigungen zu entfernen, falls sie nicht benötigt werden.
Eine dezentrale Pflege der Kundendaten hat das Potenzial für eine bessere Qualität bei der Bereinigung. Jeder für ein Kundensegment Verantwortliche pflegt dabei seinen Teil der Kundendaten selbst. Folgende Beispiele gelten als Orientierungshilfe:
- Außendienst pflegt die Daten seiner Ansprechpartner
- Innendienst pflegt seine Kontaktpersonen
- Auftragsabwicklung pflegt die Versandadressen
- Buchhaltung pflegt die Rechnungsanschrift 152
9.2.4 Umgang mit Belegdaten
Zuerst muss überprüft werden, ob es überhaupt gesetzlich erlaubt ist, Belegdaten einfach zu „verschieben“. In den Interviews wurde mehrmals darauf hingewiesen, dass dies oft nicht der Fall ist. 153 Meist betrifft dies „kritische“ Belegdaten wie zB Rechnungen. Im Falle des Telekommunikationsunternehmens werden die einzelnen Dubletten verlinkt und beim Öffnen in der Bildschirmmaske integriert dargestellt. Die einzelnen Belegdaten bleiben bei den Dubletten und werden ab dem Zeitpunkt der Verlinkung nur noch in der „Kopfdublette“ abgelegt. Mit dieser Vorgehensweise werden die gesetzlichen Vorschriften eingehalten und trotzdem sind die einzelnen Dubletten durch die Verknüpfung übersichtlich dargestellt, sobald eine davon aufgerufen wird.
9.2.5 Fehler-Report-System
Ein Fehler-Report-System, wie auf Seite 24 beschrieben, hilft die Dublettenquote zusätzlich zu senken. Durch die unscharfe Dublettensuche werden bereits sehr viele Dubletten gefunden. Während der täglichen Arbeit werden aber auch Mitarbeiter mit Dubletten konfrontiert, die vielleicht nicht gleich die Möglichkeit (oder Zeit) haben, die Dublette zu bereinigen. Durch ein möglichst einfaches Meldesystem (abgebildet in der
151 In diesem Fall die Berechtigungen innerhalb der Unternehmenssoftware
152 Vgl. is report 6/2004, S. 48
153 Vgl. Interview mit OÖ Nachrichten, dem Versandhaus und dem Telekommunikationsunternehmen
Unternehmenssoftware oder auch via Mail) sollten diese Mitarbeiter dazu motiviert werden, Dubletten zu melden. 100 % dublettenfreie Adressbestände gibt es ab einer gewissen Größe de facto nicht. Durch dieses Meldesystem kann die Kombination Mensch/Maschine mit ihren jeweiligen Stärken dazu führen, dass eine weitere Annäherung an den Idealzu-stand stattfindet.
9.2.6 Dublettensuche im Batch-Modus
Diese Methode wird auch reaktive Methode genannt. 154 Die Batch-Dublettensuche wird in vielen Fällen zuerst eingeführt. Dies hat zwei wesentliche Gründe: ● einfacher einzuführen als die Online-Dublettensuche ● notwendig für die Erstbereinigung
Es ist darauf zu achten, dass sich das Projekt nicht im Sand verläuft, sobald diese Dublettensuche erfolgreich eingeführt wurde. Nachhaltig können Dubletten nur in Kombination mit der Online-Dublettensuche verhindert werden.
Empfehlungen für die Batch-Suche:
● Experimentieren mit unterschiedlichen Suchalgorithmen ○ Übereinstimmungsgenauigkeit (zT auch auf Ebene des Adressfelds) ○ Gewichtung der einzelnen Adressfelder ○ Clustermanagement (mehr/weniger Cluster bzw. Schwellenwert) ○ Normalisierung (zB eigene Regeln für firmeninterne Ausdrücke definieren) ○ Wissensdatenbanken verwenden (Vornamen, postalische Prüfung,...) ○ NULL-Vergleich verwenden ● Referenzdatenbank einsetzen 155
Um Dubletten zu finden, die durch Heirat entstanden sind (gleiche Adresse, anderer Nachname), kann mit den Adressfeldern „Vorname“, „Geburtsdatum“, „Straße“ und „Ort“ gesucht werden.
Umzügler, die frisch geheiratet haben, können mithilfe der Adressfelder „Vorname“ und „Geburtsdatum“ (und kundenbezogene Daten, die sich durch Umzug und Heirat ebenfalls nicht ändern) gefunden werden. 156
154 Vgl. Wandt, 3/2006, S. 6
155 Hilfestellungen zu den einzelnen Punkten befinden sich auf Seite 36ff
156 Siehe Interview mit Telekommunikationsunternehmen auf Seite 81.
Diese Form der Dublettensuche wird auch als proaktive 157 Dublettensuche bezeichnet, weil sie bereits die Entstehung von Dubletten bei der Eingabe verhindert. Vorausgesetzt natürlich, dass sie schnell und treffsicher ist. Großes Augenmerk soll auf die Anzahl der Treffer-Vorschläge gelegt werden. Es sollten auf keinen Fall zu viele sein, da der Mitarbeiter sonst in seinem Arbeitsfluss gebremst wird. Die Vorschläge sollten möglichst nicht alphabetisch, sondern entsprechend ihrer Übereinstimmung absteigend gereiht werden. Durch diese Reihung kann in Folge eine maximale Anzahl definiert werden, die in der Treffer-Liste dargestellt wird. Alle übrigen Dubletten (in der Trefferliste weiter unten) können „abgeschnitten“ werden. Da die Übereinstimmung nach unten hin abnimmt, sollten sich die „richtigen“ Treffer meist weiter oben in der Liste befinden. Die Online-Dublettensuche sollte grundsätzlich „weicher“, also mit niedrigeren Übereinstimmungsgenauigkeiten, eingestellt werden als die Batch-Suche. Dadurch wird gewährleistet, dass es genügend Treffer gibt.
Empfehlungen für die Online-Suche:
● Einhalten der maximalen Reaktionszeit ○ weniger Adressfelder für den Vergleich heranziehen 158 ■ Definition der Mussfelder, die befüllt sein müssen, damit Suche startet ○ Schwellenwert des Clusters niedriger als bei Batch-Suche ■ dadurch werden weniger Adressen miteinander verglichen ○ maximal 3 Cluster definieren
● Übereinstimmungsgenauigkeit kann eher „weich“ eingestellt werden 159 ○ dadurch werden eher zu viel als zu wenig Treffer gefunden ○ Treffer nach der Übereinstimmung sortieren
○ Trefferauswahlliste nicht zu lange werden lassen (Ergebnis beschneiden) 160
157 Vgl. Wandt, 3/2006, S. 6
158 Die WKO verwendet zB nur Vorname + Nachname + Geburtsdatum oder PLZ (Siehe Interviews auf Seite 67ff)
159 Vgl. Interview mit Versandhaus, S. 77
160 Hilfestellungen zu den einzelnen Punkten befinden sich auf Seite 36ff
Wie bereits im Kapitel Übereinstimmungsgenauigkeit auf Seite 36 beschrieben, ist es schwer möglich den Overkill, den Underkill und die Rechenzeit gleichzeitig zu minimieren.
Verringert man den Underkill, erhöht sich zwangsläufig das Risiko, dass gelegentlich auch einmal ein Adressen-Paar zu Unrecht als Dublette diagnostiziert wird. Ergebnis: Overkill nimmt zu.
Verringert man den Overkill, dann hält man sich bei der Diagnostizierung von Dubletten zurück. Dann werden aber auch häufiger Dubletten übersehen. Ergebnis: Der Underkill nimmt zu.
Verringert man die Rechenzeit, geht dies zu Lasten der Prüfqualität. Ergebnis: Under- und Overkill nehmen zu. 161
161 Vgl. www.qadress.de/hintergrund/dublettensuche.htm, Juni 2008
10 Kosten/Nutzen-Rechnung
10.1 Studienergebnisse
In deutschen Banken bewegen sich die direkten Kosten für mangelnde Datenqualität zwischen 8 und 25 % des Umsatzes. 162
Diese Studie bezieht sich nicht konkret auf Dubletten, sondern auf mangelhafte Datenqualität. Dubletten sind ein Teil davon, daher sind die Prozentangaben nicht 1:1 umlegbar auf die Einsparungen, die durch die Einführung von unscharfer Dublettensuche möglich wären.
10.2 Kosten
10.2.1 Initialkosten
Bevor eine konkrete Auswahl eines Anbieters bzw. eines Standardsoftwareprogramms vorgenommen wird, ist es zweckmäßig, einen Kostenrahmen für das Projekt zu veranschlagen und von der Unternehmensleitung genehmigen zu lassen. Folgende Positionen sollten vom Projektteam als Einmalaufwand berücksichtigt werden: ● Kosten für die Software (Lizenzkosten) ● Kosten für Einführungsunterstützung, Beratung, etc. ● Kosten für Programmanpassungen ● Kosten für Schulungsmaßnahmen ● Kosten für Hardware und weitere IT-Infrastruktur 163 ● Kosten für das eigene Personal, welches für das Projekt tätig ist
Betrachtet man nur die Lizenzkosten für die SW-Lösung, werden diese im Vergleich zu den TCO (Total Cost of Ownership) relativ gering sein, daher sollte die Berechnung (wie oben angegeben) auch etwaige Eigenleistungen berücksichtigen (auch wenn diese Kosten nur geschätzt werden können).
10.2.2 Betriebskosten
Für den laufenden Betrieb der Dublettensuche sind folgende Kosten zu berücksichtigen:
162 Vgl. Studie Agens Consulting, 2007, S. 2
163 Vgl. Gronau, 2001, S. 3
● Support- und Wartungskosten ○ für die SW-Lösung zur Dublettensuche
○ für zusätzlich notwendige IT-Infrastruktur (Betriebssystem, Hardware,...) ● Eigene Personalkosten zur Betreuung (anteilig)
10.3 Nutzen - Einsparungspotenzial
Neben dem erreichbaren qualitativen Nutzen, der auf Seite 18ff bereits erklärt wurde, können unterschiedliche Kosten durch die unscharfe Dublettensuche eingespart werden. Ein exaktes generisches Kalkulationsschema ist aufgrund der jeweils sehr spezifischen Einsatzszenarien in den Unternehmen nicht möglich. Folgende Faktoren sollen helfen, die Kosten und Nutzenpotenziale dennoch näherungsweise zu quantifizieren.
10.3.1 Anzahl der Dubletten
Um die tatsächlichen Zahlen kalkulieren zu können, müsste die konkrete Anzahl der Dubletten im System bekannt sein. Durch Evaluierungsversionen, die viele Hersteller, zu geringen Kosten oder sogar gratis, zur Verfügung stellen, kann die Anzahl der Dubletten geschätzt werden. 164
Einsparungspotenziale ergeben sich durch niedrigere ● Druck- und Portokosten (Mailings,...)
● Werbekosten (schlechtere Datenqualität muss nicht mehr durch Werbung kompensiert werden)
10.3.2 Analyse der Kunden
Zuerst sollte der durchschnittliche Deckungsbeitrag je Kunde erhoben werden, um den Verlust eines Kunden in Zahlen ausdrücken zu können. Alternativ können auch andere Bewertungsmethoden, wie zB der Customer Lifetime Value 165 , herangezogen werden. Durch die Bewertung kann ermittelt werden, wie hoch der Schaden eines abgewanderten Kunden sein kann. Zu beachten ist jedoch, dass nicht jeder Kundenverlust aufgrund von Dubletten oder mangelnder Datenqualität stattfindet. Aus diesem Grund sollten zuerst Gespräche mit den Betroffenen (Verkäufer, Servicemitarbeiter, Kunden,...) geführt werden, um abschätzen zu können, welchen Anteil die Dubletten am Kundenverlust tragen.
164 Nicht alle Dubletten werden gefunden und nicht alle gefundenen Dubletten sind tatsächlich welche. Abgesehen
davon unterliegt diese Zahl aufgrund von Änderungen im Adressbestand entsprechenden Schwankungen.
165 Vgl. Hofstetter, 2008, S. 1ff
In vielen Firmen gibt es bereits eine „schwarze Liste“, auf der Kunden angeführt sind, die bisher durch eine schlechte Zahlungsmoral aufgefallen sind. 166 Mithilfe der unscharfen Dublettensuche werden solche Kunden bereits bei der Erfassung besser identifiziert, nicht als Dublette angelegt und somit in letzter Konsequenz auch nicht beliefert. Dieses Einsparungspotenzial ist in vielen Branchen 167 sehr groß.
Die CRM-Analysen nach der Bereinigung von Dubletten führen zu einer besseren Ent-scheidungsgrundlage, die bei der Einteilung der Kunden behilflich ist. Top-Kunden können besser identifiziert werden und Cross-Selling ist erfolgreicher, weil der Verkäufer einen besseren Überblick hat, welche Produkte und Dienstleistungen bereits gekauft wurden.
10.3.3 Analyse der internen Prozesse
Die Mitarbeiter sind in einem geringeren Ausmaß damit beschäftigt, nach Dubletten zu recherchieren und diese zu korrigieren. Weiters werden sie bei der Suche und Anlage von Kundenadressen durch die unscharfe Dublettensuche stark unterstützt und entlastet. Diese Entlastung führt zu einer höheren Mitarbeiterzufriedenheit und es steht mehr Zeit zur Verfügung, um (wenn möglich) die Produktivität zu steigern und/oder sich mehr um die Anliegen der einzelnen Kunden zu kümmern, was sich schließlich in einem verbesserten Betriebsergebnis bzw. in einer verbesserten Kundenzufriedenheit widerspiegelt. Wie die Studien am Anfang des Kapitels belegen, verbirgt sich ein wesentlicher Teil des Einsparungspotenzials in den Verbesserungen dieser internen Prozesse, die mit der Einführung der unscharfen Dublettensuche einhergehen.
166 Oder sie lassen die Bonitätsprüfung durch externe Dienstleister durchführen (siehe Seite 13 Kapitel Adresspflege).
167 Vgl. Interviews auf Seite 67ff
Als Faktoren zur Berechnung können folgende Positionen dienen: ● Potenzielle zusätzliche Kapazitäten der Mitarbeiter ○ Kürzere Reaktionszeiten bei Kundenanfragen ● Verminderte Mitarbeiter-Fluktuation (durch höhere MA-Zufriedenheit) ● Höhere Kundenzufriedenheit und/oder mehr Umsatz bzw. Deckungsbeitrag
10.4 Berechnungsschema
Folgendes Schema setzt voraus, dass der grundsätzlich qualitative Nutzen quantitativ geschätzt werden muss. Um die Beträge realistisch einschätzen zu können, bedarf es der Einbeziehung der direkt betroffenen Mitarbeiter. Alle Beträge sollten auf ein Geschäftsjahr bezogen sein.
Ist die Differenz negativ, sollte überlegt werden, ob es sich trotzdem lohnt, die unscharfe Dublettensuche einzuführen, da der qualitative Nutzen nicht immer in Zahlen darstellbar ist. Alternativ könnte natürlich auch eine kostengünstigere SW-Lösung gewählt werden. Die Auswahl an Anbietern sollte groß genug sein (siehe Seite 54).
11 Fazit
Die Diplomarbeit lässt sich mit folgendem Zitat hervorragend zusammenfassen: Adressdaten bilden den wertvollsten Aktivposten jeder Organisation. Im Idealzustand ist jede Adresse eindeutig und vollständig. Zur Wahrung dieser Eindeutigkeit ist die Deduplizierung von Adressbeständen entscheidend:
- Batch-Dublettenbereinigung (in regelmäßigen Abständen)
- Online-Suche bereits gespeicherter Adressen
- Eingabekontrolle zur Vermeidung einer doppelten Anlage
- Bestandsvergleich (beim Import von Adressen) 168
Einige wichtige Themenbereiche wurden in dieser Diplomarbeit nur angeschnitten. Weiterführende (Diplom-)Arbeiten könnten diese Bereiche ergänzend bearbeiten, sodass noch umfassenderes Wissen gut aufbereitet und zusammengefasst zur Verfügung steht. Vorschläge für diese Themenbereiche wären:
● Evaluierung der am Markt befindlichen Anbieter hinsichtlich der Anforderungen ○ Bewertung der Anbieter (zB mit Zielerreichungsgrad, SWOT,...) ● Chancen und Risken von Dienstleistungen wie zB ○ postalische Überprüfung der Adressen ○ Bonitätsprüfung ○ Abgleich mit
Die Entwicklung eines technischen Lösungsansatzes für die Kaskadierung von Software-Lösungen zur Dublettensuche und das Aufzeigen der Nutzenpotenziale dieser Lösung wäre allein schon eine Diplomarbeit wert. Auf Seite 64 wurde ansatzweise versucht, das Potenzial einer solchen Lösung darzustellen.
168 Vgl. Wandt, 3/2006, S. 1
Stichwortverzeichnis
Abgleic h....1 3, 1 9, 2 7, 3 3ff., 4 3, 4 5, 5 5, 6 8, 84, 93 Kosten.....8, 1 1, 1 8ff., 2 5ff., 51, 5 3, 5 6, 58, 64, 6 8,
Abweic h u n g............1 4 ff., 3 2, 3 6, 3 9, 6 1, 7 6, 80, 82 7 1, 7 7, 79, 89f., 9 2
Ak z e p t a n z .............................................................. 22, 51 Lize n z ....................................................... 26, 32, 5 8, 8 9
Analyse........................................ 1 9 ff., 5 7, 6 3, 71, 9 0f Mailing....................... 13, 18, 2 0, 3 4, 36, 71, 7 6f., 9 0
An sc h aff u n g s k o s t e n.................................................. 18 Marketing................................... 19, 21f., 3 6, 6 7ff., 7 6
Arc hitek t u r ................................................................ 2 6ff Medienb r uc h ......................................................... 1 6, 2 5
Au slas t u n g.............................................. 2 0, 3 0, 41, 65 Mussfeld..................................................... 2 2, 3 3, 87 b o
Au swe r t u n g.................................................................. 19 Na me n s ä n d e r u ng......................................... 16, 61, 7 5
Batch - Pr üf u ng 3 0, 3 3, 4 5f., 4 9ff., 5 5, 6 6, 6 8, 71f., Nor m alisier u ng.................... 41ff., 4 6, 62, 70, 7 9, 8 6
7 6 ff., 8 1, 8 3, 8 6f NULL.................................................................... 44ff., 8 6
Beleg d a t e n ............................................................. 81, 85 Nut ze n ................ 8, 12, 18, 2 1, 2 4, 56, 79, 8 9f., 9 2f.
Berec h tig u ng............................. 1 4, 2 3, 4 4, 7 1, 74, 85 Online - Über p r üf u ng.......................... 15, 28, 3 3, 4 5f.
Bewu s s t s ei n...1 9, 2 1f., 5 2f., 5 6, 6 0ff., 7 0, 7 4, 77ff Overkill................................................................. 3 6f., 8 8
Bonitä t............................................... 1 3, 1 9, 7 8, 8 0, 93 Perfor m a nce.......................................................... 2 0, 6 6
Clie n t ...................................................... 2 7, 2 9, 31, 65f. Priorität................................................................... 3 4, 4 8
Clu s t e r..............................3 8ff., 4 6, 5 9f., 6 5, 81, 86f. Profil..................................................................... 3 4, 4 5f.
Co n t r olling.......................................................... 51f., 84 Projektgr u p p e .................................... 8, 22, 26, 3 1, 9 3
CRM........................... 1 0, 1 6, 1 8ff., 2 7, 2 9, 4 6, 49, 91 Reaktio n s z eit. .19ff., 3 0f., 56, 64ff., 72, 77, 8 7, 9 2
Cro s s - Selling................................................... 2 0 f., 91f. Rekla m a tio n........................................................ 1 8f., 2 1
Date n h alt u n g............................................................... 22 Res so u rce n ............................................................ 2 0, 2 5
Date n q u alitä t............ 8f., 1 0f., 1 6, 2 1, 2 4f., 71, 89f. Risiko.........................10, 13, 3 5, 7 2, 78, 80f., 8 8, 9 2
Date n q u elle.................................................... 3 4, 4 6, 68 SAP.................................................................... 31, 55, 6 8
Dien s tleis t u ng........................................ 1 3, 2 5, 91, 93 Sch nitt m e nge............................................................. 6 2f.
Du blet t e...........................8ff., 1 6ff., 4 1f., 4 4ff., 8 3ff. Sch nitt s tellen................................... 2 4, 2 9, 31, 65, 7 9
Einga be............ 1 4f., 2 4, 2 7f., 3 1, 3 3, 7 3, 7 7, 87, 93 Sch ulu ng........................ 2 1, 2 3, 52f., 73f., 77, 8 4, 8 9
ERP...................................................... 2 2, 2 7, 2 9, 4 6, 49 Schwellenwert ................................................ 39ff., 8 6f.
Evaluier u ng.8, 1 0, 1 2, 4 9, 5 3, 5 6ff., 6 6, 8 4, 9 0, 93 Server....................................... 2 0, 2 7, 29, 31, 5 5, 6 5f.
Fehler - Rep o r t ....................................................... 24, 85 Statistik............................................................ 20, 49, 7 1
Fehler m el d u n g.......................................................... 24f. Struk t u r .................................................... 33, 43, 6 8, 7 5
Gewic h t u n g.................................................. 3 6f., 4 6, 86 Tes t u m geb u ng...................................................... 5 6, 5 9
Har dw a re..................................... 2 6f., 3 0, 5 9, 65, 8 9f. Übereins ti m m u n g. 15, 29ff., 36, 46f., 7 3, 7 8, 86ff.
Heira t........................................................ 1 6, 7 1, 81, 86 Um z ug....13, 16, 5 5, 6 1, 67, 69, 7 1, 7 5, 84, 86, 9 3
Im ple m e n tier u n g.......................................1 2f., 1 9, 79 Underkill.............................................................. 3 6f., 8 8
Im p o r t ..........2 2, 2 9, 3 3f., 4 5, 6 7ff., 7 3, 7 5f., 84, 93 Versc h m el z u ng...................................... 23, 43, 4 8, 6 4
Ins t allatio n.................................................................... 26 Vorschlag............................................................. 2 4, 2 7f.
Integr a tio n ..................................... 1 1, 2 8f., 3 1, 3 3, 55 Workflow............................................... 46, 50, 7 2, 8 3f.
Inter n a tio n al.................................... 2 2, 3 2, 4 3, 7 6, 93 Zugriff...................................... 2 3f., 6 5, 68, 71, 7 4, 7 7
13 Literaturverzeichnis
Fachbücher
Eberspächer, Jörg / Reden, Wolf: Umhegt oder abhängig?, Heidelberg, Springer Verlag, 2005
Elsner, Ralf: Opt. Direkt- und DB-Marketing unter Einsatz mehrstufiger dyn. Modelle, Wiesbaden, DUV, 2003
Godschalk, David: Computer related Occupational Deviance, Wiesbaden, DUV, 2007
Herden / Gomez / Rautenstrauch / Zwanziger: SW-Architekturen f. d. E-Business, Heidelberg, Springer, 2006
Kofler, Michael: Linux, München, Addison Wesley, 2007
Kopp, Bernhard: Repetitorium Mathematik, Wien, Hölder-Pichler-Tempsky, 1993
Matthiessen Günther / Unterstein Michael: Relationale Datenbanken und SQL, Addison Wesley, München, 2003
Roeltgen, Claude: Eine Million oder ein Jahr hinter den Kulissen der IT, Kilchberg, Smart Books, 2006
Stock, Wolfgang G.: Information Retrieval, München, Oldenbourg Wissenschaftsverlag, 2006
Wieseckel, Sandra: Vergleich versch. Case-Tools f. d. Einsatz im konzept. DB-Entwurf, München, GRIN, 2007
Studien
Agens Consulting: Datenqualitätsmanagement in Kreditinstituten, 2007 BARC-Studie: Datenqualitätsmanagement, 2005
Artikel und Fallstudien
Gohr, Steffanie: Datenqualität: Gefahrenzone oder Riesenchance? , Database Marketing 01/2006 Gronau, Norbert: Auswahl und Einführung industrieller Standardsoftware - GITO-Verlag, 2001 Human Inference Fallstudie: „Swiss Life Feeling“ nach Integration der Kundendaten, 2007 Human Inference Whitepaper: Data Quality - The Foundation of any CDI Initiative, Mai 2006 is report (cm): Tücken und Lösungen im Adressmanagement, 6/2004 Kenneweg, Ralf: Ist Jörg Ramsauer = J. Ramsauer? , Direct Marketing 7/2003 Naumann, Felix: Datenqualität, Informatik Spektrum, 2007 Schmidt, Kerstin: Kunde unerwünscht, enable, 11/2007 Wandt, Holger: Datenqualität entscheidet über Erfolg, JoPM 3/2007
Wandt, Holger: Datenqualitätsmanagement für EVU, Anwenderbeitrag für Energiewirtschaft 3/2006 Welck, Ulrich: Tipps&Hinweise rund um Adresspflegeprogramme, Direct Marketing 11/2002 Wende, Otto: A contingency Approach to data governance, Universität St. Gallen, 2007 Wierner, Karin: Weltweit gepflegt! , Direct Marketing 11/2003
Skripte
DIN e. V.: Qualitätsmanagementsysteme Anforderungen (EN ISO 9001:2000), Dez 2000 Palmetshofer, Karl / Lindinger, Jörg: Betriebliche Informations-Systeme Teil 3, Herbst 2005
Interviews
Gerald Danzmair MBA, OÖ Nachrichten, Wimmer Medien GmbH & Co. KG Leitung Kundenbeziehungsmanagement und Abo-Service
Ing. Dr. Siegfried Spiessberger, selbständiger IT Konsulent u. a. für Wirtschaftskammer OÖ / WIFI
Die Interview-Partner des Versandhauses, Telekommunikationsunternehmens, Inkasso-Instituts und Meinungsforschungsinstituts möchten auf eigenen Wunsch hin anonym bleiben.
Weblinks
Umstellung der PLZ nach der Wiedervereinigung mit der ehemaligen DDR http://de.wikipedia.org/wiki/Postleitzahl_(Deutschland)
DeGEval - Gesellschaft für Evaluation e.V.
www.degeval.de/index.php?class=Calimero_Webpage&id=9025
Robinsonliste
www.fachverbandwerbung.at/de-service-robinsonliste.shtml
International Organisation for Standardization (ISO)
www.iso.org
Kroll-SOFTWARE - Anbieter von Fuzzy Dupes
www.kroll-software.de
Offizielle Seite des MONO-Projekts
www.mono-project.com
LiMux - Die IT-Evolution (freie Software in München - Publikation)
www.muenchen.de/Rathaus/dir/limux/publ/147183/index.html
Anbieter von unscharfer Dublettensuche
www.qadress.de www.scarus.de
Diplomarbeiten
Henkel, Philipp: Quantitative Zugriffskontrolle in einer Laufzeitumgebung, 2004 Hofstetter, Gerald: Customer Lifetime Value, FH Steyr, Studiengang e-Business, 2008 Schulz, Jochen: Unscharfe Suche in großen Adressbeständen, 2006
Arbeit zitieren:
Mag. (FH) Michael Langerhorst, 2008, Unscharfe Dublettensuche in Unternehmens-Adressbeständen, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Data Warehouse Systeme - Das multidimensionale Datenmodell
Informatik - Wirtschaftsinformatik
Seminararbeit, 47 Seiten
Risikocontrolling im Rahmen der Erdgasbeschaffung eines Regionalversor...
Diplomarbeit, 62 Seiten
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Michael Langerhorst hat den Text Unscharfe Dublettensuche in Unternehmens-Adressbeständen veröffentlicht
Michael Langerhorst hat einen neuen Text hochgeladen
Identitätsbildung: Implikationen für globale Unternehmen und Regionen
Dt. /Franz.
Christian Scholz
Personalabbau bei sanierungsbedürftigen und insolventen Unternehmen
Interessenausgleich und Sozial...
Wilhelm Schmeisser, Peter Hofmann
Praktische Tipps für kleine und mittlere Unternehmen
Ein praktischer Ratgeber für U...
Jörn Baden
Noch mehr praktische Tipps für kleine und mittlere Unternehmen 2
Ein praktischer Ratgeber für U...
Jörn Baden
Projektmanagement für kleine und mittlere Unternehmen
Das Praxisbuch für den Mittels...
Uwe Braehmer
0 Kommentare