AS MearchBox - Der Vergleich
Bei einer Identifikationssoftware geht es letztendlich immer um den Vergleich und die Bewertung zweier Datensätze, egal ob eine Online-Suche, einen Bestandsvergleich oder eine Dublettensuche durchgeführt wird. Verglichen werden immer die vorher analysierten und standardisierten Datensätze.
Der wohl wichtigste Punkt für eine individuelle und flexible, an Ihre speziellen Bedürfnisse angepasste Identifikation, ist die inhaltsgerechte Vergleichsmethode (Vorname, PLZ oder Hausnummern dürfen nicht auf die gleiche Art und Weise miteinander verglichen werden!) und die Ausgabe aller Teilergebnisse. Der zweite Punkt ist für die letztendliche Entscheidungsregel (z. B. „Wenn Nachname > 80 und Vorname > 78 und Postalische Adresse > 77, dann Treffer“) von ausschlaggebender Bedeutung, da die Verwendung eines einzigen Gesamtergebnisses in vielen Fällen schlecht und unbrauchbar ist. Beispielsweise kann ein Gesamtergebnis von 80 Punkten bedeuten, dass Nachname, Vorname und postalische Adresse alle 80 Punkte erhalten oder aber das die postalische Adresse exakt gleich, also 100 ist, die Namenspunkte jedoch bei 60 liegen. Im ersten Fall liegt mit hoher Wahrscheinlichkeit ein Treffer vor, im zweiten handelt es sich wohl eher um eine andere Person bzw. Organisation mit der gleichen postalischen Anschrift.
Ermittlung der Vergleichswerte
Auf Basis der Analyseergebnisse werden die Einzelelemente miteinander verglichen. Für die Anschriftendaten sind dies normalerweise:
- Vergleich der PLZ
- Vergleich des Ortsnamens (incl. Ortszusatz)
- Vergleich des Straßennamens (inkl. Straßentyp und Straßennamen-Zusatz)
- Vergleich der Hausnummer (inkl. des Hausnummernzusatzes)
Für die Namenselemente werden, je nach dem, ob es sich um Privatpersonen oder Organisationen handelt, folgende Einzelvergleiche durchgeführt:
Organisationen
- Firmennamen-Matrix-Vergleich
- Firmennamen-Akronym-Vergleich
- Gesellschaftsformen-Vergleich
Privatpersonen
- Vergleich der Initiale bzw. Anfangsbuchstaben eines Vornamens
- Vergleich der Vornamen
- Vergleich der Nachnamen (inkl. Präfixe)
Darüber hinaus gibt es eine große Anzahl mathematisch basierter Vergleichsverfahren, die auf alle Bestandteile einer Adresse einzeln oder in Kombination verwendet werden können. Die Notwendigkeit mehrerer Vergleichsverfahren ergibt sich häufig aus der Tatsache, dass einzelne, spezielle Verfahren in bestimmten Situationen sehr schlechte Werte liefern. In diesen Fällen kann dann eine andere Vergleichsmethode dieses Problem beheben. In der AS MearchBox stehen Ihnen derzeit u. a. folgende Vergleichsverfahren zur Verfügung:
- exakter Stringvergleich
- Bigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
- Trigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
- Imagevergleich mit und ohne Berücksichtigung unterschiedlicher Längen
- mehrere phonetische Vergleichsverfahren>
- Levenshteinvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
- Short-String Vergleich
Auf Basis dieser mathematischen Vergleichsverfahren haben wir eine ganze Reihe spezieller Verfahren entwickelt, die auf den jeweils auf den zu vergleichenden Inhalt hin optimiert wurden. Daraus entstanden u.a. spezielle Vergleichsmethoden für den Vergleich von:
- Postleitzahlen
- Ortsnamen
- Straßennamen
- Hausnummernvergleich (mit und ohne Hausnummernzusatz)
- E-Mail-Adressen
- Internet-URLs
- Kreditkartennummern
- Kontonummern
- Bankleitzahlen
- Telefon- und Faxnummern
- Geburtsdaten (bzw. allgemein Datum)
- Vornamensvergleich (z. B. auch Vergleich Vorname/Initial)
- Nachnamensvergleich
- Initialen- bzw. Anfangsbuchstabenvergleich
- Organisationsformenvergleich
- Organisationsnamenvergleich
- Vergleichsverfahren für den Vergleich von Privatpersonen mit Organisationen
Nachfolgend werden einige dieser Vergleichsverfahren kurz erläutert und anhand eines Beispiels illustriert, wobei die Angabe "Score" den Vergleichswert auf einer Skala von 0-100 repräsentiert (0=keine Ähnlichkeit, 100=identisch).
Vergleich von Anschriftendaten
Die oben genannten Elemente der Anschrift werden zunächst separat bewertet und anschließend zu einem Gesamtscore zusammengefasst, wobei jeder Einzelvergleich mit einem seiner Wichtigkeit entsprechenden Gewicht in diesen Gesamtscore einfließt. Jedem einzelnen Teilergebnis können Mindestwerte und Gewichte (Wertigkeit, mit der das Teilergebnis in das Gesamtergebnis eingehen soll) zugeordnet werden, um die individuellen Anforderungen verschiedener Kunden optimal berücksichtigen zu können.
PLZ-Vergleich
Der PLZ-Vergleich ist länderspezifisch und berücksichtigt bspw. für deutsche Adressen, dass die häufigsten Fehler bei der Eingabe einer PLZ in den letzten drei Ziffern geschehen. Andererseits wird z.B. Zahlendrehern Rechnung getragen, d.h. der Vergleich liefert ein relativ hohes Ergebnis, wenn zwei aufeinanderfolgende Ziffern nur in ihrer Reihenfolge vertauscht sind.
Beispiel 1 (erste Ziffer falsch)
PLZ 1
79197
PLZ 2
39197
SCORE
77
Beispiel 2 (letzte Ziffer falsch)
PLZ 1
79197
PLZ 2
79193
SCORE
82
Beispiel 3 (Zahlendreher)
PLZ 1
79197
PLZ 2
79179
SCORE
92
Ortsnamen-Vergleich
Für den Vergleich der Ortsnamen wurde ein Mechanismus entwickelt, der sowohl für den Ortsnamen, als auch für den Ortszusatz sogenannte „Zeichenketten-Distanzen“ ermittelt, der z.B. das Fehlen oder Mehrfachvorkommen einzelner Buchstaben besonders berücksichtigt.
Der Ortszusatz fließt nur dann in das Ergebnis ein, wenn dieser in beiden Ortsnamen enthalten ist oder der Ortszusatz mit dem Ort des zu vergleichenden Datensatzes eine höhere Ähnlichkeit besitzt.
Beispiel 1
Ort 1
Stuttgart
Ort 2
Stutgart
SCORE
95
Beispiel 2 (Ortszusatz im Ort)
Ort 1
Ditzingen
Ort 2
Stuttgart-Ditzingen
SCORE
90
Straßennamen-Vergleich
Ähnlich wie beim Ortsnamenvergleich werden die Straßennamen auf Basis von „Zeichenketten-Distanzen“ ermittelt. In das Vergleichsergebnis fließt der Straßentyp, eventuelle Straßenzusätze und der identifizierende Straßenname ein. Beim Straßentypen werden durch die vorangegangene Analyse eventuelle Abkürzungen berücksichtigt.
Beispiel 1 (abgekürzter Straßentyp)
Straße 1
Bergstr.
Straße 2
Bergstraße
SCORE
100
Beispiel 2 (leichte Abweichung im Namen und unterschiedlicher Straßentyp)
Straße 1
Graf-Schellart-Platz
Straße 2
Graf-Schellart-Weg
SCORE
90
Hausnummern-Vergleich
Beim Vergleich der Hausnummern werden spezielle Vergleichsmechanismen verwendet, die neben der numerischen Differenz der Hausnummer auch Zahlendreher, ungewollte Doppelanschläge, fehlende Ziffern und mögliche „Bereichsüberschneidung“ bewerten, die sich durch den Hausnummernzusatz ergeben.
Beispiel 1 (fehlende Ziffer)
Hausnummer 1
418
Hausnummer 2
1418
SCORE
66
Beispiel 2 (Überschneidung)
Hausnummer 1
6-10
Hausnummer 2
8
SCORE
95
Beispiel 3 (in der Nähe; gleiche Straße)
Hausnummer 1
7
Hausnummer 2
9
SCORE
95
Spezielle Namensvergleiche
Organisationsnamen-Matrixvergleich
Da Organisationsnamen i.a. aus mehreren Begriffen bestehen und zusätzlich häufig Namen von Personen, Orten, Berufen etc. beinhalten, kann aufgrund der durchgeführten Namensanalyse eine Matrix der zu vergleichenden Einzelelemente aufgestellt werden, in der dann die jeweiligen Bestandteile der Namen gegenübergestellt und verglichen werden.
Dabei werden nur Vergleiche zwischen Datenelementen durchgeführt, die für einen Namen „signifikant“ sind. Insbesondere bedeutet dies, dass z. B. Worte, die Bestandteil einer Gesellschaftsform sind, von dem Vergleich ausgeschlossen werden können.
Beispiel (normaler Matrixvergleich)
Name 1
Reku-Plast Reicholzheimer Kunststoff Erzeugnisse GmbH
Name 2
Reku-Plast Reichholz- heimer Kunststoff-Erzeug- nisse Gesell. m b H
| reku | plast | reichholzheimer | kunststoff | erzeugnisse | ||
| reku | 100 | 0 | 40 | 20 | 0 | |
| plast | 0 | 100 | 0 | 16 | 0 | |
| reichholz | 40 | 0 | 80 | 0 | 8 | |
| heimer | 0 | 0 | 68 | 0 | 11 | |
| kunststoff | 20 | 16 | 0 | 100 | 0 | |
| erzeugnisse | 0 | 0 | 6 | 0 | 100 | |
Organisationsnamen-Akronymvergleich
Häufig werden Organisationsnamen in abgekürzter Schreibweise (z.B. ADAC) abgelegt, bei der ein normaler Matrixvergleich mit der vollständigen Schreibweise einen sehr niedrigen Score liefert. Deshalb haben wir ergänzend eine zusätzliche Vergleichsmethode entwickelt, die einen Akronym-Vergleich durchgeführt.
Beispiel (Akronymvergleich)
Name 1
PIETZSCH Automatisierungstechnik GmbH
Name 2
PAT GMBH
SCORE
100
Im Beispiel oben wird deutlich, dass die Akronymerkennung nur deswegen funktionieren kann, weil „Automatisierung“ und „Technik“ als Einzelteile separiert werden können und somit PAT die Anfangsbuchstaben des Vergleichnamens repräsentiert.
Gesellschaftsform-Vergleich
Die Analyse des Namens liefert als Ergebnis u.a. die Gesellschaftsform eines Firmeneintrags (falls vorhanden!). Diese Gesellschaftsform kann in die Vergleichsszenarien einbezogen werden, so dass eine unterschiedliche Rechtsform zu einem geringeren Namensgesamtwert führt. Folgende Beispiele verdeutlichen, wie die Erkennung und der Vergleich der Gesellschaftsformen durchgeführt wird:
Beispiel 1
Name 1
Crailsheimer Volksbank eG
Gesellschaftsform 1
eG
Name 2
Crailsheimer Volksbank eingetragene Genossen- schaft
Gesellschaftsform 2
eG
SCORE
100
Beispiel 2
Name 1
S P E E D W A V E GmbH & Co. Computer Integrated Manufacturing
Gesellschaftsform 1
GmbH & Co
Name 2
Speedwave GmbH & Co. KG Computer Integrated
Gesellschaftsform 2
GmbH & Co KG
SCORE
80