RecogniContact – internationaler Kontaktdaten- und Adress-Parser
Kontaktdaten- und Adressparsing für Ihre Anwendungen
RecogniContact ist eine Programmkomponente, die es Softwareherstellern ermöglicht,
die Zerlegung von Kontakt- und Adressangaben in eigene Anwendungen zu integrieren.
- RecogniContact zerlegt
den Text in Felder:
Name, Straße, PLZ, Ort, usw.
-
RecogniContact
standardisiert die Feldwerte:
Telefonnummer-Formate, Länderbezeichnungen, usw.
-
RecogniContact
ergänzt implizite Informationen:
Geschlecht eines Vornamens, Land einer Adresse, usw.
Überall dort wo Benutzer einer Software Adress- und Kontaktangaben
händisch aus anderen Quellen übertragen kann RecogniContact den Aufwand dafür auf ein Minimum reduzieren:
- Wenn Ihre Kunden Eingabemasken oder Formularfelder mit Kontakt- und
Adressinformationen ausfüllen
- Beim Eintragen von Kontaktdaten in Tabellen oder Datenbanken
- Beim Standardisieren und Vereinheitlichen von Kontaktangaben
Anwendungsbeispiele
Hier finden
Sie einige Beispiele von Anwendungen, in denen RecogniContact bereits zum
Einsatz kommt:
-
Eine Anwendung die die Daten aus dem Adressblock am Ende einer Email mit einem Mausklick in eine persönliche
Kontaktdatenbank übernimmt
-
Ein Hilfsprogramm, das Adressen, die Sie per E-Email erhalten, automatisch in die Adressfelder
eines Rechnungsprogramms übernimmt
-
Ein Tool,
mit dem Sie Sales-Leads, die Sie auf Websites sammeln, in eine CRM-Datenbank übernehmen.
-
Eine Formulardrucksoftware,
die Ihnen ermöglicht die Namens- und Adressfelder eines Paketscheins, eines Überweisungsschein,
o.Ä. mit Werten zu befüllen. Anstatt die Daten Feld für Feld zu übertragen kopieren Sie einfach den kompletten Adressblock.
Windows-COM-Objekt
RecogniContact ist als Windows-COM/ActiveX-Objekt erhältlich und lässt sich mit minimalem Aufwand in
eigene Produkte integrieren. Jede aktuelle Windows-Entwicklungsumgebung
unterstützt die Integration von COM-Objekten.
Detaillierte technische Information finden Sie in der RecogniContact Online-Hilfe (Englisch).
Kostenlose 30-Tage-Testversion
Eine
kostenlose Testversion von RecogniContact ist auf Anfrage bei LoquiSoft
erhältlich. Bitte fügen Sie ihrer Anfrage eine kurze Beschreibung des Projektes bei,
in das Sie RecogniContact integrieren möchten.
Features
Länder & Sprachen
RecogniContact zerlegt Kontaktangaben ohne Post-Adresse für alle Länder der Welt.
Folgende Voraussetzungen sind dafür erforderlich:
- Die Daten sind in lateinischen Schriftzeichen notiert
- Sprachabhängige Elemente sind in einer der derzeit unterstützten 13 Sprachen angegeben.
Für folgende Länder werden auch Kontaktangaben mit
Post-Adresse zerlegt. Für diese Länder umfasst RecogniContact eine
Datenbank mit Ortsnamen, sodass das Land einer Adresse
ermittelt werden kann selbst dann wenn das Land nicht explizit angegeben ist.
Länder
RecogniContact zerlegt für folgende Länder Kontaktangaben inklusive Post-Adressen:
- AT - Österreich
- BE - Belgien
- CH - Schweiz (inkl. Liechtenstein)
- DE - Deutschland
- DK - Dänemark
- ES - Spanien (inkl. Andorra)
- FI - Finnland
- FR - Frankreich (inkl. Monaco)
- GB - Großbritannien
- IE - Irland
- IS - Island
- IT - Italien (inkl. San Marino & Vatikan)
- LU - Luxemburg
- NL - Niederlande
- NO - Norwegen
- PT - Portugal
- SE - Schweden
- US - Vereinigte Staaten
|
Sprachen
RecogniContact erkennt sprachabhängige Elemente von Kontaktdaten (z.B. Anreden, Ländernamen, Strukturierungselemente) in folgenden Sprachen:
- Deutsch
- Dänisch
- Englisch
- Finnisch
- Französisch
- Isländisch
- Italienisch
- Katalanisch
- Niederländisch
- Norwegisch
- Portugiesisch
- Schwedisch
- Spanisch
|
|
Kontaktdatenfelder
RecogniContact zerlegt einen Text mit Kontaktdaten in folgende Elemente:
- Angaben zur Person
- Präfix - Anrede oder Präfix-Titel wie Dr.
- Vorname
- Zweiter Vorname oder Initial (Middle Name)
- Nachname
- Suffix - Suffix-Titel wie Ph.D., MBA oder Namenssuffix wie junior, jr
- Position im Unternehmen
- Angaben zum Unternehmen/zur Organisation
- Adresse
- Straßenanschrift (Straße, Hausnummer)
- Postleitzahl der Straßenanschrift
- Postfachanschrift (Postfach-Nummer)
- Postleitzahl der Postfachanschrift
- Ort
- Land
- Regionsinformation (US-Bundesstaat, Provinz, Kanton, Bundesland, …)
- Telefonnummern
- Festnetznummer
- Mobiltelefonnummer
- Fax-Nummer
- Internet
Strukturierungselemente
RecogniContact erkennt Strukturierungselemente, die in die Kontaktangaben eingebettet sind (Vorname:
Nachname: PLZ: Ort: Tel: Fax: …) und nutzt sie als Hilfe bei der
Interpretation. Strukturierungselemente werden derzeit in 13 Sprachen (siehe
oben) erkannt.
Länder-Erkennung
RecogniContact
identifiziert automatisch das Land, aus dem Kontaktangaben stammen, anhand folgender
Information:
- Postleitzahlformat und Ortsname (die integrierte Datenbank enthält über 200.000 Ortsnamen)
- Ländervorwahl von Telefonnummern
- Länderdomains von E-Mail- oder Web-Adressen
Diese Information wird genutzt, um Telefonnummern auf ein Standardformat mit
internationaler Vorwahl zu vereinheitlichen, oder um das Land zur Postadresse
hinzuzufügen
Geschlecht von Personen
Wenn ein
Kontaktdatensatz den Namen einer Person umfasst, ermittelt RecogniContact das
Geschlecht der Personen anhand des Vornamens.
Vornamen, die keinen Rückschluss auf das Geschlecht zulassen,
werden dabei berücksichtigt: Alex, Chris, Sascha, …
Mobiltelefonnummern
Wenn eine Telefonnummer mit der Vorwahl eines
Mobilfunknetzes beginnt, ordnet RecogniContact sie automatisch als Mobiltelefonnummer
zu
Formatunabhängigkeit
RecogniContact erkennt für jedes Land zusätzlich zu den standardisierten Formaten für
Adressangaben und Telefonnummern auch alle sonstigen gebräuchlichen
Konventionen. Es ist nicht erforderlich, dass die Elemente einer
Kontaktangabe im Quelltext durch bestimmte Trennzeichen strukturiert sind.
Dies ist besonders hilfreich,
-
wenn die Kontaktangaben aus Quellen stammen (E-Mails, Web-Sites, …) in denen die
Elemente keine vordefinierte Struktur haben
- wenn Adressen aus tabellenartig angeordneten Quellen übernommen werden (Spreadsheets,
Tabellen auf Websites, …)
Technische Highlights
Ressourcen-Bedarf
RecogniContact
wurde auf einen möglichst geringen Ressourcenbedarf optimiert.
Die Redistributables, die am Rechner des Kunden installiert werden, umfassen 3
Dateien mit einer Gesamtgröße von ca. 3 MB. Darin sind bereits alle
Daten enthalten, die für die Erkennung der Kontaktdatenelemente erforderlich sind.
Performance
Der Zeitaufwand für das Parsing einer Kontaktangabe liegt im Bereich weniger Millisekunden.
Stand-Alone-/Offline-Lösung
RecogniContact
ist eine komplett eigenständige Lösung, die die Zerlegung der Kontaktdaten
ausschließlich am Rechner des Kunden durchführt. Eine Verbindung zu einem
Server oder der Versand sensibler Kontaktdaten über das Internet an einen Web-Service
außerhalb des Unternehmens ist nicht erforderlich.
Geringer Integrationsaufwand
RecogniContact
kann als COM-Object mit minimalem Aufwand in eine eigene Windows-Anwendung
integriert werden. In einem Visual-Basic-Projekt integrieren Sie RecogniContact
wie folgt:
Dim RC As Object
Dim ParsedContact As Object
Set RC = CreateObject("RecogniContact.Parser")
RC.Initialize("<Name>","<LicenseKey>")
TextToParse = "LoquiSoft, Porzellangasse 7a/8, 1090 Vienna, www.loquisoft.com"
Set ParsedContact = RC.Parse(TextToParse)
...... now use ParsedContact.GetValue(<FieldID>)
...... to access the parsed values
|
Die vollständige Dokumentation und weitere Code-Beispiele auch in anderen Programmiersprachen finden Sie in der RecogniContact Online-Hilfe (Englisch).
Integrierte Datenbank
RecogniContact enthält eine umfangreiche Datenbank, die unter anderem folgende Informationen enthält:
- über 200'000 Ortsnamen aus Europa und den USA, die es erlauben das Land einer Post-Adresse zu ermitteln, auch wenn es nicht explizit angegeben ist
- 12'000 Vornamen mit Angabe zum Geschlecht
- Ländervorwahlen
Die internationalen Vorwahlen aller Länder der Welt: +1 (USA & Kanada) bis +997 (Bahamas)
- Mehrsprachige Städtebezeichnungen
Brussels, Brussel, Brüssel, Bruxelles, …
- Länderspezifische Regionsangaben
US-Bundesstaaten, Bundesländer, Kantone, Provinzen, Counties, …
- Strings in 13 Sprachen für folgende Elemente:
- Länder-Namen:
Germany, Deutschland, Allemagne, Duitsland, …
- Positionsbezeichnungen:
Director, Direktor, Directeur, …
- Hinweise auf Straßennamen:
street, straße, rue, straat,…
- Postfach-Bezeichnungen:
P.O. Box, Postfach, Boîte postale, Postbus, …
- Titel & Anreden:
Fr., Mrs, Mme, Mevr, …
- Gesellschaftsformen von Unternehmen:
GmbH, Ltd, Sarl, BV, …
- Strings, die zur Strukturierung der Elemente verwendet werden:
Vorname: First name: Prénom: Voornaam: …
Zerlegungsverfahren
Rein musterbasierte Zerlegungsverfahren, in denen versucht wird, die Daten auf wenige
Standard-Muster zurückzuführen, scheitern sehr schnell an den Herausforderungen eines zuverlässigen
Kontaktdaten- und Adressparsing-Verfahrens.
- Wenn ein nicht vorhergesehener Adresszusatz verwendet wird
- Wenn im Quelltext ein falsches Interpunktionszeichen oder ein Leerzeichen zu wenig oder zuviel vorkommt
- Wenn Elemente nicht explizit durch Zeilenwechsel oder einheitliche Trennsymbole getrennt sind
- Wenn Elemente von Websites oder aus Spreadsheets übernommen werden, in denen die Daten in einer Tabellenstruktur angeordnet sind, oder nicht einer vordefinierten Reihenfolge entsprechen.
So komplexe und so stark variierende Input-Daten wie Kontaktinformationen
lassen sich nicht in einer überschaubaren Anzahl von Erkennungsmustern - etwa in Form von Regular Expressions - abbilden.
Dies gilt insbesondere dann, wenn Adressdaten aus unterschiedlichen europäischen Ländern stammen.
Nur ein geringer Bruchteil von Kontaktangaben entspricht Standard-Mustern.
Eine Auflistung aller gebräuchlichen oder aller tatsächlich verwendeten Muster ist schlicht unmöglich.
Darüber hinaus ist eine musterbasierte Zerlegung ab einem gewissen Komplexitätsgrad sehr ressourcenintensiv.
Um dieser Herausforderung zu begegnen hat LoquiSoft mit RecogniContact ein speziell auf das Problem der Zerlegung von Kontakt- und Adressdaten
optimiertes Verfahren entwickelt.
RecogniContact zerlegt Kontaktinformationen weitestgehend unabhängig von der Verwendung normierter oder starrer Adressformate, bestimmter Trennzeichen, einheitlicher Struktur und erzielt damit eine unübertroffen hohe Erkennungsgenauigkeit.
Qualitätssicherung
Wie bei jeder Software, die semantische oder sprachabhängige
Information verarbeitet, ist auch bei der automatischen Kontaktdatenzerlegung
eine geringe Restfehlerrate aufgrund unbekannter oder doppeldeutiger
Informationen nicht auszuschließen (Beispiel automatische Rechtschreibprüfung).
Um die Qualität der Zerlegungsergebnisse zu sichern nutzen wir folgende Verfahren:
- Abgleich mit einer Testdatenbank
Eine Testdatenbank mit Tausenden händisch zerlegten Kontaktangaben aus der Praxis
dient bei jedem Update als Grundlage für die Überprüfung und Verbesserung der
Zerlegungsalgorithmen
- Flexibles Regelwerk
Das interne Regelwerk unseres Adress- und Kontaktdatenparsers ist flexibel und kann bei Bedarf
jederzeit durch neue Regeln, neue Ausnahmen und Ausnahmen von Ausnahmen
erweitert werden, ohne dass die Zerlegung langsam, das Verfahren zu komplex
oder zu ressourcenintensiv wird.
- Benutzerfeedback
Wenn ein Benutzer unseres Endanwender-Produktes ContactCopy auf Fehler bei der Datenerkennung stößt,
kann er die falsch zerlegten Kontaktinformation über eine direkt in das Produkt integrierte,
web-basierte Feedback-Funktion an uns übermitteln.
Durch diese Rückmeldungen erhalten wir laufend wertvolles Feedback
über notwendige Korrekturen und Erweiterungen an den Erkennungs- und Zerlegungsregeln.
LoquiSoft – Spezialist und semantische Software
Der Gründer von LoquiSoft, verfügt über eine spezialisierte Ausbildung
und über 10-jährige Erfahrung mit Artificial Intelligence, semantischer
Software, Sprachdatenverarbeitung und Parser-Technologien.
Der Bertelsmann Orthograf! Rechtschreibkonverter
wurde vom LoquiSoft-Team entwickelt. Durch die Vertriebspartnerschaft mit dem
Bertelsmann Lexikon Verlag wurde es zum Standard-Tool in seinem Bereich.
LoquiSoft hat darüber hinaus für folgende Kunden
Lösungen aus dem Bereich Sprachdatenverarbeitung entwickelt:
|