Es wurden bereits sehr viele Algorithmen in den Bereichen
Knowledge Discovery in Databases (KDD), Data Mining, Maschinelles Lernen und Statistik entwickelt.
Viele dieser Methoden sind sehr allgemein und wurden schon in den verschiedensten Gebieten mit Erfolg eingesetzt. Im
Bereich der Missbrauchserkennung gibt es allerdings ein paar Besonderheiten, die die Anwendung dieser
bestehenden Methoden aber unmöglich oder unrentabel machen.
-
Eine Besonderheit ist, dass die Missbrauchsfälle nur einen sehr kleinen Anteil am Gesamtvolumen der Daten haben.
In der Statistik spricht man hier von schiefen Verteilungen.
-
Für jede Missbrauchsmethode muss meistens ein eigener Erkennungsalgorithmus entwickelt werden, dessen Parameter
speziell an dieses "Missbrauchsmuster" angepasst werden müssen.
-
Die Betrüger hingegen, ändern ihrer Verfahren daraufhin ein bisschen, so dass sie nicht mehr entdeckt werden.
Somit muss der Erkennungsalgorithmus kontinuierlich angepasst werden.
- Um den Schaden zu begrenzen, ist eine schnelle Reaktionszeit der Missbrauchserkennungssystem notwendig.
Bei Kreditkartenbetrug zum Beispiel ist es am besten, wenn die Erkennung in Echtzeit unmittelbar stattfindet.
- Es gibt bei der binären Klassifikation (Normale Benutzung vs. Betrug) zwei verschiedene Fehlerarten:
Fehlalarme (auch falsche Positive genannt) und unentdeckten Betrug (auch falsche Negative genannt).
Siehe die folgende Tabelle.
|
Betrug |
Kein Betrug |
| Alarm |
korrekt |
Fehlalarm |
| No alarm |
unentdeckt |
korrekt |
-
Wenn ein Missbraucherkennungssystem einen Alarm ausgibt, muss dieser oft noch von einem Mitarbeiter überprüft werden.
Die Kosten für die beiden Fehldiagnosen sind daher unterschiedlich.
Bei einem Fehlalarm arbeitet ein Mitarbeiter umsonst an einem Fall und verschwendet wertvolle Arbeitszeit und bei
einem unentdecktem Betrug geht der Missbrauch weiter. Daher werden kostensensitive Methoden benötigt.
-
Die sich ständig ändernden und schiefen Verteilungen und die Notwendigkeit von kostensensitiven Methoden erschweren die
Bewertung des Erfolgs einer Erkennungsmethode.
Selbst bei den "normalen" Klassifikationsmethoden müssen bei der Bewertung des Erkennungserfolgs einige
Schwierigkeiten berücksichtigt werden [Sal97].
Die üblichen Kennzahlen, wie z. B. die Fehlerrate (error rate), die Genauigkeit (accuracy) und ROC-Kurven sind
nicht für die Missbrauchserkennung geeignet
[CCLPS00,PFK98,
PF01].
Eine speziell für die Missbrauchserkennung entwickelte Technik ist die
ROC Convex Hull [PF01].
-
In traditionellen Datenbanken werden Daten üblicherweise in den folgenden drei Schritten analysiert:
"Laden der Daten, Anlegen der Indizes und anschließend Abfragen der Daten". Insbesondere das Laden und die
Erstellung der Indizes können bei Massendaten sehr zeitaufwändig sein, so das eine
Echtzeitverarbeitung nicht möglich ist.
Hier wurde ein neues Datenmodell entworfen, mit denen Massendaten besser verarbeitet werden können, die
continuous data streams.
Dieses Gebiet ist noch Forschungsgegenstand, aber es gibt bereits prototypische
data stream management systems, stream processing engines und eine Erweiterung von
SQL namens Continuous Query Language (CQL).