Deterministische vs. probabilistische Daten

Deterministische vs. probabilistische Daten 150 150 Simeon Heinze

Erklärung

Deterministische Daten

Deterministische Daten beruhen auf eindeutig zuordbaren Kundendaten. So bedarf es zur Verarbeitung einer eindeutigen Zuordnung des getrackten Gerätes zu einem Nutzer. Diese Zuordnung kann beispielsweise durch einen Login-Vorgang vorgenommen werden. Dabei wird dem betreffenden Nutzer oft eine eindeutige User-ID zugeordnet, um ihn später eindeutig identifizieren zu können. Diese Methode ist zwar deutlich genauer als ihr Gegenstück, das probabilistische Matching, wird allerdings erst ab einer gewissen Größe des Datensatzes effektiv und ist deshalb nicht für geringere Traffic-Zahlen geeignet.

Ein Login erlaubt deutlich genaueres Cross-Device-Tracking.

Probabilistische Daten

Fehlen die für deterministische Verfahren notwendigen Daten, muss auf probabilistische Verfahren zurückgegriffen werden. Diese Methode verwendet im Gegensatz zu dem Deterministischen Matching keine personenbezogenen Daten, da sämtliche Berechnungen auf anonymisierten Profilen beruhen, die durch statistische oder maschinelle Lernverfahren generiert werden. Diese Berechnungen werden dabei beispielsweise anhand von anonymisierten IP-Adressen durchgeführt. Dies ist natürlich gerade im Hinblick auf die seit Ende Mai wirksame EU-DSGVO von Vorteil, da sich dadurch der Arbeitsaufwand für das Einhalten der Auflagen verringert. Genau in der Verwendung dieser unpersönlichen Daten liegt aber auch ein großer Nachteil des probabilistischen Matchings, da durch die hauptsächliche Verwendung von Wahrscheinlichkeitsberechnungen stark die Genauigkeit und Zuverlässigkeit der Daten leidet. Da allerdings auf die gesamte Nutzerbasis zugegriffen werden kann, anstatt sich wie beim deterministischen Matching auf die eindeutig zuordbaren Kundendaten beschränken zu müssen, ist ein deutlich größeres Set an Daten verfügbar und ist somit auch für Anwendungen auf Websites mit niedrigerem Traffic-Aufkommen geeignet.

Fazit

Beide Methoden besitzen ihre Daseinsberechtigung und keine der beiden ist besser oder schlechter als die andere. Je nachdem in welcher Situation und in welchem Anwendungsfall man sich befindet, muss zwischen Vor- und Nachteilen abgewogen werden. So wäre zum Beispiel bei einer Website mit großem Traffic-Aufkommen und Shop-System mit Login-Zwang eher die deterministische Methode zu verwenden, wobei man bei einer Seite ohne Login-Funktion oder niedrigen Traffic-Zahlen eher die probabilistische Variante wählen sollte. Egal welche Methode man jedoch verwendet, ist das Cross-Device Tracking doch eine unverzichtbare Möglichkeit, um tatsächlich die vollständige User-Journey seiner Nutzer und damit den Menschen an sich anstatt nur seiner Geräte zu tracken.

neo.eleven, eine Agentur für Digital Analytics Services, bietet anwendungsbereites Data Management Expertenwissen.

Sprechen Sie uns an – Ihre Fragen und Anmerkungen sind herzlich willkommen.