Risoluzione dell'identità: Data Warehouse vs. Customer Data Platform

Pubblicato: 2022-08-16

Tutti vogliono un'unica fonte di verità per i dati dei clienti, ma ciò che comporta dipende da chi stai chiedendo.

Certo, il data warehouse è un "negozio unico" per i dati dei clienti raccolti da più fonti; tuttavia, in assenza di risoluzione dell'identità, i dati sono veri solo per metà. Costruire una visione unificata dell'attività dei clienti a partire dai dati è tutt'altro che banale: coloro che ne hanno il compito possono attestare le complessità coinvolte nel farlo correttamente.

Inoltre, anche la definizione di risoluzione dell'identità varia da azienda a azienda: per alcuni settori, la risoluzione per la risoluzione dell'identità è un sottoinsieme di un problema di risoluzione dell'entità più ampio.

La risoluzione dell'identità, come suggerisce il nome, si riferisce all'identità di una persona, un singolo utente o cliente che è una delle numerose entità con cui un'azienda ha a che fare. Alcuni degli altri sono account, prodotti, fornitori, fornitori, partner e rivenditori.

In questa guida, tuttavia, voglio approfondire un po' la risoluzione dell'identità e descrivere i sistemi in cui avviene, le differenze tra la risoluzione dell'identità automatizzata e quella manuale e i vantaggi della corrispondenza deterministica rispetto a quella probabilistica.

Risoluzione dell'identità: dove e come accade

La risoluzione dell'identità, come probabilmente già saprai, è il processo di unificazione dei record di utenti (o clienti) acquisiti su più origini (o punti di contatto).

Ma dove avviene questo processo? Chi esegue l'unificazione? Come vengono acquisiti e archiviati i dati? E quali sono i punti dati prerequisiti per rendere tutto possibile?

È importante avere risposte a queste domande prima di investire in uno sforzo di risoluzione dell'identità.

Magazzino dati (DWH)

Bill Inmon, noto come il padre del data warehouse, ha recentemente scritto un articolo intitolato "What A Data Warehouse Is Not" in cui sfata i miti popolari su cosa sia un data warehouse: è una lettura affascinante e lo consiglio vivamente se vuoi acquisire una comprensione più profonda di ciò che sta accadendo nel mondo del data warehousing.

Il data warehouse, nella sua forma tipica, è un database cloud che archivia i dati dei clienti da origini disparate e viene utilizzato per carichi di lavoro analitici.

Prima che possa avvenire la risoluzione dell'identità, è necessario assicurarsi che i dati provenienti da origini dati proprietarie (app, siti Web o dispositivi intelligenti) siano resi disponibili nel data warehouse, operazione che in genere viene eseguita utilizzando un'infrastruttura dati del cliente (CDI) interna o esterna. soluzione. Quali dati vengono raccolti e come vengono archiviati è importante poiché la risoluzione dell'identità si basa su una serie di identificatori (ID) utilizzati per abbinare e unire i record utente originati da più origini.

Scrivere il codice di unificazione

Il processo di unificazione o unione dei record inizia una volta che i dati richiesti sono resi disponibili nel magazzino. Questa operazione viene in genere eseguita da analisti che hanno una buona conoscenza dei set di dati e sono abili nella scrittura di query SQL che eseguono join complessi tra tabelle per creare nuove tabelle note come viste materializzate. Queste tabelle servono quindi come fonte di verità che viene utilizzata per l'analisi e l'attivazione.

Corrispondenza probabilistica vs. deterministica

In assenza di identificatori come e-mail, numero di cellulare, ID dispositivo e ID utente, o la possibilità di unirli in modo accurato a causa di altri fattori, si deve ricorrere a quella che viene definita corrispondenza probabilistica, che si basa su segnali piuttosto che informazioni di identificazione personale (PII).

Conosciuto anche come corrispondenza fuzzy, la corrispondenza probabilistica cerca una combinazione di proprietà dell'utente come nome, posizione, sistema operativo, indirizzo IP, ecc. per poi unire i record quando la potenziale corrispondenza riceve un punteggio accettabile.

In termini semplici, la corrispondenza probabilistica è più flessibile ma non è accurata al 100%. Ha senso utilizzarlo per casi d'uso critici come il rilevamento di frodi in cui i set di dati sono grandi e complessi; tuttavia, non è consigliabile se il tuo obiettivo è creare esperienze personalizzate basate sui dati.

La corrispondenza deterministica è più accurata semplicemente perché non sono coinvolti "congetture": è uno scenario 0 o 1 basato sugli identificatori disponibili. I vantaggi di questo approccio sono illustrati di seguito.

Spero che ora tu abbia una buona comprensione di come viene gestita la risoluzione dell'identità nel data warehouse. È tempo di capire come fanno i CDP.

Piattaforma dati clienti (CDP)

Volevo collegarmi a un articolo che descrive cosa non è un CDP (ecco cos'è un CDP) , ma sfortunatamente non sono riuscito a trovarne uno quindi vorrei prima menzionare rapidamente che un CDP non è un CDI, né lo è un CRM.

In sostanza, una piattaforma per i dati dei clienti è, beh, una piattaforma in cima all'infrastruttura dei dati dei clienti: la piattaforma consente alle persone di segmentare e sincronizzare il pubblico con strumenti di terze parti utilizzando un'interfaccia visiva.

Allora, dove avviene la risoluzione dell'identità e come?

In generale, avviene al momento o subito dopo la raccolta dei dati. Sotto il cofano, un CDP archivia una copia dei dati e, in modo automatizzato, esegue la corrispondenza deterministica in base agli identificatori forniti.

Come accennato in precedenza, le informazioni di identificazione personale (PII) svolgono un ruolo chiave nel consentire l'abbinamento deterministico e offrono un elevato livello di accuratezza: un sistema integrato per raccogliere i dati ed eseguire l'unificazione è ciò che rende attraente un CDP.

Alcuni fornitori di CDP hanno preso la strada probabilistica e pubblicizzano le loro offerte come di natura superiore. Invece di dettagliare gli aspetti negativi della corrispondenza probabilistica, vorrei evidenziare alcuni dei vantaggi chiave della corrispondenza deterministica.

Risoluzione deterministica dell'identità: vantaggi chiave

La personalizzazione è il Santo Graal per le aziende SaaS e di e-commerce, ma se sbagliata o inopportuna, gli sforzi di personalizzazione possono rivelarsi più dannosi di nessuna personalizzazione.

La risoluzione deterministica dell'identità non solo garantisce una personalizzazione accurata su larga scala, ma consente anche alle aziende di essere più rispettose della privacy e di aderire alle normative in modo più rigoroso. Permettimi di disimballare questo.

Personalizzazione

Poiché la risoluzione deterministica dell'identità avviene solo quando il sistema è in grado di identificare i record utente in base agli identificatori forniti direttamente dall'utente (in genere e-mail o numero di telefono), è altamente improbabile che gli sforzi di personalizzazione vengano incasinati.

Inoltre, la tempestività è garantita poiché i CDP sono in grado di eseguire automaticamente la risoluzione dell'identità al momento della raccolta dei dati.

Un semplice caso d'uso che si applica alla maggior parte delle aziende SaaS consiste nell'inviare un'e-mail di benvenuto altamente personalizzata agli utenti, quasi immediatamente dopo la registrazione, che tenga conto anche di altri attributi dell'utente come posizione, settore o preferenze.

Le aziende SaaS in genere consentono a un utente di creare più account o spazi di lavoro, ma inviare la stessa e-mail di benvenuto standard a un utente esistente non ha molto senso. La risoluzione deterministica dell'identità unita alla segmentazione predefinita e alla sincronizzazione in tempo reale possono garantire che l'utente non venga trattato come un nuovo utente e la comunicazione che riceve lo riflette.

Un esempio più ampio che si applica praticamente a tutti i settori è notificare agli utenti quando accedono al proprio account su un nuovo dispositivo o in una posizione non riconosciuta. Poiché il sistema ha già l'ID utente associato a un indirizzo IP e un ID dispositivo specifici, è in grado di riconoscere immediatamente schemi sconosciuti e avvisare l'utente in tempo reale.

Rispettoso della privacy

Nessuno ha bisogno di una lezione sul perché un approccio rispettoso della privacy è fondamentale per le aziende: le conseguenze della mancata adesione al GDPR o al CCPA possono essere brutali.

Con la corrispondenza deterministica, i marchi possono essere certi che se un utente ha rinunciato a ricevere comunicazioni o desidera essere dimenticato, viene identificato con precisione attraverso i sistemi a valle (e-mail, SMS, canali pubblicitari e così via) e i suoi dati vengono cancellati ovunque.

Raggiungere questo livello di conformità in assenza di un CDP con capacità deterministiche di risoluzione dell'identità è tutt'altro che banale e può comportare molteplici violazioni lungo il percorso.

Quale forma di risoluzione dell'identità è giusta per te?

L'obiettivo di questa guida è fornire una panoramica di come la risoluzione dell'identità viene raggiunta in ambienti diversi con vincoli diversi e, si spera, ci sono riuscito.

Questi suggerimenti e suggerimenti sono più adatti al regno dei casi d'uso di prodotti, crescita e marketing, principalmente presso le aziende SaaS B2B. Inoltre, questo pezzo non intende concludere che un approccio sia migliore dell'altro e, in base a determinati fattori, la gestione della risoluzione dell'identità nel data warehouse utilizzando la corrispondenza fuzzy potrebbe funzionare meglio per alcune aziende.

Scopri di più sulla risoluzione dell'identità in Amplitude CDP parlando con un esperto di prodotto .

Contatta le vendite