Resolução de Identidade: Data Warehouse vs. Plataforma de Dados do Cliente

Publicados: 2022-08-16

Todo mundo quer uma única fonte de verdade para os dados do cliente, mas o que isso implica depende de quem você está perguntando.

Claro, o data warehouse é um “armazenamento único” para dados de clientes coletados em várias fontes; no entanto, na ausência de resolução de identidade, os dados são apenas meia-verdade. Construir uma visão unificada da atividade do cliente a partir dos dados é tudo menos trivial – aqueles encarregados disso podem atestar as complexidades envolvidas em acertar.

Além disso, a definição de resolução de identidade também varia de empresa para empresa – para certos setores, a resolução para resolução de identidade é um subconjunto de um problema mais amplo de resolução de entidade.

A resolução de identidade, como o nome sugere, refere-se à identidade de uma pessoa – um usuário individual ou cliente que é uma das várias entidades com as quais uma empresa lida. Alguns dos outros são contas, produtos, fornecedores, vendedores, parceiros e revendedores.

Neste guia, porém, quero me aprofundar um pouco mais na resolução de identidade e descrever os sistemas em que ela ocorre, as diferenças entre a resolução de identidade automatizada e manual e os benefícios da correspondência determinística sobre a probabilística.

Resolução de identidade: onde e como isso acontece

A resolução de identidade, como você provavelmente já sabe, é o processo de unificação de registros de usuários (ou clientes) que são capturados em várias fontes (ou pontos de contato).

Mas onde ocorre esse processo? Quem realiza a unificação? Como os dados são capturados e armazenados? E quais são os pontos de dados de pré-requisito para tornar tudo isso possível?

É importante ter respostas para essas perguntas antes de investir em um esforço de resolução de identidade.

Armazém de dados (DWH)

Bill Inmon, conhecido como o pai do data warehouse, recentemente escreveu um artigo intitulado “What A Data Warehouse Is Not” onde ele desmascara mitos populares sobre o que é um data warehouse – é uma leitura fascinante e eu recomendo se você quiser obter uma compreensão mais profunda do que está acontecendo no mundo do data warehousing.

O data warehouse, em sua forma típica, é um banco de dados em nuvem que armazena dados de clientes de fontes diferentes e é usado para cargas de trabalho analíticas.

Antes que a resolução de identidade possa acontecer, é preciso garantir que os dados de fontes de dados primárias - aplicativos, sites ou dispositivos inteligentes - sejam disponibilizados no data warehouse, o que normalmente é feito usando uma infraestrutura de dados do cliente (CDI) interna ou externa. solução. Quais dados são coletados e como são armazenados é importante, pois a resolução de identidade depende de um conjunto de identificadores (IDs) que são usados ​​para combinar e mesclar registros de usuários originados em várias fontes.

Escrevendo o código de unificação

O processo de unificação ou mesclagem de registros começa assim que os dados necessários são disponibilizados no warehouse. Isso geralmente é feito por analistas que têm um bom entendimento dos conjuntos de dados e são adeptos de escrever consultas SQL que realizam junções complexas entre tabelas para criar novas tabelas conhecidas como visualizações materializadas. Essas tabelas servem então como fonte de verdade que é usada para análise e ativação.

Correspondência probabilística x determinística

Na ausência de identificadores como e-mail, número de celular, ID do dispositivo e ID do usuário, ou a capacidade de juntá-los com precisão devido a outros fatores, é preciso recorrer ao que é chamado de correspondência probabilística, que se baseia em sinais em vez de informações de identificação pessoal (PII).

Também conhecida como correspondência difusa, a correspondência probabilística procura uma combinação de propriedades do usuário, como nome, local, sistema operacional, endereço IP etc., para mesclar registros quando a correspondência em potencial receber uma pontuação aceitável.

Em termos simples, a correspondência probabilística é mais flexível, mas não é 100% precisa. Faz sentido empregá-lo para casos de uso críticos, como detecção de fraudes, onde os conjuntos de dados são grandes e complexos; no entanto, não é recomendado se seu objetivo for criar experiências personalizadas baseadas em dados.

A correspondência determinística é mais precisa simplesmente porque não há “adivinhação” envolvida – é um cenário 0 ou 1 baseado nos identificadores disponíveis. Os benefícios desta abordagem são abordados abaixo.

Espero que agora você tenha um bom entendimento de como a resolução de identidade é tratada no data warehouse. É hora de entender como isso é feito pelos CDPs.

Plataforma de dados do cliente (CDP)

Eu queria linkar para um artigo descrevendo o que um CDP não é (aqui está o que é um CDP) , mas infelizmente não consegui encontrar um, então primeiro gostaria de mencionar rapidamente que um CDP não é um CDI, nem é um CRM.

Em essência, uma plataforma de dados do cliente é, bem, uma plataforma sobre a infraestrutura de dados do cliente – a plataforma permite que as pessoas segmentem e sincronizem audiências com ferramentas de terceiros usando uma interface visual.

Então, onde ocorre a resolução de identidade e como?

De um modo geral, ocorre no momento ou logo após a coleta dos dados. Sob o capô, um CDP armazena uma cópia dos dados e, de forma automatizada, realiza uma correspondência determinística com base nos identificadores fornecidos.

Conforme mencionado anteriormente, as informações de identificação pessoal (PII) desempenham um papel fundamental na habilitação da correspondência determinística e oferecem um alto nível de precisão – um sistema integrado para coletar os dados e realizar a unificação é o que torna um CDP atraente.

Alguns fornecedores de CDP seguiram o caminho probabilístico e afirmam que suas ofertas são de natureza superior. Em vez de detalhar as desvantagens da correspondência probabilística, gostaria de destacar alguns dos principais benefícios da correspondência determinística.

Resolução de identidade determinística: principais benefícios

A personalização é o santo graal para negócios de SaaS e comércio eletrônico, mas se der errado ou inoportuno, os esforços de personalização podem ser mais prejudiciais do que nenhuma personalização.

A resolução de identidade determinística não apenas garante uma personalização precisa em escala, mas também permite que as empresas sejam mais amigáveis ​​à privacidade e cumpram os regulamentos com mais rigor. Permita-me descompactar isso.

Personalização

Como a resolução de identidade determinística ocorre apenas quando o sistema é capaz de identificar os registros do usuário com base nos identificadores fornecidos diretamente pelo usuário (geralmente e-mail ou número de telefone), é altamente improvável que os esforços de personalização sejam confusos.

Além disso, a pontualidade é garantida, pois os CDPs podem realizar a resolução de identidade automaticamente no momento da coleta de dados.

Um caso de uso simples que se aplica à maioria das empresas de SaaS é enviar um e-mail de boas-vindas altamente personalizado aos usuários, quase imediatamente após a inscrição, que também leva em consideração outros atributos do usuário, como localização, setor ou preferências.

As empresas SaaS normalmente permitem que um usuário crie várias contas ou espaços de trabalho, mas enviar o mesmo email de boas-vindas padrão para um usuário existente faz pouco sentido. A resolução de identidade determinística, juntamente com segmentação predefinida e sincronização em tempo real, pode garantir que o usuário não seja tratado como um novo usuário e a comunicação recebida reflete isso.

Um exemplo mais amplo que se aplica a praticamente todos os setores é notificar os usuários quando eles fazem login em sua conta em um novo dispositivo ou em um local não reconhecido. Como o sistema já possui o ID do usuário associado a um endereço IP e ID de dispositivo específicos, ele é capaz de reconhecer imediatamente padrões desconhecidos e notificar o usuário em tempo real.

Amigável à privacidade

Ninguém precisa de uma lição sobre por que uma abordagem amigável à privacidade é fundamental para as empresas – as ramificações de não aderir ao GDPR ou CCPA podem ser brutais.

Com a correspondência determinística, as marcas podem ter certeza de que, se um usuário tiver optado por não receber comunicação ou quiser ser esquecido, ele será identificado com precisão nos sistemas downstream – e-mail, SMS, canais de publicidade e assim por diante – e seus dados serão apagados em toda parte.

Alcançar esse nível de conformidade na ausência de um CDP com recursos de resolução de identidade determinística está longe de ser trivial e pode resultar em várias violações ao longo do caminho.

Qual forma de resolução de identidade é a certa para você?

O objetivo deste guia é fornecer uma visão geral de como a resolução de identidade é alcançada em diferentes ambientes sob diferentes restrições e, espero, consegui fazer isso.

Essas dicas e sugestões são mais adequadas para casos de uso de produto, crescimento e marketing, principalmente em empresas B2B SaaS. Além disso, esta parte não pretende concluir que uma abordagem é melhor que a outra e, com base em certos fatores, gerenciar a resolução de identidade no data warehouse usando correspondência difusa pode funcionar melhor para algumas empresas, afinal.

Saiba mais sobre a resolução de identidade no CDP Amplitude falando com um especialista em produtos .

Entre em contato com vendas