身份解析：数据仓库与客户数据平台

已发表: 2022-08-16

每个人都想要一个单一的客户数据真实来源，但它需要什么取决于你问的是谁。

当然，数据仓库是跨多个来源收集的客户数据的“单一商店”。然而，在没有身份解析的情况下，数据只对了一半。从数据中构建客户活动的统一视图绝非易事——负责它的人可以证明正确处理所涉及的复杂性。

此外，身份解析的定义也因企业而异——对于某些行业，身份解析的解决是更广泛的实体解析问题的一个子集。

顾名思义，身份解析是指一个人的身份——一个个人用户或客户，他是企业处理的几个实体之一。其他一些是帐户、产品、供应商、供应商、合作伙伴和经销商。

不过，在本指南中，我想更深入地研究身份解析并描述发生身份解析的系统、自动和手动身份解析之间的区别，以及确定性比概率匹配的好处。

身份解析：在何处以及如何发生

您可能已经知道，身份解析是统一跨多个来源（或接触点）捕获的用户（或客户）记录的过程。

但是这个过程发生在哪里呢？谁执行统一？数据是如何捕获和存储的？什么是使这一切成为可能的先决条件数据点？

在投资于身份解析工作之前，回答这些问题很重要。

Bill Inmon，被称为数据仓库之父，最近写了一篇题为“什么不是数据仓库”的文章，他在其中揭穿了关于什么是数据仓库的流行神话——这是一本引人入胜的读物，如果你想阅读，我强烈推荐更深入地了解数据仓库领域正在发生的事情。

数据仓库的典型形式是存储来自不同来源的客户数据并用于分析工作负载的云数据库。

在进行身份解析之前，必须确保来自第一方数据源（应用程序、网站或智能设备）的数据在数据仓库中可用，这通常使用内部或外部客户数据基础设施 (CDI) 完成解决方案。收集哪些数据以及如何存储数据很重要，因为身份解析依赖于一组标识符 (ID)，这些标识符 (ID) 用于匹配和合并来自多个来源的用户记录。

一旦必要的数据在仓库中可用，统一或合并记录的过程就开始了。这通常由对数据集有深入了解并擅长编写 SQL 查询的分析师完成，这些查询执行跨表的复杂连接以创建称为物化视图的新表。然后，这些表作为用于分析和激活的事实来源。

在没有诸如电子邮件、手机号码、设备 ID 和用户 ID 等标识符的情况下，或者由于其他因素而无法准确加入它们的情况下，人们不得不求助于所谓的概率匹配，它依赖于信号而不是个人身份信息 (PII)。

也称为模糊匹配，概率匹配查找用户属性的组合，例如姓名、位置、操作系统、IP 地址等，然后在潜在匹配获得可接受的分数时合并记录。

简单来说，概率匹配更灵活，但不是 100% 准确。将其用于关键用例（例如数据集庞大且复杂的欺诈检测）是有意义的；但是，如果您的目标是构建数据驱动的个性化体验，则不建议这样做。

确定性匹配更准确，因为不涉及“猜测”——它是基于可用标识符的 0 或 1 场景。这种方法的好处如下所述。

我希望您现在对数据仓库中身份解析的处理方式有一个公平的理解。是时候了解 CDP 是如何做到的了。

我想链接到一篇描述 CDP不是什么的文章（这是 CDP是什么），但不幸的是，我找不到，所以我首先想快速提一下 CDP 不是 CDI，也不是客户关系管理。

从本质上讲，客户数据平台是客户数据基础设施之上的平台——该平台使人们能够使用可视化界面将受众与第三方工具进行细分和同步。

那么身份解析在哪里进行以及如何进行呢？

一般来说，它发生在收集数据之时或之后不久。在底层，CDP 存储数据的副本，并以自动方式根据提供的标识符执行确定性匹配。

如前所述，个人身份信息 (PII) 在实现确定性匹配方面发挥着关键作用，并提供高水平的准确性——用于收集数据和执行统一的集成系统使 CDP 具有吸引力。

一些 CDP 供应商采取了概率路线，并吹捧他们的产品在本质上是优越的。我不想详细说明概率匹配的缺点，而是想强调确定性匹配的一些主要好处。

个性化是 SaaS 和电子商务企业的圣杯，但如果出错或不合时宜，个性化工作可能比完全没有个性化更有害。

确定性身份解析不仅可以确保大规模准确的个性化，还可以使企业对隐私更加友好并更严格地遵守法规。请允许我打开这个包装。

由于仅当系统能够根据用户直接提供的标识符（通常是电子邮件或电话号码）识别用户记录时，才会进行确定性身份解析，因此个性化工作不太可能搞砸。

此外，由于 CDP 能够在数据收集时自动执行身份解析，因此确保了及时性。

适用于大多数 SaaS 业务的一个简单用例是向用户发送高度个性化的欢迎电子邮件（几乎在用户注册后立即发送），其中还考虑了其他用户属性，例如位置、行业或偏好。

SaaS 企业通常允许用户创建多个帐户或工作区，但向现有用户发送相同的标准欢迎电子邮件几乎没有意义。确定性身份解析与预定义的分段和实时同步相结合，可以确保用户不会被视为新用户，并且他们收到的通信反映了这一点。

一个适用于几乎所有行业的更广泛示例是在用户在新设备上或在无法识别的位置登录帐户时通知用户。由于系统已经拥有与特定 IP 地址和设备 ID 关联的用户 ID，因此能够立即识别未知模式并实时通知用户。

没有人需要了解为什么隐私友好的方法对企业至关重要——不遵守 GDPR 或 CCPA 的后果可能是残酷的。

通过确定性匹配，品牌可以确定，如果用户选择不接收通信或想要被遗忘，他们会在下游系统（电子邮件、短信、广告渠道等）中被准确识别，并且他们的数据会从到处。

在没有具有确定性身份解析功能的 CDP 的情况下实现这一级别的合规性绝非易事，并且可能会在此过程中导致多次违规。

本指南的目标是概述如何在不同的环境下在不同的约束条件下实现身份解析，希望我能够做到这一点。

这些技巧和建议更适合产品、增长和营销用例领域，主要是 B2B SaaS 公司。此外，这篇文章并不是要得出一种方法比另一种更好的结论，并且基于某些因素，使用模糊匹配管理数据仓库中的身份解析可能对某些企业来说效果更好。

通过与产品专家交谈，了解有关Amplitude CDP中身份解析的更多信息。