身份解析：數據倉庫與客戶數據平台

已發表: 2022-08-16

每個人都想要客戶數據的單一真實來源，但它需要什麼取決於你問的是誰。

當然，數據倉庫是跨多個來源收集的客戶數據的“單一商店”。然而，在沒有身份解析的情況下，數據只對了一半。從數據中構建客戶活動的統一視圖絕非易事——負責它的人可以證明正確處理所涉及的複雜性。

此外，身份解析的定義也因企業而異——對於某些行業，身份解析的解決是更廣泛的實體解析問題的一個子集。

顧名思義，身份解析是指一個人的身份——一個個人用戶或客戶，他是企業處理的幾個實體之一。其他一些是帳戶、產品、供應商、供應商、合作夥伴和經銷商。

不過，在本指南中，我想更深入地研究身份解析並描述發生身份解析的系統、自動和手動身份解析之間的區別，以及確定性比概率匹配的好處。

身份解析：在何處以及如何發生

您可能已經知道，身份解析是統一跨多個來源（或接觸點）捕獲的用戶（或客戶）記錄的過程。

但是這個過程發生在哪裡呢？誰執行統一？數據是如何捕獲和存儲的？什麼是使這一切成為可能的先決條件數據點？

在投資於身份解析工作之前，回答這些問題很重要。

Bill Inmon，被稱為數據倉庫之父，最近寫了一篇題為“什麼不是數據倉庫”的文章，他在其中揭穿了關於什麼是數據倉庫的流行神話——這是一本引人入勝的讀物，如果你想閱讀，我強烈推薦更深入地了解數據倉庫領域正在發生的事情。

數據倉庫的典型形式是存儲來自不同來源的客戶數據並用於分析工作負載的雲數據庫。

在進行身份解析之前，必須確保來自第一方數據源（應用程序、網站或智能設備）的數據在數據倉庫中可用，這通常使用內部或外部客戶數據基礎設施 (CDI) 完成解決方案。收集哪些數據以及如何存儲數據很重要，因為身份解析依賴於一組標識符 (ID)，這些標識符 (ID) 用於匹配和合併來自多個來源的用戶記錄。

一旦必要的數據在倉庫中可用，統一或合併記錄的過程就開始了。這通常由對數據集有深入了解並擅長編寫 SQL 查詢的分析師完成，這些查詢執行跨表的複雜連接以創建稱為物化視圖的新表。然後，這些表作為用於分析和激活的事實來源。

在沒有諸如電子郵件、手機號碼、設備 ID 和用戶 ID 等標識符的情況下，或者由於其他因素而無法準確加入它們的情況下，人們不得不求助於所謂的概率匹配，它依賴於信號而不是個人身份信息 (PII)。

也稱為模糊匹配，概率匹配查找用戶屬性的組合，例如姓名、位置、操作系統、IP 地址等，然後在潛在匹配獲得可接受的分數時合併記錄。

簡單來說，概率匹配更靈活，但不是 100% 準確。將其用於關鍵用例（例如數據集龐大且複雜的欺詐檢測）是有意義的；但是，如果您的目標是構建數據驅動的個性化體驗，則不建議這樣做。

確定性匹配更準確，因為不涉及“猜測”——它是基於可用標識符的 0 或 1 場景。這種方法的好處如下所述。

我希望您現在對數據倉庫中身份解析的處理方式有一個公平的理解。是時候了解 CDP 是如何做到的了。

我想鏈接到一篇描述 CDP不是什麼的文章（這是 CDP是什麼），但不幸的是，我找不到，所以我首先想快速提一下 CDP 不是 CDI，也不是客戶關係管理。

從本質上講，客戶數據平台是客戶數據基礎設施之上的平台——該平台使人們能夠使用可視化界面將受眾與第三方工具進行細分和同步。

那麼身份解析在哪裡進行以及如何進行呢？

一般來說，它發生在收集數據之時或之後不久。在底層，CDP 存儲數據的副本，並以自動方式根據提供的標識符執行確定性匹配。

如前所述，個人身份信息 (PII) 在實現確定性匹配方面發揮著關鍵作用，並提供高水平的準確性——用於收集數據和執行統一的集成系統使 CDP 具有吸引力。

一些 CDP 供應商採取了概率路線，並吹捧他們的產品在本質上是優越的。我不想詳細說明概率匹配的缺點，而是想強調確定性匹配的一些主要好處。

個性化是 SaaS 和電子商務企業的聖杯，但如果出錯或不合時宜，個性化工作可能比完全沒有個性化更有害。

確定性身份解析不僅可以確保大規模準確的個性化，還可以使企業對隱私更加友好並更嚴格地遵守法規。請允許我打開這個包裝。

由於僅當系統能夠根據用戶直接提供的標識符（通常是電子郵件或電話號碼）識別用戶記錄時，才會進行確定性身份解析，因此個性化工作不太可能搞砸。

此外，由於 CDP 能夠在數據收集時自動執行身份解析，因此確保了及時性。

適用於大多數 SaaS 業務的一個簡單用例是向用戶發送高度個性化的歡迎電子郵件（幾乎在用戶註冊後立即發送），其中還考慮了其他用戶屬性，例如位置、行業或偏好。

SaaS 企業通常允許用戶創建多個帳戶或工作區，但向現有用戶發送相同的標準歡迎電子郵件幾乎沒有意義。確定性身份解析與預定義的分段和實時同步相結合，可以確保用戶不會被視為新用戶，並且他們收到的通信反映了這一點。

一個適用於幾乎所有行業的更廣泛示例是在用戶在新設備上或在無法識別的位置登錄帳戶時通知用戶。由於系統已經擁有與特定 IP 地址和設備 ID 關聯的用戶 ID，因此能夠立即識別未知模式並實時通知用戶。

沒有人需要了解為什麼隱私友好的方法對企業至關重要——不遵守 GDPR 或 CCPA 的後果可能是殘酷的。

通過確定性匹配，品牌可以確定，如果用戶選擇不接收通信或想要被遺忘，他們會在下游系統（電子郵件、短信、廣告渠道等）中被準確識別，並且他們的數據會從到處。

在沒有具有確定性身份解析功能的 CDP 的情況下實現這一級別的合規性絕非易事，並且可能會在此過程中導致多次違規。

本指南的目標是概述如何在不同的環境下在不同的約束條件下實現身份解析，希望我能夠做到這一點。

這些技巧和建議更適合產品、增長和營銷用例領域，主要是 B2B SaaS 公司。此外，這篇文章並不是要得出一種方法比另一種更好的結論，並且基於某些因素，使用模糊匹配管理數據倉庫中的身份解析可能對某些企業來說效果更好。

通過與產品專家交談，了解有關Amplitude CDP中身份解析的更多信息。