什麼是數據屏蔽,以及如何以正確的方式實施它?

已發表: 2023-03-13

與敏感數據洩露相關的罰款越來越多。 例如,嚴重違反 GDPR 可能導致公司損失其年度全球營業額的 4%,而嚴重違反 HIPAA 可能導致入獄。

您的生產環境可能會受到徹底保護。 但是測試計劃和銷售演示呢? 您對有權訪問您的敏感數據的第三方承包商有信心嗎? 他們會竭盡全力保護它嗎?

為確保合規性和數據安全,公司正在求助於數據管理服務提供商。 如果您也有興趣,請查看本指南以回答三個重要問題:

  • 什麼是數據屏蔽?
  • 為什麼以及何時需要它,以及
  • 貴公司如何成功實施?

它還提供了我們產品組合中的詳細數據屏蔽示例。 閱讀本文後,您將獲得足夠的信息來與數據屏蔽供應商進行談判。

了解數據屏蔽

那麼,什麼是數據屏蔽?

數據屏蔽被定義為構建一個真實且結構相似但仍然是假的組織數據版本。 它使用操作技術更改原始數據值,同時保持相同的格式,並提供無法進行逆向工程或追溯到真實值的新版本。 以下是屏蔽數據的示例:

您是否需要對公司內存儲的所有數據應用數據屏蔽算法? 很可能不會。 以下是您絕對需要保護的數據類型:

  • 受保護的健康信息 (PHI)包括醫療記錄、實驗室測試、醫療保險信息,甚至人口統計信息。
  • 支付卡信息與信用卡和借記卡信息以及支付卡行業數據安全標準 (PCI DSS) 下的交易數據相關。
  • 個人身份信息 (PII) ,例如護照和社會安全號碼。 基本上,任何可以用來識別一個人的信息。
  • 知識產權 (IP)包括發明,例如設計,或任何對組織有價值且可能被盜的東西。

為什麼需要數據屏蔽?

數據屏蔽保護用於非生產目的的敏感信息。 因此,只要您在培訓、測試、銷售演示或任何其他類型的非生產活動中使用上一節中介紹的任何敏感數據類型,就需要應用數據屏蔽技術。 這是有道理的,因為非生產環境通常受到的保護較少,並且會引入更多的安全漏洞。

此外,如果需要與第三方供應商和合作夥伴共享您的數據,您可以授予對屏蔽數據的訪問權限,而不是強迫對方遵守您廣泛的安全措施來訪問原始數據庫。 統計數據顯示,19% 的數據洩露是由於業務合作夥伴方面的妥協而發生的。

此外,數據屏蔽可以提供以下優勢:

  • 使組織數據對網絡犯罪分子無用,以防他們能夠訪問這些數據
  • 降低與授權用戶和外包項目共享數據所帶來的風險
  • 幫助遵守數據隱私和安​​全相關法規,例如《通用數據保護條例》(GDPR)、《健康保險流通與責任法案》(HIPAA) 以及您所在領域適用的任何其他法規
  • 在刪除的情況下保護數據,因為傳統的文件刪除方法仍然會留下舊數據值的痕跡
  • 在未經授權的數據傳輸情況下保護您的數據

數據屏蔽類型

有五種主要類型的數據屏蔽旨在滿足不同的組織需求。

1.靜態數據屏蔽

這意味著創建原始數據的備份並將其安全保存在用於生產用例的單獨環境中。 然後它通過包含虛假但真實的值來偽裝副本,並使其可用於非生產目的(例如,測試、研究),以及與承包商共享。

2.動態數據屏蔽

旨在在收到對數據庫的查詢時在運行時修改原始數據的摘錄。 因此,無權查看敏感信息的用戶會查詢生產數據庫,並且會在不更改原始值的情況下即時屏蔽響應。 您可以通過數據庫代理實現它,如下所示。 這種數據屏蔽類型通常用於只讀設置,以防止覆蓋生產數據。

3. 即時數據屏蔽

這種數據屏蔽類型在將數據從一個環境傳輸到另一個環境(例如從生產環境傳輸到測試環境)時偽裝數據。 它在持續部署軟件和執行大數據集成的組織中很受歡迎。

4.確定性數據屏蔽

用相同的固定值替換列數據。 例如,如果您想用“Emma”替換“Olivia”,您必須在所有關聯表中執行此操作,而不僅僅是在您當前屏蔽的表中。

5.統計數據混淆

這用於揭示有關數據集中的模式和趨勢的信息,而無需共享代表那裡的實際人員的任何詳細信息。

7 種主要的數據屏蔽技術

您可以在下面找到七種最流行的數據屏蔽技術。 您可以將它們結合起來以滿足您業務的各種需求。

  1. 洗牌。 您可以在同一個表中隨機排列和重新分配數據值。 例如,如果您打亂員工姓名列,您將獲得與另一名員工匹配的真實個人詳細信息。
  2. 爭先恐後。 以隨機順序重新排列數據字段的字符和整數。 如果員工的原始 ID 是 97489376,應用改組後,您將收到類似 37798649 的內容。這僅限於特定數據類型。
  3. 歸零。 這是一個簡單的屏蔽策略,其中數據字段被分配了一個空值。 此方法的用途有限,因為它往往會使應用程序的邏輯失敗。
  4. 代換。 原始數據被虛假但真實的值所取代。 這意味著新值仍然需要滿足所有域約束。 例如,您將某人的信用卡號碼替換為另一個符合發卡銀行強制執行規則的號碼。
  5. 數量差異。 這主要適用於財務信息。 一個例子是通過應用 +/-20% 的差異來掩蓋原始工資。
  6. 日期老化。 此方法按特定範圍增加或減少日期,保持結果日期滿足應用程序的約束。 例如,您可以將所有合同按 50 天計齡。
  7. 平均。 涉及用平均值替換所有原始數據值。 例如,您可以用此表中的平均工資值替換每個單獨的工資字段。

如何以正確的方式實施數據屏蔽?

這是您的 5 步數據屏蔽實施計劃。

第一步:確定項目範圍

在開始之前,您需要確定將涵蓋哪些方面。 以下是您的數據團隊在進行屏蔽計劃之前可以研究的典型問題列表:

  • 我們希望掩蓋哪些數據?
  • 它住在哪裡?
  • 誰有權訪問它?
  • 以上每個用戶的訪問級別是多少? 誰只能查看,誰可以更改和刪除值?
  • 哪些應用程序正在使用這些敏感數據?
  • 數據屏蔽對不同用戶有什麼影響?
  • 需要什麼級別的掩蔽,我們需要多久重複一次該過程?
  • 我們是希望在整個組織中應用數據屏蔽還是將其限制在特定產品上?

第 2 步:定義數據屏蔽技術堆棧

在此步驟中,您需要確定哪種技術或數據屏蔽工具組合最適合手頭的任務。

首先,您需要確定需要屏蔽哪些數據類型,例如姓名、日期、財務數據等,因為不同類型需要專門的數據屏蔽算法。 在此基礎上,您和您的供應商可以選擇可以重複使用哪些開源庫來生成最適合的數據屏蔽解決方案。 我們建議求助於軟件供應商,因為他們將幫助您定制解決方案並將其輕鬆集成到整個公司的工作流程中,而不會中斷任何業務流程。 此外,還可以從零開始構建一些東西來滿足公司的獨特需求。

您可以自行購買和部署現成的數據屏蔽工具,例如 Oracle Data Masking、IRI FieldShield、DATPROF 等。 如果您自己管理所有數據,了解不同的數據流如何工作,並且您的 IT 部門可以幫助將這種新的數據屏蔽解決方案集成到現有流程中,而不會影響生產力,則可以選擇此策略。

第 3 步:保護您選擇的數據屏蔽算法

您的敏感數據的安全性在很大程度上取決於所選假數據生成算法的安全性。 因此,只有授權人員才能知道部署了哪些數據屏蔽算法,因為這些人可以利用這些知識將屏蔽數據反向工程為原始數據集。 應用職責分離是一種很好的做法。 例如,安全部門選擇最適合的算法和工具,而數據所有者維護用於屏蔽其數據的設置。

第 4 步:保持參照完整性

參照完整性意味著組織內的每種數據類型都以相同的方式被屏蔽。 如果您的組織相當大並且具有多個業務功能和產品線,這可能是一個挑戰。 在這種情況下,您的公司可能會針對各種任務使用不同的數據屏蔽算法。

要解決此問題,請識別所有包含引用約束的表並確定您將以何種順序屏蔽數據,因為父表應在對應的子表之前屏蔽。 完成屏蔽過程後,不要忘記檢查參照完整性是否得到維護。

第 5 步:使掩蔽過程可重複

對特定項目的任何調整,或組織內的一般變化,都可能導致修改敏感數據並創建新的數據源,從而需要重複屏蔽過程。

在某些情況下,數據屏蔽可能是一次性的工作,例如準備一個專門的訓練數據集,該數據集將用於一個小項目幾個月。 但是,如果您想要一個可以長期為您服務的解決方案,您的數據可能會在某一時刻變得過時。 因此,投入時間和精力來規範掩蔽過程,使其快速、可重複並儘可能自動化。

制定一套屏蔽規則,例如必須屏蔽哪些數據。 確定您此時可以預見的任何異常或特殊情況。 獲取/構建腳本和自動化工具以一致的方式應用這些屏蔽規則。

選擇數據屏蔽解決方案的清單

無論您是與自己選擇的軟件供應商合作還是選擇現成的解決方案,最終產品都需要遵循以下數據屏蔽最佳實踐:

  • 不可逆,因此無法將虛假數據逆向工程為其真實值
  • 保護原始數據庫的完整性,不會因錯誤地進行永久更改而使其變得無用
  • 如果有必要保護敏感信息,請屏蔽非敏感數據
  • 提供自動化的機會,因為數據會在某個時候發生變化,你不想每次都從零開始
  • 生成保持原始數據結構和分佈的真實數據,滿足業務約束
  • 可擴展以容納您想要合併到您的業務中的任何其他數據源
  • 符合所有適用法規,例如 HIPAA 和 GDPR,以及您的內部政策
  • 很好地集成到現有系統和工作流程中

數據屏蔽挑戰

以下是您在實施過程中可能面臨的挑戰列表。

  • 格式保存。 屏蔽解決方案必須理解數據並能夠保留其原始格式。
  • 性別保護。 所選的數據屏蔽方法在屏蔽人名時需要注意性別。 否則,數據集中的性別分佈將被改變。
  • 語義完整性。 生成的假值需要遵循限制不同數據類型的業務規則。 例如,工資必須在特定範圍內,社會安全號碼必須遵循預定格式。 這對於維護數據的地理分佈也是如此。
  • 數據唯一性。 如果原始數據必須是唯一的,例如員工 ID 號,則數據屏蔽技術需要提供唯一值。
  • 平衡安全性和可用性。 如果數據被過度掩蓋,它可能變得毫無用處。 另一方面,如果保護不夠,用戶可能會獲得未經授權的訪問。
  • 將數據集成到現有工作流程中可能在一開始對員工來說非常不方便,因為人們習慣於以某種方式工作,而這種方式目前正在被打亂。

來自 ITRex 產品組合的數據屏蔽示例

一家國際醫療保健組織希望隱藏以多種格式呈現並駐留在生產和非生產環境中的敏感個人身份信息 (PII)。 他們想要構建一個基於 ML 的數據屏蔽軟件,該軟件可以發現和混淆 PII,同時遵守公司的內部政策、GDPR 和其他數據隱私法規。

我們的團隊立即註意到以下挑戰:

  • 客戶擁有海量數據,超過10,000個數據源,以及許多對應的數據流
  • 沒有涵蓋所有不同部門的明確數據屏蔽策略

由於種類繁多,我們的團隊希望提出一套政策和流程來指導不同的數據集所有者如何屏蔽他們的數據,並作為我們解決方案的基礎。 例如,有人可能會提供他們想要混淆一次或連續的數據點列表,並且在這些原則的指導下,解決方案將研究數據並選擇適當的混淆技術並應用它們。

我們通過以下問題調查景觀來接近這個項目:

  • 您使用哪些數據管理解決方案? 客戶已經在使用 Informatica,所以我們就這麼做了。 Informatica 的數據屏蔽解決方案提供開箱即用的功能,可以滿足客戶的部分需求,但還不足以滿足所有需求。
  • 您願意屏蔽哪些數據類型? 由於數據源眾多,不可能一次解決所有問題。 因此,我們要求客戶確定優先級並確定什麼是關鍵任務。
  • 你想做一次,還是讓它成為一個可重複的過程?

在回答了這些問題之後,我們建議將數據屏蔽作為一項服務提供,主要是因為客戶開始時有太多數據源,可能需要數年時間才能覆蓋所有數據源。

最後,我們藉助自定義 ML 驅動工具提供了數據屏蔽服務,該工具可以通過四個步驟半自動執行數據屏蔽:

  1. 識別數據類型。 數據所有者將他們的數據源放入分析工具中,該工具研究列的數據並揭示它可以在這些列中識別的數據類型,例如地址、電話號碼等。人類專家驗證其輸出,使其從錯誤中吸取教訓.
  2. 為每一列建議掩蔽方法並在人工批准後應用它們
  3. 部署結果。 掩碼數據生成後,需要進行部署。 我們為數據存儲提供了多種選擇。 這包括但不限於使用可存活數天的臨時數據庫、為屏蔽環境分配永久位置、生成逗號分隔值 (CSV) 文件等。
  4. 檢查一組數據或一組環境並為其頒發批准徽章,以證明它們已被適當屏蔽並合規

該數據屏蔽解決方案幫助客戶遵守 GDPR,顯著減少了構建非生產環境所需的時間,並降低了將數據從生產環境傳輸到沙盒的成本。

實施後如何維護屏蔽數據?

當機密數據被掩蓋時,您的努力不會停止。 隨著時間的推移,您仍然需要維護它。 以下是將幫助您完成此計劃的步驟:

  • 建立管理屏蔽數據的政策和程序。 這包括確定誰有權訪問此數據以及在何種情況下以及此數據用於哪些目的(例如,測試、報告、研究等)
  • 培訓員工如何使用和保護這些數據
  • 定期審核和更新屏蔽流程以確保其保持相關性
  • 監控任何可疑活動的屏蔽數據,例如未經授權的訪問嘗試和違規行為
  • 執行屏蔽數據備份以確保其可恢復

結語

數據屏蔽將保護您在非生產環境中的數據,使您能夠與第三方承包商共享信息,並幫助您實現合規性。 如果您有 IT 部門並控制數據流,則可以自行購買和部署數據混淆解決方案。 但是,請記住,不正確的數據屏蔽實施可能會導致相當不愉快的後果。 以下是一些最突出的:

  • 阻礙生產力。 所選的數據屏蔽技術可能會導致數據處理出現大量不必要的延遲,從而降低員工的工作效率。
  • 變得容易受到數據洩露的影響。 如果您的數據屏蔽方法(或缺乏數據屏蔽方法)未能保護敏感數據,將面臨經濟和法律後果,直至入獄服刑。
  • 從數據分析中得出不准確的結果。 如果數據被錯誤或過度屏蔽,就會發生這種情況。 研究人員會誤解實驗數據集並得出錯誤的結論,從而導致不幸的業務決策。

因此,如果一家公司對其執行數據混淆計劃的能力沒有信心,最好聯繫外部供應商,他們將幫助選擇正確的數據屏蔽技術,並將最終產品集成到您的工作流程中,盡量減少中斷。

保持保護!

考慮實施數據屏蔽解決方案? 保持聯繫! 我們將幫助您確定數據的優先級,構建合規的混淆工具,並在不中斷業務流程的情況下進行部署。


最初於 2023 年 2 月 28 日發佈在 https://itrexgroup.com。