データ マスキングとは何か、それを正しく実装する方法は?

公開: 2023-03-13

機密データの漏洩に関連する罰金は増加しています。 たとえば、重大な GDPR 違反は、企業の年間グローバル売上高の最大 4% を犠牲にする可能性がありますが、重大な HIPAA 違反は投獄につながる可能性があります。

本番環境は完全に保護されている可能性があります。 しかし、イニシアチブや販売デモのテストについてはどうでしょうか? 機密データにアクセスできるサードパーティの請負業者に自信がありますか? 彼らはそれを守るために最善を尽くしますか?

コンプライアンスとデータの安全性を確保するために、企業はデータ管理サービス プロバイダーに目を向けています。 興味がある場合は、次の 3 つの重要な質問に答えるこのガイドを確認してください。

  • データマスキングとは?
  • なぜ、いつ必要なのか、そして
  • あなたの会社はどのようにそれをうまく実装できますか?

また、ポートフォリオからの詳細なデータ マスキングの例も示します。 この記事を読めば、データ マスキング ベンダーと交渉するための十分な情報が得られます。

データマスキングについて

では、データマスキングとは何ですか?

データ マスキングは、現実的で構造的に類似しているにもかかわらず、組織データの偽バージョンを構築することと定義されます。 同じ形式を維持しながら操作技術を使用して元のデータ値を変更し、リバース エンジニアリングや元の値への追跡が不可能な新しいバージョンを提供します。 マスクされたデータの例を次に示します。

社内に保存されているすべてのデータにデータ マスキング アルゴリズムを適用する必要がありますか? ほとんどの場合、そうではありません。 絶対に保護する必要があるデータの種類は次のとおりです。

  • 保護対象医療情報 (PHI) には、医療記録、臨床検査、医療保険情報、さらには人口統計が含まれます。
  • 支払いカード情報は、支払いカード業界データ セキュリティ基準 (PCI DSS) に基づくクレジット カードおよびデビット カード情報と取引データに関連しています。
  • パスポートや社会保障番号などの個人を特定できる情報 (PII) 。 基本的に、個人を特定するために使用できるあらゆる情報。
  • 知的財産 (IP) には、デザインなどの発明、または組織にとって価値があり、盗まれる可能性のあるあらゆるものが含まれます。

なぜデータマスキングが必要なのですか?

データ マスキングは、非生産的な目的で使用される機密情報を保護します。 そのため、トレーニング、テスト、セールス デモ、またはその他の種類の非生産活動で、前のセクションで示した機密データ タイプのいずれかを使用する限り、データ マスキング手法を適用する必要があります。 通常、非運用環境は保護が不十分であり、セキュリティの脆弱性が増えるため、これは理にかなっています。

さらに、サードパーティ ベンダーやパートナーとデータを共有する必要がある場合は、元のデータベースにアクセスするための広範なセキュリティ対策を相手に強制する代わりに、マスクされたデータへのアクセスを許可できます。 統計によると、データ侵害の 19% は、ビジネス パートナー側の侵害が原因で発生しています。

さらに、データマスキングには次の利点があります。

  • サイバー犯罪者が組織のデータにアクセスできた場合、そのデータを役に立たなくする
  • 許可されたユーザーとのデータ共有およびプロジェクトのアウトソーシングによってもたらされるリスクを軽減します
  • 一般データ保護規則 (GDPR)、医療保険の携行性と責任に関する法律 (HIPAA)、およびお客様の分野で適用されるその他の規制など、データのプライバシーとセキュリティ関連の規制に準拠するのに役立ちます
  • 従来のファイル削除方法では古いデータ値の痕跡が残るため、削除の場合にデータを保護します
  • 不正なデータ転送の場合にデータを保護します

データマスキングの種類

さまざまな組織のニーズに対応することを目的とした、主に 5 種類のデータ マスキングがあります。

1.静的データマスキング

これは、元のデータのバックアップを作成し、本番ユース ケース用に別の環境で安全に保管することを意味します。 次に、偽の現実的な値を含めることでコピーを偽装し、非生産目的 (テスト、研究など) に利用できるようにし、請負業者と共有します。

2.動的データマスキング

データベースへのクエリを受け取ったときに、実行時に元のデータの抜粋を変更することを目的としています。 したがって、機密情報の表示を許可されていないユーザーが本番データベースにクエリを実行すると、応答は元の値を変更せずにオンザフライでマスクされます。 以下に示すように、データベース プロキシ経由で実装できます。 このデータ マスキング タイプは通常、本番データの上書きを防ぐために読み取り専用設定で使用されます。

3. オンザフライ データ マスキング

このデータ マスキング タイプは、本番環境からテスト環境など、ある環境から別の環境にデータを転送するときにデータを偽装します。 ソフトウェアを継続的に展開し、大規模なデータ統合を実行する組織に人気があります。

4. 決定論的データマスキング

列データを同じ固定値に置き換えます。 たとえば、「Olivia」を「Emma」に置き換えたい場合は、現在マスキングしているテーブルだけでなく、関連するすべてのテーブルで行う必要があります。

5. 統計データの難読化

これは、データセット内のパターンと傾向に関する情報を明らかにするために使用されますが、そこに表されている実際の人物に関する詳細は共有されません。

7 つの主なデータ マスキング手法

以下に、最も一般的な 7 つのデータ マスキング手法を示します。 それらを組み合わせて、ビジネスのさまざまなニーズをカバーできます。

  1. シャッフリング。 同じテーブル内でデータ値をシャッフルして再割り当てできます。 たとえば、従業員名の列をシャッフルすると、ある従業員の実際の個人情報が別の従業員と一致するようになります。
  2. スクランブリング。 データ フィールドの文字と整数をランダムな順序で並べ替えます。 従業員の元の ID が 97489376 の場合、シャッフルを適用すると、37798649 のような値が返されます。これは特定のデータ型に制限されています。
  3. ヌルアウト。 これは、データ フィールドに null 値が割り当てられる単純なマスキング戦略です。 このメソッドは、アプリケーションのロジックに失敗する傾向があるため、使用が制限されています。
  4. 代用。 元のデータは、偽の現実的な値に置き換えられます。 新しい値がすべてのドメイン制約を満たす必要があることを意味します。 たとえば、誰かのクレジット カード番号を、発行銀行が実施する規則に準拠する別の番号に置き換えます。
  5. 数の差異。 これは主に財務情報に適用されます。 1 つの例は、+/-20% の差異を適用して元の給与をマスキングすることです。
  6. 日付老化。 このメソッドは、結果の日付がアプリケーションの制約を満たすように維持しながら、特定の範囲で日付を増減します。 たとえば、すべての契約を 50 日経過させることができます。
  7. 平均化。 すべての元のデータ値を平均で置き換える必要があります。 たとえば、個々の給与フィールドをすべて、このテーブルの平均給与値に置き換えることができます。

正しい方法でデータ マスキングを実装する方法

これが、5 ステップのデータ マスキングの実装計画です。

ステップ 1: プロジェクトの範囲を決定する

始める前に、カバーする側面を特定する必要があります。 マスキング イニシアチブに進む前に、データ チームが検討できる一般的な質問のリストを次に示します。

  • マスクしようとしているデータは?
  • それはどこにありますか?
  • アクセスを許可されているのは誰ですか?
  • 上記から各ユーザーのアクセスレベルは? 値を表示できるのは誰で、値を変更および削除できるのは誰ですか?
  • この機密データを利用しているアプリケーションは?
  • データマスキングは、さまざまなユーザーにどのような影響を与えますか?
  • どのレベルのマスキングが必要で、どのくらいの頻度でプロセスを繰り返す必要がありますか?
  • 組織全体にデータ マスキングを適用する予定ですか、それとも特定の製品に限定する予定ですか?

ステップ 2: データマスキング手法のスタックを定義する

このステップでは、目の前のタスクに最適な手法またはデータ マスキング ツールの組み合わせを特定する必要があります。

まず、名前、日付、財務データなど、マスクする必要があるデータの種類を特定する必要があります。これは、種類によって専用のデータ マスキング アルゴリズムが必要になるためです。 それに基づいて、あなたとあなたのベンダーは、どのオープンソース ライブラリを再利用して最適なデータ マスキング ソリューションを作成できるかを選択できます。 ソフトウェア ベンダーに相談することをお勧めします。ビジネス プロセスを中断することなく、ソリューションをカスタマイズし、会社全体のワークフローに簡単に統合できるからです。 また、会社独自のニーズに合わせてゼロから構築することも可能です。

Oracle Data Masking、IRI FieldShield、DATPROF など、購入して自分でデプロイできる既製のデータ マスキング ツールがあります。 すべてのデータを自分で管理し、さまざまなデータ フローがどのように機能するかを理解し、生産性を妨げることなくこの新しいデータ マスキング ソリューションを既存のプロセスに統合できる IT 部門がある場合は、この戦略を選択できます。

ステップ 3: 選択したデータ マスキング アルゴリズムを保護する

機密データのセキュリティは、選択した偽のデータ生成アルゴリズムのセキュリティに大きく依存します。 したがって、承認された担当者のみが、どのデータ マスキング アルゴリズムが展開されているかを知ることができます。これらの担当者は、この知識を使用してマスクされたデータを元のデータセットにリバース エンジニアリングできるからです。 職務の分離を適用することをお勧めします。 たとえば、セキュリティ部門は最適なアルゴリズムとツールを選択しますが、データ所有者はデータのマスキングに適用される設定を維持します。

ステップ 4: 参照整合性を維持する

参照整合性とは、組織内の各データ型が同じ方法でマスクされることを意味します。 組織がかなり大きく、複数のビジネス機能と製品ラインがある場合、これは困難な場合があります。 この場合、会社はさまざまなタスクに異なるデータ マスキング アルゴリズムを使用する可能性があります。

この問題を解決するには、参照制約を含むすべてのテーブルを特定し、対応する子テーブルの前に親テーブルをマスクする必要があるため、データをマスクする順序を決定します。 マスキング処理が完了したら、参照整合性が維持されているかどうかを確認することを忘れないでください。

ステップ 5: マスキング プロセスを繰り返し可能にする

特定のプロジェクトへの調整、または組織内の単なる一般的な変更により、機密データが変更され、新しいデータ ソースが作成され、マスキング プロセスを繰り返す必要が生じる可能性があります。

小規模なプロジェクトで数か月間使用される特殊なトレーニング データセットを準備する場合など、データ マスキングが 1 回限りの作業で済む場合があります。 しかし、長期間にわたって役立つソリューションが必要な場合、データはある時点で古くなる可能性があります。 そのため、時間と労力を費やしてマスキング プロセスを形式化し、迅速かつ反復可能で、可能な限り自動化します。

どのデータをマスクする必要があるかなど、一連のマスキング ルールを作成します。 この時点で予測できる例外または特殊なケースを特定します。 これらのマスキング ルールを一貫した方法で適用するためのスクリプトと自動化ツールを取得/構築します。

データ マスキング ソリューションを選択するためのチェックリスト

選択したソフトウェア ベンダーを使用する場合でも、既製のソリューションを選択する場合でも、最終製品は次のデータ マスキングのベスト プラクティスに従う必要があります。

  • 不可逆であるため、偽のデータを本物の値にリバース エンジニアリングすることはできません。
  • 元のデータベースの整合性を保護し、誤って永続的な変更を加えて役に立たなくすることはありません
  • 機密情報を保護するために必要な場合は、非機密データをマスクします
  • データはある時点で変更され、毎回ゼロから開始したくないため、自動化の機会を提供します
  • 元のデータの構造と分布を維持し、ビジネス上の制約を満たす現実的なデータを生成します
  • ビジネスに組み込みたい追加のデータ ソースに対応できるようにスケーラブルであること
  • HIPAA や GDPR など、適用されるすべての規制と社内ポリシーに準拠
  • 既存のシステムとワークフローにうまく統合する

データマスキングの課題

実装中に直面する可能性のある課題のリストを次に示します。

  • フォーマット保存。 マスキング ソリューションは、データを理解し、元の形式を維持できる必要があります。
  • 性別保存。 選択したデータ マスキング手法では、人の名前をマスキングするときに性別を認識す​​る必要があります。 そうしないと、データセット内の性別分布が変更されます。
  • セマンティックな整合性。 生成された偽の値は、さまざまなデータ型を制限するビジネス ルールに従う必要があります。 たとえば、給与は特定の範囲内に収まる必要があり、社会保障番号は所定の形式に従う必要があります。 これは、データの地理的分布を維持する場合にも当てはまります。
  • データの一意性。 従業員 ID 番号のように、元のデータを一意にする必要がある場合は、データ マスキング手法で一意の値を提供する必要があります。
  • セキュリティと使いやすさのバランス。 データのマスクが厳しすぎると、役に立たなくなる可能性があります。 一方、十分に保護されていない場合、ユーザーは不正アクセスを受ける可能性があります。
  • データを既存のワークフローに統合することは、従業員が現在混乱している特定の方法で作業することに慣れているため、最初は従業員にとって非常に不便である可能性があります。

ITRex ポートフォリオからのデータ マスキングの例

国際的な医療機関は、複数の形式で提示され、本番環境と非本番環境の両方に存在する個人を特定できる機密情報 (PII) を隠したいと考えていました。 彼らは、会社の内部ポリシー、GDPR、およびその他のデータ プライバシー規制に準拠しながら、PII を検出して難読化できる ML を利用したデータ マスキング ソフトウェアを構築したいと考えていました。

私たちのチームはすぐに次の課題に気付きました。

  • クライアントには、膨大な量のデータ、10,000 を超えるデータ ソース、および対応する多数のデータ フローがありました。
  • すべての異なる部門をカバーする明確なデータ マスキング戦略はありませんでした。

この多様性のため、私たちのチームは、データをマスキングする方法についてさまざまなデータセット所有者を導き、私たちのソリューションの基礎となる一連のポリシーとプロセスを考え出したいと考えました. たとえば、難読化したいデータ ポイントのリストを 1 回または継続的に提供すると、これらの原則に基づいてデータを調査し、適切な難読化手法を選択して適用することができます。

私たちは、次の質問を通して景観を調査することで、このプロジェクトに取り組みました。

  • どのデータ管理ソリューションを使用していますか? クライアントはすでに Informatica を使用していたので、それを採用しました。 インフォマティカのデータ マスキング ソリューションはすぐに使用できる機能を提供しており、クライアントのニーズの一部は満たしていましたが、すべての要件をカバーするには十分ではありませんでした。
  • どのデータ型をマスクしますか? データ ソースの数が多いため、すべてを一度に処理することは不可能でした。 そのため、ミッション クリティカルなものに優先順位を付けて特定するようクライアントに依頼しました。
  • 一度だけ実行しますか、それとも反復可能なプロセスにしますか?

これらの質問に答えた後、データ マスキングをサービスとして提供することを提案しました。主な理由は、クライアントのデータ ソースが多すぎて開始できず、すべてをカバーするのに何年もかかった可能性があるためです。

最終的に、次の 4 つの手順でデータ マスキングを半自動的に実行できるカスタム ML 駆動型ツールを使用して、データ マスキング サービスを提供しました。

  1. データ型を識別します。 データ所有者は、列のデータを調査する分析ツールにデータ ソースを入力し、住所、電話番号など、これらの列で識別できるデータ型を明らかにします。人間の専門家がその出力を検証し、間違いから学ぶことができます。 .
  2. 各列のマスキング アプローチを提案し、人間の承認後に適用する
  3. 結果を展開します。 マスクされたデータが生成されたら、展開する必要があります。 データ ストレージには複数のオプションが用意されています。 これには、数日間有効な一時データベースの使用、マスクされた環境の永続的な場所の割り当て、コンマ区切り値 (CSV) ファイルの生成などが含まれますが、これらに限定されません。
  4. 一連のデータまたは一連の環境を検査し、それらが適切にマスキングされ、準拠していることの証明として承認のバッジを付与する

このデータ マスキング ソリューションは、クライアントが GDPR に準拠するのに役立ち、非運用環境の形成に必要な時間を大幅に短縮し、運用からサンドボックスへのデータ転送のコストを削減しました。

実装後にマスクされたデータを維持する方法は?

機密データがマスクされても、あなたの努力は止まりません。 あなたはまだそれを時間の経過とともに維持する必要があります. このイニシアチブで役立つ手順は次のとおりです。

  • マスクされたデータを管理するポリシーと手順を確立します。 これには、誰がどのような状況でこのデータへのアクセスを許可されているか、およびこのデータがどのような目的 (テスト、レポート、研究など) に役立つかを判断することが含まれます。
  • このデータの使用方法と保護方法について従業員をトレーニングします
  • マスキングプロセスを定期的に監査および更新して、関連性を維持する
  • マスクされたデータを監視して、不正なアクセスの試みや侵害などの疑わしい活動がないか確認します
  • マスクされたデータのバックアップを実行して、回復可能であることを確認します

おわりに

データ マスキングは、非運用環境でデータを保護し、サードパーティの請負業者と情報を共有できるようにし、コンプライアンスを支援します。 IT 部門があり、データ フローを制御している場合は、データ難読化ソリューションを自分で購入して展開できます。 ただし、不適切なデータ マスキングの実装は、かなり不快な結果につながる可能性があることに注意してください。 最も顕著なもののいくつかを次に示します。

  • 生産性を阻害します。 選択したデータ マスキング手法によって、データ処理に不要な大幅な遅延が発生し、従業員の作業が遅くなる可能性があります。
  • データ侵害に対して脆弱になる。 データ マスキング方法、またはその欠如が機密データの保護に失敗した場合、刑務所で服役するまでの経済的および法的結果が生じます。
  • データ分析から不正確な結果を導き出す。 これは、データが正しくマスクされていないか、マスクが重すぎる場合に発生する可能性があります。 研究者は実験データセットを誤って解釈し、誤った結論に達して、残念なビジネス上の決定を下すことになります。

したがって、企業がデータの難読化イニシアチブを実行する能力に自信がない場合は、外部ベンダーに連絡して、適切なデータ マスキング手法を選択し、中断を最小限に抑えて最終製品をワークフローに統合するのを手伝ってもらうことをお勧めします。

保護してください!

データ マスキング ソリューションの実装を検討していますか? 連絡する! ビジネス プロセスを中断することなく、データの優先順位付け、準拠した難読化ツールの構築、および展開を支援します。


2023 年 2 月 28 日に https://itrexgroup.com で最初に公開されました。