데이터 마스킹이란 무엇이며 올바른 방법으로 구현하는 방법은 무엇입니까?

게시 됨: 2023-03-13

민감한 데이터 노출과 관련된 벌금이 증가하고 있습니다. 예를 들어 주요 GDPR 위반으로 인해 회사는 연간 글로벌 매출의 최대 4%에 달하는 비용을 지불할 수 있으며, 총 HIPAA 위반으로 인해 징역형에 처해질 수 있습니다.

프로덕션 환경이 철저하게 보호될 수 있습니다. 그러나 테스트 이니셔티브 및 판매 데모는 어떻습니까? 중요한 데이터에 액세스할 수 있는 타사 계약자에 대해 확신하십니까? 그들은 그것을 보호하기 위해 최선을 다할까요?

규정 준수 및 데이터 안전을 보장하기 위해 회사는 데이터 관리 서비스 제공업체에 눈을 돌리고 있습니다. 관심이 있는 경우 세 가지 중요한 질문에 답하는 이 가이드를 확인하십시오.

  • 데이터 마스킹이란 무엇입니까?
  • 왜, 언제 필요한지,
  • 귀사는 어떻게 이를 성공적으로 구현할 수 있었습니까?

또한 포트폴리오의 자세한 데이터 마스킹 예제를 제공합니다. 기사를 읽고 나면 데이터 마스킹 공급업체와 협상할 수 있는 충분한 정보를 얻게 됩니다.

데이터 마스킹 이해

그렇다면 데이터 마스킹이란 무엇입니까?

데이터 마스킹은 현실적이고 구조적으로 유사하지만 그럼에도 불구하고 조직 데이터의 가짜 버전을 구축하는 것으로 정의됩니다. 동일한 형식을 유지하면서 조작 기술을 사용하여 원본 데이터 값을 변경하고 역설계하거나 실제 값으로 역추적할 수 없는 새 버전을 제공합니다. 다음은 마스킹된 데이터의 예입니다.

회사 내에 저장된 모든 데이터에 데이터 마스킹 알고리즘을 적용해야 합니까? 그렇지 않을 가능성이 높습니다. 반드시 보호해야 하는 데이터 유형은 다음과 같습니다.

  • PHI(Protected Health Information)에는 의료 기록, 실험실 검사, 의료 보험 정보, 인구 통계 등이 포함됩니다.
  • 결제 카드 정보는 PCI DSS(Payment Card Industry Data Security Standard)에 따른 신용 및 직불 카드 정보 및 거래 데이터와 관련이 있습니다.
  • 여권 및 주민등록번호와 같은 개인 식별 정보(PII) . 기본적으로 사람을 식별하는 데 사용할 수 있는 모든 정보입니다.
  • 지적 재산(IP) 에는 디자인과 같은 발명 또는 조직에 가치가 있고 도난당할 수 있는 모든 것이 포함됩니다.

데이터 마스킹이 필요한 이유는 무엇입니까?

데이터 마스킹은 비생산적인 목적으로 사용되는 민감한 정보를 보호합니다. 따라서 교육, 테스트, 영업 데모 또는 기타 유형의 비생산 활동에서 이전 섹션에 제시된 민감한 데이터 유형을 사용하는 한 데이터 마스킹 기술을 적용해야 합니다. 비프로덕션 환경은 일반적으로 보호 수준이 낮고 보안 취약성이 더 높기 때문에 이치에 맞습니다.

또한 타사 공급업체 및 파트너와 데이터를 공유해야 하는 경우 상대방이 원본 데이터베이스에 액세스하기 위해 광범위한 보안 조치를 준수하도록 강요하는 대신 마스킹된 데이터에 대한 액세스 권한을 부여할 수 있습니다. 통계에 따르면 데이터 유출의 19%는 비즈니스 파트너 측의 손상으로 인해 발생합니다.

또한 데이터 마스킹은 다음과 같은 이점을 제공할 수 있습니다.

  • 조직 데이터에 액세스할 수 있는 경우 사이버 범죄자가 조직 데이터를 쓸모 없게 만듭니다.
  • 승인된 사용자와 데이터를 공유하고 프로젝트를 아웃소싱함으로써 발생하는 위험을 줄입니다.
  • GDPR(일반 데이터 보호 규정), HIPAA(건강 보험 이동성 및 책임에 관한 법률) 및 해당 분야에 적용 가능한 기타 규정과 같은 데이터 개인 정보 보호 및 보안 관련 규정을 준수하도록 지원합니다.
  • 기존의 파일 삭제 방식은 여전히 ​​이전 데이터 값의 흔적을 남기므로 삭제 시 데이터를 보호합니다.
  • 무단 데이터 전송의 경우 데이터 보호

데이터 마스킹 유형

다양한 조직 요구 사항을 충족하는 것을 목표로 하는 5가지 주요 데이터 마스킹 유형이 있습니다.

1. 정적 데이터 마스킹

이는 원본 데이터의 백업을 생성하고 프로덕션 사용 사례를 위해 별도의 환경에서 안전하게 유지하는 것을 의미합니다. 그런 다음 가짜이지만 사실적인 값을 포함하여 사본을 위장하고 비생산 목적(예: 테스트, 연구) 및 계약자와의 공유에 사용할 수 있도록 합니다.

2. 동적 데이터 마스킹

데이터베이스에 대한 쿼리를 수신할 때 런타임에 원본 데이터의 발췌 부분을 수정하는 것을 목표로 합니다. 따라서 민감한 정보를 볼 수 있는 권한이 없는 사용자는 프로덕션 데이터베이스를 쿼리하고 응답은 원래 값을 변경하지 않고 즉석에서 마스킹됩니다. 아래와 같이 데이터베이스 프록시를 통해 구현할 수 있습니다. 이 데이터 마스킹 유형은 일반적으로 프로덕션 데이터 재정의를 방지하기 위해 읽기 전용 설정에서 사용됩니다.

3. 즉각적인 데이터 마스킹

이 데이터 마스킹 유형은 생산에서 테스트로와 같이 한 환경에서 다른 환경으로 데이터를 전송할 때 데이터를 위장합니다. 지속적으로 소프트웨어를 배포하고 대규모 데이터 통합을 수행하는 조직에 인기가 있습니다.

4. 결정적 데이터 마스킹

열 데이터를 동일한 고정 값으로 바꿉니다. 예를 들어 "Olivia"를 "Emma"로 바꾸려면 현재 마스킹 중인 테이블뿐만 아니라 모든 관련 테이블에서 이를 수행해야 합니다.

5. 통계 데이터 난독화

이는 실제 사람들에 대한 세부 정보를 공유하지 않고 데이터 세트의 패턴 및 추세에 대한 정보를 표시하는 데 사용됩니다.

7가지 주요 데이터 마스킹 기술

아래에서 가장 널리 사용되는 7가지 데이터 마스킹 기술을 찾을 수 있습니다. 이들을 결합하여 비즈니스의 다양한 요구 사항을 충족할 수 있습니다.

  1. 셔플링. 동일한 테이블 내에서 데이터 값을 섞고 재할당할 수 있습니다. 예를 들어 직원 이름 열을 섞으면 한 직원의 실제 개인 정보가 다른 직원과 일치하게 됩니다.
  2. 스크램블링. 데이터 필드의 문자와 정수를 무작위 순서로 재정렬합니다. 직원의 원래 ID가 97489376인 경우 셔플링을 적용한 후 37798649와 같은 것을 받게 됩니다. 이것은 특정 데이터 유형으로 제한됩니다.
  3. 무효화. 이것은 데이터 필드에 null 값이 할당되는 간단한 마스킹 전략입니다. 이 방법은 응용 프로그램의 논리에 실패하는 경향이 있으므로 사용이 제한됩니다.
  4. 치환. 원본 데이터는 가짜이지만 실제 값으로 대체됩니다. 새 값이 여전히 모든 도메인 제약 조건을 충족해야 함을 의미합니다. 예를 들어 누군가의 신용 카드 번호를 발급 은행에서 시행하는 규칙을 준수하는 다른 번호로 대체합니다.
  5. 숫자 분산. 이것은 주로 재무 정보에 적용됩니다. 한 가지 예는 +/-20% 분산을 적용하여 원래 급여를 마스킹하는 것입니다.
  6. 날짜 노화. 이 메서드는 결과 날짜가 응용 프로그램의 제약 조건을 충족하도록 유지하면서 특정 범위만큼 날짜를 늘리거나 줄입니다. 예를 들어 모든 계약을 50일까지 에이징할 수 있습니다.
  7. 평균. 모든 원래 데이터 값을 평균으로 대체합니다. 예를 들어 모든 개별 급여 필드를 이 테이블의 평균 급여 값으로 바꿀 수 있습니다.

올바른 방법으로 데이터 마스킹을 구현하는 방법은 무엇입니까?

다음은 5단계 데이터 마스킹 구현 계획입니다.

1단계: 프로젝트 범위 결정

시작하기 전에 어떤 측면을 다룰 것인지 식별해야 합니다. 다음은 마스킹 이니셔티브를 진행하기 전에 데이터 팀이 연구할 수 있는 일반적인 질문 목록입니다.

  • 어떤 데이터를 마스킹하려고 합니까?
  • 어디에 있습니까?
  • 액세스 권한이 있는 사람은 누구입니까?
  • 위의 각 사용자의 액세스 수준은 무엇입니까? 누가 보기만 할 수 있고 누가 값을 변경하고 삭제할 수 있습니까?
  • 이 민감한 데이터를 활용하는 애플리케이션은 무엇입니까?
  • 데이터 마스킹은 다른 사용자에게 어떤 영향을 미칩니까?
  • 어떤 수준의 마스킹이 필요하며 프로세스를 얼마나 자주 반복해야 합니까?
  • 조직 전체에 데이터 마스킹을 적용하려고 합니까 아니면 특정 제품으로 제한하려고 합니까?

2단계: 데이터 마스킹 기술 스택 정의

이 단계에서 당면한 작업에 가장 적합한 기술 또는 데이터 마스킹 도구 조합을 식별해야 합니다.

우선, 유형마다 전용 데이터 마스킹 알고리즘이 필요하므로 마스킹해야 하는 데이터 유형(예: 이름, 날짜, 재무 데이터 등)을 식별해야 합니다. 이를 기반으로 귀하와 귀하의 공급업체는 가장 적합한 데이터 마스킹 솔루션을 생성하기 위해 재사용할 수 있는 오픈 소스 라이브러리를 선택할 수 있습니다. 솔루션을 사용자 지정하고 비즈니스 프로세스를 중단하지 않고 회사 전체의 워크플로에 원활하게 통합하는 데 도움이 되는 소프트웨어 공급업체에 문의하는 것이 좋습니다. 또한 회사의 고유한 요구 사항을 충족하기 위해 무에서 무언가를 구축하는 것도 가능합니다.

Oracle Data Masking, IRI FieldShield, DATPROF 등과 같이 직접 구매하여 배포할 수 있는 미리 만들어진 데이터 마스킹 도구가 있습니다. 모든 데이터를 직접 관리하고 다양한 데이터 흐름이 작동하는 방식을 이해하며 생산성을 저해하지 않으면서 이 새로운 데이터 마스킹 솔루션을 기존 프로세스에 통합하는 데 도움을 줄 수 있는 IT 부서가 있는 경우 이 전략을 선택할 수 있습니다.

3단계: 선택한 데이터 마스킹 알고리즘 보호

중요한 데이터의 보안은 선택한 가짜 데이터 생성 알고리즘의 보안에 크게 좌우됩니다. 따라서 권한이 있는 직원만이 배포된 데이터 마스킹 알고리즘을 알 수 있습니다. 이 사람들은 이 지식을 사용하여 마스킹된 데이터를 원래 데이터 세트로 리버스 엔지니어링할 수 있기 때문입니다. 업무 분리를 적용하는 것이 좋습니다. 예를 들어 보안 부서는 가장 적합한 알고리즘과 도구를 선택하고 데이터 소유자는 데이터 마스킹에 적용된 설정을 유지합니다.

4단계: 참조 무결성 유지

참조 무결성은 조직 내의 각 데이터 유형이 동일한 방식으로 마스킹됨을 의미합니다. 조직의 규모가 크고 여러 비즈니스 기능과 제품 라인이 있는 경우 이는 어려울 수 있습니다. 이 경우 회사는 다양한 작업에 대해 서로 다른 데이터 마스킹 알고리즘을 사용할 가능성이 높습니다.

이 문제를 해결하려면 참조 제약 조건이 포함된 모든 테이블을 식별하고 상위 테이블이 해당 하위 테이블보다 먼저 마스킹되어야 하므로 데이터를 마스킹할 순서를 결정하십시오. 마스킹 프로세스를 완료한 후에는 참조 무결성이 유지되었는지 확인하는 것을 잊지 마십시오.

5단계: 마스킹 프로세스를 반복 가능하게 만들기

특정 프로젝트에 대한 조정 또는 조직 내에서의 일반적인 변경으로 인해 중요한 데이터가 수정되고 새 데이터 원본이 생성되어 마스킹 프로세스를 반복해야 할 필요가 생길 수 있습니다.

소규모 프로젝트를 위해 몇 개월 동안 사용할 전문 교육 데이터 세트를 준비하는 경우와 같이 데이터 마스킹이 일회성 작업이 될 수 있는 경우가 있습니다. 그러나 장기간 동안 사용할 수 있는 솔루션을 원하는 경우 데이터가 어느 시점에서 쓸모 없게 될 수 있습니다. 따라서 마스킹 프로세스를 형식화하여 빠르고 반복 가능하며 가능한 한 자동화하는 데 시간과 노력을 투자하십시오.

마스킹해야 하는 데이터와 같은 일련의 마스킹 규칙을 개발합니다. 이 시점에서 예측할 수 있는 예외나 특별한 경우를 식별합니다. 이러한 마스킹 규칙을 일관된 방식으로 적용하기 위한 스크립트 및 자동화 도구를 획득/구축합니다.

데이터 마스킹 솔루션 선택을 위한 체크리스트

선택한 소프트웨어 공급업체와 협력하든 기성 솔루션을 선택하든 최종 제품은 다음과 같은 데이터 마스킹 모범 사례를 따라야 합니다.

  • 되돌릴 수 없어 가짜 데이터를 원래 값으로 리버스 엔지니어링하는 것이 불가능합니다.
  • 원본 데이터베이스의 무결성을 보호하고 실수로 영구적으로 변경하여 쓸모 없게 만들지 않습니다.
  • 민감한 정보를 보호하기 위해 필요한 경우 민감하지 않은 데이터를 마스킹합니다.
  • 데이터가 어느 시점에 변경되고 매번 0부터 시작하고 싶지 않기 때문에 자동화 기회를 제공합니다.
  • 원본 데이터의 구조와 분포를 유지하고 비즈니스 제약을 충족하는 사실적인 데이터 생성
  • 비즈니스에 통합하려는 추가 데이터 소스를 수용할 수 있도록 확장 가능
  • HIPAA 및 GDPR과 같은 모든 해당 규정 및 내부 정책을 준수합니다.
  • 기존 시스템 및 워크플로에 잘 통합

데이터 마스킹 문제

다음은 구현 중에 직면할 수 있는 문제 목록입니다.

  • 형식 보존. 마스킹 솔루션은 데이터를 이해하고 원래 형식을 보존할 수 있어야 합니다.
  • 성별 보존. 선택된 데이터 마스킹 방법론은 사람들의 이름을 마스킹할 때 성별을 인식해야 합니다. 그렇지 않으면 데이터 세트 내의 성별 분포가 변경됩니다.
  • 시맨틱 무결성. 생성된 가짜 값은 다양한 데이터 유형을 제한하는 비즈니스 규칙을 따라야 합니다. 예를 들어 급여는 특정 범위 내에 있어야 하고 주민등록번호는 미리 정해진 형식을 따라야 합니다. 이는 데이터의 지리적 분포를 유지하는 경우에도 마찬가지입니다.
  • 데이터 고유성. 원본 데이터가 직원 ID 번호와 같이 고유해야 하는 경우 데이터 마스킹 기술은 고유한 값을 제공해야 합니다.
  • 보안과 유용성의 균형. 데이터가 너무 많이 마스킹되면 쓸모없게 될 수 있습니다. 반면에 충분히 보호되지 않으면 사용자가 무단으로 액세스할 수 있습니다.
  • 데이터를 기존 워크플로에 통합하는 것은 사람들이 현재 중단되고 있는 특정 방식으로 작업하는 데 익숙하기 때문에 처음에는 직원에게 매우 불편할 수 있습니다.

ITRex 포트폴리오의 데이터 마스킹 예

한 국제 의료 기관은 여러 형식으로 제공되고 프로덕션 및 비프로덕션 환경 모두에 상주하는 민감한 개인 식별 정보(PII)를 숨기려고 했습니다. 그들은 회사의 내부 정책, GDPR 및 기타 데이터 개인 정보 보호 규정을 준수하면서 PII를 발견하고 난독화할 수 있는 ML 기반 데이터 마스킹 소프트웨어를 구축하기를 원했습니다.

우리 팀은 즉시 다음과 같은 문제를 발견했습니다.

  • 클라이언트는 막대한 양의 데이터, 10,000개 이상의 데이터 소스 및 이에 상응하는 많은 데이터 흐름을 보유하고 있었습니다.
  • 서로 다른 모든 부서를 포괄하는 명확한 데이터 마스킹 전략이 없었습니다.

이러한 다양성으로 인해 우리 팀은 데이터를 마스킹하는 방법에 대해 서로 다른 데이터 세트 소유자를 안내하고 우리 솔루션의 기반 역할을 할 일련의 정책 및 프로세스를 제시하기를 원했습니다. 예를 들어 누군가가 한 번 또는 지속적으로 난독화하려는 데이터 포인트 목록을 가지고 올 수 있으며 솔루션은 이러한 원칙에 따라 데이터를 연구하고 적절한 난독화 기술을 선택하여 적용합니다.

우리는 다음 질문을 통해 풍경을 조사하여 이 프로젝트에 접근했습니다.

  • 어떤 데이터 관리 솔루션을 사용하고 있습니까? 고객이 이미 Informatica를 사용하고 있었기 때문에 우리도 함께 진행했습니다. Informatica의 데이터 마스킹 솔루션은 즉시 사용 가능한 기능을 제공하여 클라이언트의 일부 요구 사항을 충족했지만 모든 요구 사항을 충족하기에는 충분하지 않았습니다.
  • 어떤 데이터 유형을 마스킹하시겠습니까? 많은 데이터 소스로 인해 모든 것을 한 번에 처리하는 것은 불가능했습니다. 그래서 우리는 클라이언트에게 미션 크리티컬한 것이 무엇인지 우선 순위를 정하고 식별하도록 요청했습니다.
  • 한 번만 하시겠습니까, 아니면 반복 가능한 프로세스로 만드시겠습니까?

이러한 질문에 답한 후 주로 클라이언트가 시작할 데이터 소스가 너무 많고 모든 데이터 소스를 처리하는 데 몇 년이 걸릴 수 있기 때문에 데이터 마스킹을 서비스로 제공할 것을 제안했습니다.

결국 우리는 4단계로 데이터 마스킹을 반자동으로 수행할 수 있는 맞춤형 ML 기반 도구의 도움으로 데이터 마스킹 서비스를 제공했습니다.

  1. 데이터 유형을 식별합니다. 데이터 소유자는 데이터 소스를 열의 데이터를 연구하는 분석 도구에 입력하고 주소, 전화 번호 등과 같이 이러한 열에서 식별할 수 있는 데이터 유형을 표시합니다. 인간 전문가가 출력을 확인하여 실수로부터 학습할 수 있도록 합니다. .
  2. 칼럼별 마스킹 방식 제안 및 인적 승인 후 적용
  3. 결과를 배포합니다. 마스킹된 데이터가 생성된 후 배포해야 합니다. 데이터 저장을 위한 여러 옵션을 제공했습니다. 여기에는 며칠 동안 유지되는 임시 데이터베이스 사용, 마스킹된 환경에 대한 영구 위치 할당, CSV(쉼표로 구분된 값) 파일 생성 등이 포함되지만 이에 국한되지 않습니다.
  4. 적절하게 마스킹되고 규정을 준수한다는 증거로 일련의 데이터 또는 환경을 검사하고 승인 배지를 제공합니다.

이 데이터 마스킹 솔루션은 고객이 GDPR을 준수하도록 도왔고, 비생산 환경을 형성하는 데 필요한 시간을 크게 줄였으며, 생산에서 샌드박스로 데이터를 전송하는 비용을 낮췄습니다.

구현 후 마스킹된 데이터를 유지하는 방법은 무엇입니까?

기밀 데이터가 가려져도 귀하의 노력은 멈추지 않습니다. 여전히 시간이 지남에 따라 유지 관리해야 합니다. 다음은 이 이니셔티브에서 도움이 될 단계입니다.

  • 마스킹된 데이터를 관리하는 정책 및 절차를 수립합니다. 여기에는 누가 어떤 상황에서 이 데이터에 액세스할 수 있는지, 이 데이터가 어떤 목적(예: 테스트, 보고, 연구 등)에 사용되는지 결정하는 것이 포함됩니다.
  • 이 데이터를 사용하고 보호하는 방법에 대해 직원 교육
  • 관련성을 유지하기 위해 마스킹 프로세스를 정기적으로 감사하고 업데이트합니다.
  • 무단 액세스 시도 및 위반과 같은 의심스러운 활동에 대해 마스킹된 데이터를 모니터링합니다.
  • 복구 가능한지 확인하기 위해 마스킹된 데이터 백업을 수행합니다.

결론 생각

데이터 마스킹은 비생산 환경에서 데이터를 보호하고 타사 계약자와 정보를 공유할 수 있도록 하며 규정 준수를 지원합니다. IT 부서가 있고 데이터 흐름을 제어하는 ​​경우 데이터 난독화 솔루션을 직접 구매하고 배포할 수 있습니다. 그러나 부적절한 데이터 마스킹 구현은 다소 불쾌한 결과를 초래할 수 있음을 명심하십시오. 다음은 가장 눈에 띄는 것들 중 일부입니다.

  • 생산성을 방해합니다. 선택한 데이터 마스킹 기술은 데이터 처리에 불필요한 대규모 지연을 발생시켜 직원의 속도를 늦출 수 있습니다.
  • 데이터 침해에 취약해짐. 귀하의 데이터 마스킹 방법 또는 그 부족으로 민감한 데이터를 보호하지 못하는 경우 감옥에서 복역할 때까지 재정적 및 법적 결과가 초래됩니다.
  • 데이터 분석에서 부정확한 결과 도출. 데이터가 잘못 가려지거나 너무 많이 마스킹된 경우 이런 일이 발생할 수 있습니다. 연구원은 실험 데이터 세트를 잘못 해석하고 불행한 비즈니스 결정으로 이어질 잘못된 결론에 도달할 것입니다.

따라서 회사가 데이터 난독화 이니셔티브를 실행하는 능력에 자신이 없다면 올바른 데이터 마스킹 기술을 선택하고 중단을 최소화하면서 최종 제품을 워크플로에 통합하는 데 도움을 줄 외부 공급업체에 문의하는 것이 가장 좋습니다.

계속 보호하세요!

데이터 마스킹 솔루션 구현을 고려하고 계십니까? 연락하세요! 데이터의 우선 순위를 지정하고 규정을 준수하는 난독화 도구를 구축하고 비즈니스 프로세스를 중단하지 않고 배포할 수 있도록 도와드립니다.


원래 2023년 2월 28일 https://itrexgroup.com에 게시되었습니다.