Co to jest maskowanie danych i jak je wdrożyć we właściwy sposób?
Opublikowany: 2023-03-13Rosną kary związane z ujawnieniem wrażliwych danych. Na przykład poważne naruszenia RODO mogą kosztować firmy do 4% ich rocznego globalnego obrotu, podczas gdy rażące naruszenia ustawy HIPAA mogą skutkować karą pozbawienia wolności.
Twoje środowisko produkcyjne może być dokładnie chronione. Ale co z inicjatywami testowymi i demonstracjami sprzedaży? Czy masz zaufanie do zewnętrznych kontrahentów, którzy mają dostęp do Twoich wrażliwych danych? Czy zrobią wszystko, by ją chronić?
Aby zapewnić zgodność i bezpieczeństwo danych, firmy zwracają się do dostawców usług zarządzania danymi. Jeśli jesteś zainteresowany, zapoznaj się z tym przewodnikiem, który odpowiada na trzy ważne pytania:
- Co to jest maskowanie danych?
- Dlaczego i kiedy tego potrzebujesz, i
- W jaki sposób Twoja firma może go skutecznie wdrożyć?
Przedstawia również szczegółowy przykład maskowania danych z naszego portfolio. Po przeczytaniu artykułu będziesz miał wystarczająco dużo informacji, aby negocjować z dostawcami maskowania danych.
Zrozumienie maskowania danych
Czym zatem jest maskowanie danych?
Maskowanie danych jest definiowane jako budowanie realistycznej i strukturalnie podobnej, ale mimo to fałszywej wersji danych organizacji. Zmienia oryginalne wartości danych za pomocą technik manipulacji, zachowując ten sam format, i dostarcza nową wersję, której nie można poddać inżynierii wstecznej ani odtworzyć autentycznych wartości. Oto przykład zamaskowanych danych:
Potrzebujesz zastosować algorytmy maskowania danych do wszystkich danych przechowywanych w Twojej firmie? Najprawdopodobniej nie. Oto typy danych, które zdecydowanie musisz chronić:
- Chronione informacje zdrowotne (PHI) obejmują dokumentację medyczną, testy laboratoryjne, informacje o ubezpieczeniu medycznym, a nawet dane demograficzne.
- Informacje o kartach płatniczych są powiązane z informacjami o kartach kredytowych i debetowych oraz danymi transakcji zgodnie ze standardem Payment Card Industry Data Security Standard (PCI DSS).
- Informacje umożliwiające identyfikację osoby (PII) , takie jak numer paszportu i ubezpieczenia społecznego. Zasadniczo każda informacja, której można użyć do zidentyfikowania osoby.
- Własność intelektualna (IP) obejmuje wynalazki, takie jak projekty lub wszystko, co ma wartość dla organizacji i może zostać skradzione.
Dlaczego potrzebujesz maskowania danych?
Maskowanie danych chroni poufne informacje wykorzystywane w celach nieprodukcyjnych. Tak więc, dopóki używasz któregokolwiek z typów danych wrażliwych przedstawionych w poprzedniej sekcji podczas szkolenia, testowania, demonstracji sprzedaży lub jakichkolwiek innych rodzajów działań nieprodukcyjnych, musisz stosować techniki maskowania danych. Ma to sens, ponieważ środowiska nieprodukcyjne są zwykle mniej chronione i wprowadzają więcej luk w zabezpieczeniach.
Co więcej, jeśli zachodzi potrzeba udostępnienia danych zewnętrznym dostawcom i partnerom, możesz przyznać dostęp do zamaskowanych danych zamiast zmuszać drugą stronę do przestrzegania szeroko zakrojonych środków bezpieczeństwa w celu uzyskania dostępu do oryginalnej bazy danych. Statystyki pokazują, że 19% naruszeń danych ma miejsce z powodu kompromisów po stronie partnera biznesowego.
Dodatkowo maskowanie danych może zapewnić następujące korzyści:
- Sprawia, że dane organizacji są bezużyteczne dla cyberprzestępców, na wypadek gdyby mieli do nich dostęp
- Zmniejsza ryzyko związane z udostępnianiem danych uprawnionym użytkownikom i outsourcingiem projektów
- Pomaga zachować zgodność z przepisami dotyczącymi prywatności i bezpieczeństwa danych, takimi jak ogólne rozporządzenie o ochronie danych (RODO), ustawa o przenośności i odpowiedzialności w ubezpieczeniach zdrowotnych (HIPAA) oraz wszelkie inne przepisy obowiązujące w Twojej dziedzinie
- Chroni dane w przypadku usunięcia, ponieważ konwencjonalne metody usuwania plików nadal pozostawiają ślad po starych wartościach danych
- Zabezpiecza Twoje dane w przypadku nieautoryzowanego transferu danych
Typy maskowania danych
Istnieje pięć głównych rodzajów maskowania danych, które mają na celu zaspokojenie różnych potrzeb organizacyjnych.
1. Maskowanie danych statycznych
Wiąże się to z utworzeniem kopii zapasowej oryginalnych danych i przechowywaniem ich w bezpiecznym osobnym środowisku dla przypadków użycia produkcyjnego. Następnie maskuje kopię, podając fałszywe, ale realistyczne wartości, i udostępnia ją w celach nieprodukcyjnych (np. testowanie, badania), a także udostępnia kontrahentom.
2. Dynamiczne maskowanie danych
Ma na celu modyfikację fragmentu oryginalnych danych w czasie wykonywania podczas odbierania zapytania do bazy danych. Tak więc użytkownik nieuprawniony do przeglądania poufnych informacji wysyła zapytanie do produkcyjnej bazy danych, a odpowiedź jest maskowana w locie bez zmiany oryginalnych wartości. Możesz go zaimplementować za pośrednictwem serwera proxy bazy danych, jak pokazano poniżej. Ten typ maskowania danych jest zwykle używany w ustawieniach tylko do odczytu, aby zapobiec zastępowaniu danych produkcyjnych.
3. Maskowanie danych w locie
Ten typ maskowania danych ukrywa dane podczas przesyłania ich z jednego środowiska do drugiego, na przykład z produkcji do testowania. Jest popularny wśród organizacji, które stale wdrażają oprogramowanie i integrują duże ilości danych.
4. Deterministyczne maskowanie danych
Zastępuje dane kolumny tą samą stałą wartością. Na przykład, jeśli chcesz zamienić „Olivia” na „Emma”, musisz to zrobić we wszystkich powiązanych tabelach, a nie tylko w tabeli, którą aktualnie maskujesz.
5. Zaciemnianie danych statystycznych
Służy to do ujawniania informacji o wzorcach i trendach w zbiorze danych bez udostępniania jakichkolwiek szczegółów na temat rzeczywistych osób tam reprezentowanych.
7 głównych technik maskowania danych
Poniżej znajdziesz siedem najpopularniejszych technik maskowania danych. Możesz je łączyć, aby zaspokoić różne potrzeby Twojej firmy.
- Tasowanie. Możesz mieszać i ponownie przypisywać wartości danych w tej samej tabeli. Na przykład, jeśli przetasujesz kolumnę z nazwiskiem pracownika, otrzymasz prawdziwe dane osobowe jednego pracownika dopasowanego do drugiego.
- Szyfrowanie. Zmienia kolejność znaków i liczb całkowitych pola danych w losowej kolejności. Jeśli oryginalny identyfikator pracownika to 97489376, po zastosowaniu przetasowania otrzymasz coś w rodzaju 37798649. Jest to ograniczone do określonych typów danych.
- Zerowanie. Jest to prosta strategia maskowania, w której polu danych przypisywana jest wartość null. Ta metoda ma ograniczone użycie, ponieważ zwykle zawodzi logikę aplikacji.
- Podstawienie. Oryginalne dane są zastępowane fałszywymi, ale realistycznymi wartościami. Oznacza to, że nowa wartość nadal musi spełniać wszystkie ograniczenia domeny. Na przykład zastępujesz czyjś numer karty kredytowej innym numerem, który jest zgodny z zasadami narzuconymi przez bank wydający.
- Wariancja liczbowa. Dotyczy to głównie informacji finansowych. Jednym z przykładów jest maskowanie pierwotnych wynagrodzeń poprzez zastosowanie odchylenia +/-20%.
- Starzenie się daty. Ta metoda zwiększa lub zmniejsza datę o określony zakres, utrzymując, że wynikowa data spełnia ograniczenia aplikacji. Na przykład możesz postarzyć wszystkie umowy o 50 dni.
- Uśrednianie. Polega na zastąpieniu wszystkich oryginalnych wartości danych średnią. Na przykład możesz zastąpić każde indywidualne pole wynagrodzenia średnimi wartościami wynagrodzeń w tej tabeli.
Jak prawidłowo wdrożyć maskowanie danych?
Oto Twój 5-etapowy plan wdrożenia maskowania danych.
Krok 1: Określ zakres swojego projektu
Zanim zaczniesz, musisz określić, które aspekty omówisz. Oto lista typowych pytań, które zespół ds. danych może przestudiować przed przystąpieniem do inicjatyw maskowania:
- Jakie dane chcemy zamaskować?
- Gdzie mieszka?
- Kto jest upoważniony do dostępu do niego?
- Jaki jest poziom dostępu każdego z powyższych użytkowników? Kto może tylko przeglądać, a kto może zmieniać i usuwać wartości?
- Które aplikacje wykorzystują te poufne dane?
- Jaki wpływ będzie miało maskowanie danych na różnych użytkowników?
- Jaki poziom maskowania jest wymagany i jak często będziemy musieli powtarzać ten proces?
- Czy chcemy zastosować maskowanie danych w całej organizacji, czy ograniczyć je do konkretnego produktu?
Krok 2: Zdefiniuj stos technik maskowania danych
Na tym etapie musisz określić, która technika lub kombinacja narzędzi do maskowania danych najlepiej pasuje do danego zadania.
Przede wszystkim musisz określić, które typy danych chcesz zamaskować, na przykład nazwiska, daty, dane finansowe itp., ponieważ różne typy wymagają dedykowanych algorytmów maskowania danych. Na tej podstawie Ty i Twój dostawca możecie wybrać, które biblioteki open source można ponownie wykorzystać w celu stworzenia najlepiej dopasowanego rozwiązania do maskowania danych. Zalecamy zwrócenie się do dostawcy oprogramowania, ponieważ pomoże on dostosować rozwiązanie i bezproblemowo zintegrować je z przepływami pracy w całej firmie bez przerywania jakichkolwiek procesów biznesowych. Ponadto możliwe jest zbudowanie czegoś od zera, aby zaspokoić unikalne potrzeby firmy.
Istnieją gotowe narzędzia do maskowania danych, które można kupić i wdrożyć samodzielnie, takie jak Oracle Data Masking, IRI FieldShield, DATPROF i wiele innych. Możesz wybrać tę strategię, jeśli samodzielnie zarządzasz wszystkimi swoimi danymi, rozumiesz, jak działają różne przepływy danych, i masz dział IT, który może pomóc zintegrować to nowe rozwiązanie do maskowania danych z istniejącymi procesami bez ograniczania produktywności.
Krok 3: Zabezpiecz wybrane algorytmy maskowania danych
Bezpieczeństwo Twoich wrażliwych danych w dużej mierze zależy od bezpieczeństwa wybranych algorytmów generujących fałszywe dane. Dlatego tylko upoważniony personel może wiedzieć, które algorytmy maskowania danych są wdrożone, ponieważ dzięki tej wiedzy osoby te mogą odtworzyć zamaskowane dane w oryginalnym zbiorze danych. Dobrą praktyką jest stosowanie rozdziału obowiązków. Na przykład dział bezpieczeństwa wybiera najlepiej dopasowane algorytmy i narzędzia, podczas gdy właściciele danych zachowują ustawienia zastosowane do maskowania ich danych.

Krok 4: Zachowaj integralność referencyjną
Integralność referencyjna oznacza, że każdy typ danych w Twojej organizacji jest maskowany w ten sam sposób. Może to stanowić wyzwanie, jeśli Twoja organizacja jest dość duża i ma kilka funkcji biznesowych oraz linii produktów. W takim przypadku Twoja firma prawdopodobnie użyje różnych algorytmów maskowania danych do różnych zadań.
Aby rozwiązać ten problem, zidentyfikuj wszystkie tabele zawierające ograniczenia referencyjne i określ kolejność maskowania danych, ponieważ tabele nadrzędne powinny być maskowane przed odpowiednimi tabelami podrzędnymi. Po zakończeniu procesu maskowania nie zapomnij sprawdzić, czy zachowana została integralność referencyjna.
Krok 5: Spraw, aby proces maskowania był powtarzalny
Każda korekta w konkretnym projekcie lub po prostu ogólne zmiany w Twojej organizacji mogą skutkować modyfikacją wrażliwych danych i utworzeniem nowych źródeł danych, co wiąże się z koniecznością powtórzenia procesu maskowania.
Są sytuacje, w których maskowanie danych może być czynnością jednorazową, jak w przypadku przygotowania specjalistycznego zbioru danych szkoleniowych, który będzie używany przez kilka miesięcy w małym projekcie. Ale jeśli potrzebujesz rozwiązania, które będzie Ci służyć przez dłuższy czas, Twoje dane mogą w pewnym momencie stać się nieaktualne. Zainwestuj więc czas i wysiłek w sformalizowanie procesu maskowania, aby był szybki, powtarzalny i jak najbardziej zautomatyzowany.
Opracuj zestaw reguł maskowania, np. które dane mają być maskowane. Zidentyfikuj wszelkie wyjątki lub przypadki szczególne, które możesz przewidzieć w tym momencie. Zdobądź/zbuduj skrypty i zautomatyzowane narzędzia, aby stosować te reguły maskowania w spójny sposób.
Twoja lista kontrolna do wyboru rozwiązania do maskowania danych
Niezależnie od tego, czy współpracujesz z wybranym przez siebie dostawcą oprogramowania, czy wybierasz gotowe rozwiązanie, produkt końcowy musi być zgodny z tymi najlepszymi praktykami w zakresie maskowania danych:
- Bądź nieodwracalny, uniemożliwiając odtworzenie fałszywych danych do ich autentycznych wartości
- Chroń integralność oryginalnej bazy danych i nie pozbądź się jej bezużyteczności przez przypadkowe wprowadzenie trwałych zmian
- Zamaskuj dane niewrażliwe, jeśli jest to konieczne do ochrony informacji wrażliwych
- Zapewnij możliwość automatyzacji, ponieważ dane w pewnym momencie będą się zmieniać, a nie chcesz za każdym razem zaczynać od zera
- Generuj realistyczne dane, które zachowują strukturę i dystrybucję oryginalnych danych oraz spełniają ograniczenia biznesowe
- Bądź skalowalny, aby pomieścić dodatkowe źródła danych, które chcesz włączyć do swojej firmy
- Zgodne ze wszystkimi obowiązującymi przepisami, takimi jak HIPAA i RODO, oraz z wewnętrznymi zasadami
- Dobrze integruj się z istniejącymi systemami i przepływami pracy
Wyzwania związane z maskowaniem danych
Oto lista wyzwań, które możesz napotkać podczas wdrażania.
- Zachowanie formatu. Rozwiązanie maskujące musi rozumieć dane i być w stanie zachować ich oryginalny format.
- Zachowanie płci. Wybrana metodologia maskowania danych musi uwzględniać płeć podczas maskowania nazwisk osób. W przeciwnym razie rozkład płci w zbiorze danych zostanie zmieniony.
- Integralność semantyczna. Wygenerowane fałszywe wartości muszą być zgodne z regułami biznesowymi ograniczającymi różne typy danych. Na przykład pensje muszą mieścić się w określonym przedziale, a numery ubezpieczenia społecznego muszą mieć z góry określony format. Dotyczy to również zachowania geograficznego rozmieszczenia danych.
- Unikalność danych. Jeśli oryginalne dane muszą być unikalne, takie jak numer identyfikacyjny pracownika, technika maskowania danych musi dostarczać unikalną wartość.
- Równoważenie bezpieczeństwa i użyteczności. Jeśli dane są zbyt mocno zamaskowane, mogą stać się bezużyteczne. Z drugiej strony, jeśli nie jest wystarczająco chroniony, użytkownicy mogą uzyskać nieautoryzowany dostęp.
- Integracja danych z istniejącymi przepływami pracy może być na samym początku bardzo niewygodna dla pracowników, ponieważ ludzie są przyzwyczajeni do pracy w określony sposób, który obecnie jest zakłócany.
Przykład maskowania danych z portfolio ITRex
Międzynarodowa organizacja opieki zdrowotnej chciała ukryć poufne informacje umożliwiające identyfikację osób (PII) prezentowane w wielu formatach i znajdujące się zarówno w środowisku produkcyjnym, jak i pozaprodukcyjnym. Chcieli zbudować oprogramowanie do maskowania danych oparte na ML, które może wykrywać i zaciemniać dane osobowe, jednocześnie przestrzegając wewnętrznych zasad firmy, RODO i innych przepisów dotyczących prywatności danych.
Nasz zespół od razu zauważył następujące wyzwania:
- Klient miał ogromne ilości danych, ponad 10 000 źródeł danych i wiele powiązanych przepływów danych
- Nie było jasnej strategii maskowania danych, która obejmowałaby wszystkie różne działy
Ze względu na tę dużą różnorodność nasz zespół chciał opracować zestaw zasad i procesów, które pomogłyby różnym właścicielom zbiorów danych w zakresie maskowania ich danych i posłużyłyby jako podstawa dla naszego rozwiązania. Na przykład ktoś może przyjść z listą punktów danych, które chce zaciemnić jednorazowo lub w sposób ciągły, a rozwiązanie, kierując się tymi zasadami, przestudiuje dane i wybierze odpowiednie techniki zaciemniania i zastosuje je.
Podeszliśmy do tego projektu, badając krajobraz za pomocą następujących pytań:
- Z jakich rozwiązań do zarządzania danymi korzystasz? Klient korzystał już z Informatica, więc poszliśmy z tym. Rozwiązanie do maskowania danych firmy Informatica oferuje gotowe funkcje, które zaspokoiły niektóre potrzeby klienta, ale to nie wystarczyło do spełnienia wszystkich wymagań.
- Jakie typy danych chcesz zamaskować? Ze względu na dużą liczbę źródeł danych niemożliwe było zaadresowanie wszystkiego naraz. Poprosiliśmy więc klienta o ustalenie priorytetów i zidentyfikowanie tego, co ma kluczowe znaczenie dla misji.
- Czy chcesz to zrobić raz, czy uczynić z tego proces powtarzalny?
Po udzieleniu odpowiedzi na te pytania zasugerowaliśmy udostępnienie maskowania danych jako usługi, głównie dlatego, że klient ma na początek zbyt wiele źródeł danych i pokrycie ich wszystkich mogło zająć lata.
Ostatecznie dostarczyliśmy usługi maskowania danych za pomocą niestandardowego narzędzia opartego na ML, które może półautomatycznie wykonywać maskowanie danych w czterech krokach:
- Zidentyfikuj typy danych. Właściciele danych umieszczają swoje źródła danych w narzędziu analitycznym, które bada dane w kolumnach i ujawnia typy danych, które może zidentyfikować w tych kolumnach, takie jak adresy, numery telefonów itp. Ekspert-człowiek weryfikuje dane wyjściowe, umożliwiając uczenie się na błędach .
- Zaproponuj metody maskowania dla każdej kolumny i zastosuj je po zatwierdzeniu przez człowieka
- Wdróż wyniki. Po wygenerowaniu zamaskowanych danych należy je wdrożyć. Udostępniliśmy wiele opcji przechowywania danych. Obejmuje to między innymi korzystanie z tymczasowej bazy danych, która pozostaje aktywna przez kilka dni, przypisywanie stałej lokalizacji dla zamaskowanych środowisk, generowanie plików z wartościami rozdzielanymi przecinkami (CSV) i nie tylko.
- Zbadaj i nadaj odznakę zatwierdzenia zestawowi danych lub zestawowi środowisk jako dowód, że są one odpowiednio zamaskowane i zgodne
To rozwiązanie do maskowania danych pomogło klientowi zachować zgodność z RODO, radykalnie skróciło czas tworzenia środowisk nieprodukcyjnych i obniżyło koszty przenoszenia danych z produkcji do piaskownicy.
Jak zachować zamaskowane dane po wdrożeniu?
Twoje wysiłki nie kończą się, gdy poufne dane są maskowane. Nadal musisz go utrzymywać w czasie. Oto kroki, które pomogą Ci w tej inicjatywie:
- Ustanowienie zasad i procedur regulujących zamaskowane dane. Obejmuje to określenie, kto jest upoważniony do dostępu do tych danych iw jakich okolicznościach oraz jakim celom służą te dane (np. testowanie, raportowanie, badania itp.)
- Przeszkol pracowników w zakresie wykorzystywania i ochrony tych danych
- Regularnie kontroluj i aktualizuj proces maskowania, aby upewnić się, że pozostaje aktualny
- Monitoruj zamaskowane dane pod kątem podejrzanych działań, takich jak próby nieautoryzowanego dostępu i naruszenia
- Wykonaj kopie zapasowe zamaskowanych danych, aby upewnić się, że można je odzyskać
Końcowe przemyślenia
Maskowanie danych ochroni Twoje dane w środowiskach nieprodukcyjnych, umożliwi dzielenie się informacjami z zewnętrznymi kontrahentami i pomoże w zapewnieniu zgodności. Możesz samodzielnie kupić i wdrożyć rozwiązanie do zaciemniania danych, jeśli masz dział IT i kontrolujesz przepływy danych. Należy jednak pamiętać, że niewłaściwe wdrożenie maskowania danych może prowadzić do dość przykrych konsekwencji. Oto niektóre z najbardziej znanych:
- Utrudnianie produktywności. Wybrane techniki maskowania danych mogą powodować duże niepotrzebne opóźnienia w przetwarzaniu danych, a tym samym spowalniać pracowników.
- Narażenie na naruszenia danych. Jeśli stosowane przez Ciebie metody maskowania danych lub ich brak nie zapewnią ochrony danych wrażliwych, poniesiesz konsekwencje finansowe i prawne aż do odbycia kary pozbawienia wolności.
- Wyprowadzanie niedokładnych wyników z analizy danych. Może się to zdarzyć, jeśli dane są maskowane nieprawidłowo lub zbyt mocno. Badacze błędnie zinterpretują eksperymentalny zestaw danych i wyciągną błędne wnioski, które doprowadzą do niefortunnych decyzji biznesowych.
Dlatego jeśli firma nie jest pewna swoich możliwości w zakresie realizacji inicjatyw zaciemniania danych, najlepiej skontaktować się z zewnętrznym dostawcą, który pomoże wybrać odpowiednie techniki maskowania danych i zintegrować produkt końcowy z przepływami pracy przy minimalnych przerwach.
Pozostań chroniony!
Zastanawiasz się nad wdrożeniem rozwiązania do maskowania danych? Skontaktuj się! Pomożemy Ci ustalić priorytety danych, zbudować zgodne narzędzie do zaciemniania i wdrożyć je bez zakłócania procesów biznesowych.
Pierwotnie opublikowane na stronie https://itrexgroup.com 28 lutego 2023 r.