Ce este mascarea datelor și cum să o implementați în mod corect?
Publicat: 2023-03-13Amenzile legate de expunerea la date sensibile sunt în creștere. De exemplu, încălcările majore ale GDPR pot costa companiile până la 4% din cifra lor anuală de afaceri globală, în timp ce încălcările grave ale HIPAA pot duce la închisoare.
Mediul dvs. de producție ar putea fi bine protejat. Dar cum rămâne cu testarea inițiativelor și a demonstrațiilor de vânzări? Aveți încredere în contractanții terți care au acces la datele dvs. sensibile? Vor face tot posibilul pentru a o proteja?
Pentru a asigura conformitatea și siguranța datelor, companiile apelează la furnizori de servicii de gestionare a datelor. Dacă și dvs. sunteți interesat, consultați acest ghid care răspunde la cele trei întrebări importante:
- Ce este mascarea datelor?
- De ce și când ai nevoie de el și
- Cum ar putea compania dumneavoastră să o implementeze cu succes?
De asemenea, prezintă un exemplu detaliat de mascare a datelor din portofoliul nostru. După ce ați citit articolul, veți avea suficiente informații pentru a negocia cu furnizorii de mascare a datelor.
Înțelegerea mascării datelor
Deci, ce este mascarea datelor?
Mascarea datelor este definită ca construirea unei versiuni realiste și similare structural, dar totuși false a datelor organizaționale. Modifică valorile originale ale datelor folosind tehnici de manipulare, menținând în același timp același format și oferă o nouă versiune care nu poate fi reproiectată sau urmărită înapoi la valorile autentice. Iată un exemplu de date mascate:
Trebuie să aplicați algoritmi de mascare a datelor tuturor datelor stocate în cadrul companiei dvs.? Cel mai probabil nu. Iată tipurile de date pe care cu siguranță trebuie să le protejați:
- Informațiile de sănătate protejate (PHI) includ dosare medicale, teste de laborator, informații despre asigurările medicale și chiar date demografice.
- Informațiile cardului de plată sunt legate de informațiile despre cardul de credit și de debit și datele tranzacțiilor conform Standardului de securitate a datelor din industria cardurilor de plată (PCI DSS).
- Informații de identificare personală (PII) , cum ar fi numerele de pașaport și de securitate socială. Practic, orice informație care poate fi folosită pentru a identifica o persoană.
- Proprietatea intelectuală (IP) include invenții, cum ar fi desenele sau orice lucru care are valoare pentru organizație și poate fi furat.
De ce aveți nevoie de mascarea datelor?
Mascarea datelor protejează informațiile sensibile utilizate în scopuri neproductive. Deci, atâta timp cât utilizați oricare dintre tipurile de date sensibile prezentate în secțiunea anterioară în instruire, testare, demonstrații de vânzări sau orice alte tipuri de activități non-producție, trebuie să aplicați tehnici de mascare a datelor. Acest lucru are sens, deoarece mediile care nu sunt de producție sunt în mod normal mai puțin protejate și introduc mai multe vulnerabilități de securitate.
În plus, dacă este nevoie să vă partajați datele cu furnizori și parteneri terți, puteți acorda acces la datele mascate în loc să forțați cealaltă parte să respecte măsurile extinse de securitate pentru a accesa baza de date inițială. Statisticile arată că 19% dintre încălcările de date au loc din cauza compromisurilor din partea partenerului de afaceri.
În plus, mascarea datelor poate oferi următoarele avantaje:
- Face datele organizaționale inutile infractorilor cibernetici în cazul în care aceștia le pot accesa
- Reduce riscurile prezentate de partajarea datelor cu utilizatorii autorizați și proiectele de externalizare
- Ajută la respectarea reglementărilor legate de confidențialitatea datelor și de securitate, cum ar fi Regulamentul general privind protecția datelor (GDPR), Legea privind portabilitatea și responsabilitatea asigurărilor de sănătate (HIPAA) și orice alte reglementări aplicabile în domeniul dvs.
- Protejează datele în cazul ștergerii, deoarece metodele convenționale de ștergere a fișierelor lasă în continuare o urmă a vechilor valori ale datelor
- Vă protejează datele în cazul transferului neautorizat de date
Tipuri de mascare a datelor
Există cinci tipuri principale de mascare a datelor care urmăresc să acopere diferite nevoi organizaționale.
1. Mascarea datelor statice
Aceasta implică crearea unei copii de rezervă a datelor originale și păstrarea lor în siguranță într-un mediu separat pentru cazurile de utilizare în producție. Apoi maschează copia prin includerea de valori false, dar realiste și o face disponibilă în scopuri non-producție (de exemplu, testare, cercetare), precum și partajarea cu contractanții.
2. Mascarea dinamică a datelor
Scopul este să modifice un fragment din datele originale în timpul execuției atunci când se primește o interogare la baza de date. Deci, un utilizator care nu este autorizat să vizualizeze informații sensibile interogează baza de date de producție, iar răspunsul este mascat din mers fără a modifica valorile originale. Îl puteți implementa prin proxy de bază de date, așa cum este prezentat mai jos. Acest tip de mascare a datelor este utilizat în mod normal în setările de numai citire pentru a preveni suprascrierea datelor de producție.
3. Mascarea datelor din mers
Acest tip de mascare a datelor maschează datele atunci când le transferă dintr-un mediu în altul, cum ar fi de la producție la testare. Este popular în rândul organizațiilor care implementează continuu software și realizează integrări mari de date.
4. Mascarea datelor deterministă
Înlocuiește datele coloanei cu aceeași valoare fixă. De exemplu, dacă doriți să înlocuiți „Olivia” cu „Emma”, trebuie să o faceți în toate tabelele asociate, nu numai în tabelul pe care îl mascați în prezent.
5. Ofucarea datelor statistice
Acesta este folosit pentru a dezvălui informații despre modele și tendințe dintr-un set de date fără a partaja detalii despre persoanele reale reprezentate acolo.
7 tehnici principale de mascare a datelor
Mai jos puteți găsi șapte dintre cele mai populare tehnici de mascare a datelor. Le puteți combina pentru a acoperi diferitele nevoi ale afacerii dvs.
- amestecând. Puteți amesteca și reatribui valorile datelor în cadrul aceluiași tabel. De exemplu, dacă amestecați coloana cu numele angajatului, veți obține datele personale reale ale unui angajat asociate cu altul.
- Scurtă. Rearanjează caracterele și numerele întregi ale unui câmp de date în ordine aleatorie. Dacă ID-ul inițial al unui angajat este 97489376, după aplicarea amestecării, veți primi ceva de genul 37798649. Acesta este limitat la anumite tipuri de date.
- Anularea. Aceasta este o strategie simplă de mascare în care unui câmp de date i se atribuie o valoare nulă. Această metodă are o utilizare limitată, deoarece tinde să eșueze logica aplicației.
- Substituţie. Datele originale sunt înlocuite cu valori false, dar realiste. Înseamnă că noua valoare trebuie încă să satisfacă toate constrângerile de domeniu. De exemplu, înlocuiți numărul cardului de credit al cuiva cu un alt număr care respectă regulile impuse de banca emitentă.
- Varianta numărului. Acest lucru este aplicabil în principal informațiilor financiare. Un exemplu este mascarea salariilor originale prin aplicarea unei variații de +/-20%.
- Îmbătrânirea datei. Această metodă mărește sau scade o dată cu un anumit interval, menținând că data rezultată satisface constrângerile aplicației. De exemplu, puteți îmbătrâni toate contractele cu 50 de zile.
- În medie. Implica înlocuirea tuturor valorilor originale ale datelor cu o medie. De exemplu, puteți înlocui fiecare câmp individual de salariu cu o medie a valorilor salariale din acest tabel.
Cum se implementează mascarea datelor în mod corect?
Iată planul dvs. de implementare a mascării datelor în 5 pași.
Pasul 1: Stabiliți scopul proiectului dvs
Înainte de a începe, va trebui să identificați aspectele pe care le veți acoperi. Iată o listă de întrebări tipice pe care echipa dvs. de date le poate studia înainte de a continua cu inițiativele de mascare:
- Ce date căutăm să mascăm?
- Unde locuiește?
- Cine este autorizat să-l acceseze?
- Care este nivelul de acces al fiecărui utilizator din cele de mai sus? Cine poate doar vizualiza și cine poate modifica și șterge valori?
- Ce aplicații folosesc aceste date sensibile?
- Ce impact va avea mascarea datelor asupra diferiților utilizatori?
- Ce nivel de mascare este necesar și cât de des va trebui să repetăm procesul?
- Căutăm să aplicăm mascarea datelor în întreaga organizație sau să o limităm la un anumit produs?
Pasul 2: Definiți teancul de tehnici de mascare a datelor
În timpul acestui pas, trebuie să identificați ce tehnică sau o combinație de instrumente de mascare a datelor sunt cele mai potrivite pentru sarcina în cauză.
În primul rând, trebuie să identificați tipurile de date pe care trebuie să le mascați, de exemplu, nume, date, date financiare etc., deoarece diferitele tipuri necesită algoritmi de mascare a datelor dedicați. Pe baza acestui lucru, dumneavoastră și furnizorul dvs. puteți alege ce bibliotecă(e) open-source pot fi reutilizate pentru a produce cea mai potrivită soluție de mascare a datelor. Vă sfătuim să apelați la un furnizor de software, deoarece acesta vă va ajuta să personalizați soluția și să o integrați fără durere în fluxurile dvs. de lucru din întreaga companie, fără a întrerupe niciun proces de afaceri. De asemenea, este posibil să construiți ceva de la zero pentru a acoperi nevoile unice ale companiei.
Există instrumente gata făcute de mascare a datelor pe care le puteți achiziționa și implementa singur, cum ar fi Oracle Data Masking, IRI FieldShield, DATPROF și multe altele. Puteți opta pentru această strategie dacă vă gestionați singur toate datele, înțelegeți cum funcționează diferitele fluxuri de date și aveți un departament IT care vă poate ajuta la integrarea acestei noi soluții de mascare a datelor în procesele existente, fără a împiedica productivitatea.
Pasul 3: Securizați algoritmii de mascare a datelor selectați
Securitatea datelor dvs. sensibile depinde în mare măsură de securitatea algoritmilor de generare a datelor false selectați. Prin urmare, numai personalul autorizat poate ști ce algoritmi de mascare a datelor sunt implementați, deoarece acești oameni pot face inginerie inversă a datelor mascate la setul de date original cu aceste cunoștințe. Este o practică bună să aplicați separarea sarcinilor. De exemplu, departamentul de securitate selectează algoritmii și instrumentele cele mai potrivite, în timp ce proprietarii de date mențin setările aplicate în mascarea datelor.
Pasul 4: Păstrați integritatea referențială
Integritatea referenţială înseamnă că fiecare tip de date din cadrul organizaţiei dumneavoastră este mascat în acelaşi mod. Aceasta poate fi o provocare dacă organizația dvs. este destul de mare și are mai multe funcții de afaceri și linii de produse. În acest caz, este probabil ca compania dumneavoastră să folosească diferiți algoritmi de mascare a datelor pentru diferite sarcini.

Pentru a depăși această problemă, identificați toate tabelele care conțin constrângeri referențiale și determinați în ce ordine veți masca datele, deoarece tabelele părinte ar trebui să fie mascate înaintea tabelelor secundare corespunzătoare. După finalizarea procesului de mascare, nu uitați să verificați dacă integritatea referențială a fost menținută.
Pasul 5: faceți procesul de mascare repetabil
Orice ajustare la un anumit proiect, sau doar schimbări generale în cadrul organizației dvs., pot avea ca rezultat modificarea datelor sensibile și crearea de noi surse de date, punând astfel necesitatea de a repeta procesul de mascare.
Există cazuri în care mascarea datelor poate fi un efort unic, cum ar fi în cazul pregătirii unui set de date de formare specializată care va fi utilizat timp de câteva luni pentru un proiect mic. Dar dacă îți dorești o soluție care să te servească pentru o perioadă lungă de timp, datele tale pot deveni învechite la un moment dat. Așadar, investiți timp și efort în formalizarea procesului de mascare pentru a-l face rapid, repetabil și cât mai automatizat posibil.
Dezvoltați un set de reguli de mascare, cum ar fi datele care trebuie mascate. Identificați orice excepții sau cazuri speciale pe care le puteți prevedea în acest moment. Achiziționați/construiți scripturi și instrumente automate pentru a aplica aceste reguli de mascare într-o manieră consecventă.
Lista dvs. de verificare pentru selectarea unei soluții de mascare a datelor
Indiferent dacă lucrați cu un furnizor de software la alegerea dvs. sau optați pentru o soluție gata făcută, produsul final trebuie să urmeze aceste bune practici de mascare a datelor:
- Fii nereversibil, ceea ce face imposibilă inginerie inversă a datelor false la valorile lor autentice
- Protejați integritatea bazei de date inițiale și nu o face inutilă făcând modificări permanente din greșeală
- Mascați datele nesensibile dacă acest lucru este necesar pentru a proteja informațiile sensibile
- Oferiți o oportunitate de automatizare, deoarece datele se vor schimba la un moment dat și nu doriți să începeți de la zero de fiecare dată
- Generați date realiste care mențin structura și distribuția datelor originale și satisfac constrângerile de afaceri
- Fiți scalabil pentru a găzdui orice surse de date suplimentare pe care doriți să le încorporați în afacerea dvs
- Respectă toate reglementările aplicabile, cum ar fi HIPAA și GDPR, și politicile tale interne
- Integrați-vă bine în sistemele și fluxurile de lucru existente
Provocări de mascare a datelor
Iată o listă cu provocările cu care te-ai putea confrunta în timpul implementării.
- Păstrarea formatului. Soluția de mascare trebuie să înțeleagă datele și să poată păstra formatul original.
- Conservarea genului. Metodologia de mascare a datelor selectată trebuie să fie conștientă de gen atunci când masca numele persoanelor. În caz contrar, distribuția de gen în setul de date va fi modificată.
- Integritate semantică. Valorile false generate trebuie să respecte regulile de afaceri care restricționează diferite tipuri de date. De exemplu, salariile trebuie să se încadreze într-un interval specific, iar numerele de securitate socială trebuie să urmeze un format predeterminat. Acest lucru este valabil și pentru menținerea distribuției geografice a datelor.
- Unicitatea datelor. Dacă datele originale trebuie să fie unice, cum ar fi un număr de identificare a unui angajat, tehnica de mascare a datelor trebuie să furnizeze o valoare unică.
- Echilibrarea securității și uzabilitatea. Dacă datele sunt mascate prea mult, pot deveni inutile. Pe de altă parte, dacă nu este suficient de protejat, utilizatorii pot obține acces neautorizat.
- Integrarea datelor în fluxurile de lucru existente ar putea fi foarte incomod pentru angajați la început, deoarece oamenii sunt obișnuiți să lucreze într-un anumit mod, care este în prezent perturbat.
Un exemplu de mascare a datelor din portofoliul ITRex
O organizație internațională de asistență medicală căuta să ascundă informațiile sensibile de identificare personală (PII) prezentate în mai multe formate și care locuiesc atât în medii de producție, cât și în afara producției. Ei au vrut să creeze un software de mascare a datelor bazat pe ML, care poate descoperi și ofusca PII în timp ce respectă politicile interne ale companiei, GDPR și alte reglementări privind confidențialitatea datelor.
Echipa noastră a observat imediat următoarele provocări:
- Clientul avea volume enorme de date, peste 10.000 de surse de date și multe fluxuri de date corespunzătoare
- Nu a existat o strategie clară de mascare a datelor care să acopere toate departamentele diferite
Datorită acestei varietăți mari, echipa noastră a dorit să vină cu un set de politici și procese care să ghideze diferiți proprietari de seturi de date despre cum să-și mascheze datele și să servească drept bază pentru soluția noastră. De exemplu, cineva ar putea veni cu lista de puncte de date pe care dorește să le ofusca o dată sau în mod continuu, iar soluția, ghidată de aceste principii, ar studia datele și ar selecta tehnicile de înfundare adecvate și le-ar aplica.
Am abordat acest proiect prin sondajul peisajului prin următoarele întrebări:
- Ce soluții de gestionare a datelor folosiți? Clientul folosea deja Informatica, așa că am mers cu asta. Soluția de mascare a datelor de la Informatica oferă caracteristici ieșite din cutie, care au satisfăcut unele dintre nevoile clientului, dar acest lucru nu a fost suficient pentru a acoperi toate cerințele.
- Ce tipuri de date sunteți dispus să mascați? Din cauza numărului mare de surse de date, a fost imposibil să abordăm totul deodată. Așadar, i-am cerut clientului să prioritizeze și să identifice ceea ce este esențial pentru misiune.
- Vrei să o faci o singură dată sau să faci un proces repetabil?
După ce am răspuns la aceste întrebări, am sugerat furnizarea de mascare a datelor ca serviciu, în principal pentru că clientul are prea multe surse de date pentru început și ar fi durat ani pentru a le acoperi pe toate.
În cele din urmă, am furnizat servicii de mascare a datelor cu ajutorul unui instrument personalizat bazat pe ML care poate efectua semi-automat mascarea datelor în patru pași:
- Identificați tipurile de date. Proprietarii de date își pun sursele de date în instrumentul de analiză care studiază datele coloanelor și dezvăluie tipurile de date pe care le-ar putea identifica în aceste coloane, cum ar fi adrese, numere de telefon etc. Un expert uman verifică rezultatele sale, permițându-i să învețe din greșeli. .
- Sugerați abordări de mascare pentru fiecare coloană și aplicați-le după aprobarea umană
- Implementați rezultatele. După ce datele mascate sunt generate, acestea trebuie să fie implementate. Am oferit mai multe opțiuni pentru stocarea datelor. Aceasta include, dar fără a se limita la utilizarea unei baze de date temporare care rămâne activă timp de câteva zile, alocarea unei locații permanente pentru mediile mascate, generarea de fișiere cu valori separate prin virgulă (CSV) și multe altele.
- Examinați și acordați o insignă de aprobare unui set de date sau unui set de medii ca dovadă că acestea sunt mascate în mod corespunzător și conforme
Această soluție de mascare a datelor a ajutat clientul să respecte GDPR, a redus dramatic timpul necesar pentru a forma medii non-producție și a redus costurile transferului de date din producție în sandbox.
Cum se păstrează datele mascate după implementare?
Eforturile tale nu se opresc atunci când datele confidențiale sunt mascate. Încă trebuie să-l menții în timp. Iată pașii care vă vor ajuta în această inițiativă:
- Stabiliți politici și proceduri care guvernează datele mascate. Aceasta include determinarea cine este autorizat să acceseze aceste date și în ce circumstanțe și în ce scopuri servesc aceste date (de exemplu, testare, raportare, cercetare etc.)
- Instruiți angajații despre cum să utilizeze și să protejeze aceste date
- Auditează și actualizează în mod regulat procesul de mascare pentru a te asigura că rămâne relevant
- Monitorizați datele mascate pentru orice activități suspecte, cum ar fi încercări de acces neautorizat și încălcări
- Efectuați copii de siguranță ale datelor mascate pentru a vă asigura că sunt recuperabile
Gânduri de încheiere
Mascarea datelor vă va proteja datele în medii care nu sunt de producție, vă va permite să partajați informații cu contractori terți și vă va ajuta să respectați. Puteți achiziționa și implementa singur o soluție de ofuscare a datelor dacă aveți un departament IT și controlați fluxurile de date. Cu toate acestea, rețineți că implementarea necorespunzătoare a mascării datelor poate duce la consecințe destul de neplăcute. Iată câteva dintre cele mai proeminente:
- Îngreunarea productivității. Tehnicile selectate de mascare a datelor pot cauza întârzieri mari inutile în procesarea datelor, încetinind astfel angajații.
- Devin vulnerabil la încălcarea datelor. Dacă metodele dvs. de mascare a datelor, sau lipsa acestora, nu reușesc să protejeze datele sensibile, vor exista consecințe financiare și juridice până la executarea pedepsei cu închisoarea.
- Obținerea de rezultate inexacte din analiza datelor. Acest lucru se poate întâmpla dacă datele sunt mascate incorect sau prea greu. Cercetătorii vor interpreta greșit setul de date experimentale și vor ajunge la concluzii greșite care vor duce la decizii de afaceri nefericite.
Prin urmare, dacă o companie nu are încredere în abilitățile sale de a executa inițiative de ofucare a datelor, cel mai bine este să contactați un furnizor extern care vă va ajuta să selectați tehnicile potrivite de mascare a datelor și să integreze produsul final în fluxurile dvs. de lucru cu întreruperi minime.
Rămâi protejat!
Luați în considerare implementarea unei soluții de mascare a datelor? Intrați în legătură! Vă vom ajuta să vă prioritizați datele, să construiți un instrument de ofuscare compatibil și să îl implementați fără a vă întrerupe procesele de afaceri.
Publicat inițial la https://itrexgroup.com pe 28 februarie 2023.