Cos'è il Data Masking e come implementarlo nel modo giusto?

Pubblicato: 2023-03-13

Le multe relative all'esposizione di dati sensibili sono in aumento. Ad esempio, gravi violazioni del GDPR possono costare alle aziende fino al 4% del loro fatturato globale annuo, mentre gravi violazioni HIPAA possono portare alla reclusione.

Il tuo ambiente di produzione potrebbe essere completamente protetto. Ma per quanto riguarda le iniziative di test e le dimostrazioni di vendita? Hai fiducia negli appaltatori di terze parti che hanno accesso ai tuoi dati sensibili? Faranno del loro meglio per proteggerlo?

Per garantire la conformità e la sicurezza dei dati, le aziende si rivolgono ai fornitori di servizi di gestione dei dati. Se anche tu sei interessato, dai un'occhiata a questa guida che risponde alle tre domande importanti:

  • Cos'è il mascheramento dei dati?
  • Perché e quando ne hai bisogno, e
  • In che modo la tua azienda potrebbe implementarlo con successo?

Presenta anche un esempio dettagliato di mascheramento dei dati dal nostro portfolio. Dopo aver letto l'articolo, avrai informazioni sufficienti per negoziare con i fornitori di data masking.

Comprensione del mascheramento dei dati

Quindi, cos'è il mascheramento dei dati?

Il mascheramento dei dati è definito come la costruzione di una versione realistica e strutturalmente simile, ma comunque falsa, dei dati organizzativi. Altera i valori dei dati originali utilizzando tecniche di manipolazione mantenendo lo stesso formato e fornisce una nuova versione che non può essere decodificata o ricondotta ai valori autentici. Ecco un esempio di dati mascherati:

Hai bisogno di applicare algoritmi di data masking a tutti i dati archiviati all'interno della tua azienda? Molto probabilmente no. Ecco i tipi di dati che devi assolutamente proteggere:

  • Le informazioni sanitarie protette (PHI) includono cartelle cliniche, test di laboratorio, informazioni sull'assicurazione medica e persino dati demografici.
  • Le informazioni sulle carte di pagamento sono correlate alle informazioni sulle carte di credito e di debito e ai dati delle transazioni ai sensi del Payment Card Industry Data Security Standard (PCI DSS).
  • Informazioni di identificazione personale (PII) , come passaporto e numeri di previdenza sociale. Fondamentalmente, qualsiasi informazione che può essere utilizzata per identificare una persona.
  • La proprietà intellettuale (PI) include invenzioni, come progetti o qualsiasi cosa che abbia valore per l'organizzazione e possa essere rubata.

Perché è necessario il mascheramento dei dati?

Il mascheramento dei dati protegge le informazioni sensibili utilizzate per scopi non produttivi. Quindi, fintanto che utilizzi uno qualsiasi dei tipi di dati sensibili presentati nella sezione precedente in formazione, test, dimostrazioni di vendita o qualsiasi altro tipo di attività non di produzione, devi applicare tecniche di mascheramento dei dati. Ciò ha senso in quanto gli ambienti non di produzione sono normalmente meno protetti e introducono più vulnerabilità di sicurezza.

Inoltre, se è necessario condividere i tuoi dati con fornitori e partner di terze parti, puoi concedere l'accesso ai dati mascherati invece di costringere l'altra parte a rispettare le tue ampie misure di sicurezza per accedere al database originale. Le statistiche mostrano che il 19% delle violazioni dei dati avviene a causa di compromessi da parte del partner commerciale.

Inoltre, il mascheramento dei dati può fornire i seguenti vantaggi:

  • Rende i dati organizzativi inutili ai criminali informatici nel caso in cui siano in grado di accedervi
  • Riduce i rischi posti dalla condivisione dei dati con utenti autorizzati e dai progetti di outsourcing
  • Aiuta a rispettare la privacy dei dati e le normative relative alla sicurezza, come il Regolamento generale sulla protezione dei dati (GDPR), l'Health Insurance Portability and Accountability Act (HIPAA) e qualsiasi altra normativa applicabile nel proprio campo
  • Protegge i dati in caso di cancellazione, poiché i metodi convenzionali di cancellazione dei file lasciano ancora traccia dei vecchi valori dei dati
  • Salvaguarda i tuoi dati in caso di trasferimento di dati non autorizzato

Tipi di mascheramento dei dati

Esistono cinque tipi principali di mascheramento dei dati che mirano a coprire diverse esigenze organizzative.

1. Mascheratura dati statici

Ciò implica la creazione di un backup dei dati originali e la loro conservazione al sicuro in un ambiente separato per i casi d'uso di produzione. Quindi maschera la copia includendo valori falsi ma realistici e la rende disponibile per scopi non di produzione (ad esempio, test, ricerca), oltre che per la condivisione con gli appaltatori.

2. Mascheratura dinamica dei dati

Mira a modificare un estratto dei dati originali in fase di esecuzione quando si riceve una query nel database. Pertanto, un utente che non è autorizzato a visualizzare informazioni riservate interroga il database di produzione e la risposta viene mascherata al volo senza modificare i valori originali. Puoi implementarlo tramite proxy database, come presentato di seguito. Questo tipo di mascheramento dei dati viene normalmente utilizzato nelle impostazioni di sola lettura per impedire la sovrascrittura dei dati di produzione.

3. Mascheramento dei dati al volo

Questo tipo di mascheramento dei dati maschera i dati durante il trasferimento da un ambiente a un altro, ad esempio dalla produzione al test. È popolare tra le organizzazioni che distribuiscono continuamente software ed eseguono integrazioni di dati di grandi dimensioni.

4. Mascheramento deterministico dei dati

Sostituisce i dati della colonna con lo stesso valore fisso. Ad esempio, se vuoi sostituire “Olivia” con “Emma”, devi farlo in tutte le tabelle associate, non solo nella tabella che stai attualmente mascherando.

5. Offuscamento dei dati statistici

Questo viene utilizzato per rivelare informazioni su modelli e tendenze in un set di dati senza condividere alcun dettaglio sulle persone reali rappresentate lì.

7 principali tecniche di mascheramento dei dati

Di seguito puoi trovare sette delle tecniche di mascheramento dei dati più popolari. Puoi combinarli per coprire le varie esigenze della tua attività.

  1. Mescolare. Puoi mescolare e riassegnare i valori dei dati all'interno della stessa tabella. Ad esempio, se mescoli la colonna del nome del dipendente, otterrai i dettagli personali reali di un dipendente abbinato a un altro.
  2. Rimescolare. Riordina caratteri e numeri interi di un campo dati in ordine casuale. Se l'ID originale di un dipendente è 97489376, dopo aver applicato lo shuffle, riceverai qualcosa come 37798649. Questo è limitato a tipi di dati specifici.
  3. Annullare. Questa è una semplice strategia di mascheramento in cui a un campo dati viene assegnato un valore nullo. Questo metodo ha un utilizzo limitato in quanto tende a fallire la logica dell'applicazione.
  4. Sostituzione. I dati originali sono sostituiti da valori falsi, ma realistici. Ciò significa che il nuovo valore deve ancora soddisfare tutti i vincoli del dominio. Ad esempio, sostituisci il numero della carta di credito di qualcuno con un altro numero conforme alle regole applicate dalla banca emittente.
  5. Varianza numerica. Questo è principalmente applicabile alle informazioni finanziarie. Un esempio è mascherare gli stipendi originali applicando una varianza del +/-20%.
  6. Data di invecchiamento. Questo metodo aumenta o diminuisce una data di un intervallo specifico, mantenendo che la data risultante soddisfi i vincoli dell'applicazione. Ad esempio, puoi far scadere tutti i contratti di 50 giorni.
  7. Media. Implica la sostituzione di tutti i valori dei dati originali con una media. Ad esempio, puoi sostituire ogni singolo campo dello stipendio con una media dei valori dello stipendio in questa tabella.

Come implementare il mascheramento dei dati nel modo giusto?

Ecco il tuo piano di implementazione del mascheramento dei dati in 5 fasi.

Passaggio 1: determina l'ambito del tuo progetto

Prima di iniziare, dovrai identificare quali aspetti coprirai. Ecco un elenco di domande tipiche che il tuo team di dati può studiare prima di procedere con le iniziative di mascheramento:

  • Quali dati stiamo cercando di mascherare?
  • Dove risiede?
  • Chi è autorizzato ad accedervi?
  • Qual è il livello di accesso di ciascun utente di cui sopra? Chi può solo visualizzare e chi può modificare e cancellare i valori?
  • Quali applicazioni utilizzano questi dati sensibili?
  • Quale impatto avrà il data masking sui diversi utenti?
  • Quale livello di mascheramento è richiesto e quanto spesso dovremo ripetere il processo?
  • Stiamo cercando di applicare il data masking all'intera organizzazione o di limitarlo a un prodotto specifico?

Passaggio 2: definire lo stack di tecniche di mascheramento dei dati

Durante questa fase, è necessario identificare quale tecnica o una combinazione di strumenti di mascheramento dei dati è la soluzione migliore per l'attività da svolgere.

Prima di tutto, devi identificare quali tipi di dati devi mascherare, ad esempio nomi, date, dati finanziari, ecc., poiché tipi diversi richiedono algoritmi di mascheramento dei dati dedicati. Sulla base di ciò, tu e il tuo fornitore potete scegliere quali librerie open source possono essere riutilizzate per produrre la soluzione di mascheramento dei dati più adatta. Ti consigliamo di rivolgerti a un fornitore di software, in quanto ti aiuterà a personalizzare la soluzione e a integrarla in modo indolore nei tuoi flussi di lavoro in tutta l'azienda senza interrompere alcun processo aziendale. Inoltre, è possibile costruire qualcosa da zero per coprire le esigenze specifiche dell'azienda.

Esistono strumenti di mascheramento dei dati già pronti che puoi acquistare e distribuire tu stesso, come Oracle Data Masking, IRI FieldShield, DATPROF e molti altri. Puoi optare per questa strategia se gestisci tutti i tuoi dati da solo, comprendi come funzionano i diversi flussi di dati e disponi di un reparto IT che può aiutarti a integrare questa nuova soluzione di mascheramento dei dati nei processi esistenti senza ostacolare la produttività.

Passaggio 3: proteggere gli algoritmi di mascheramento dei dati selezionati

La sicurezza dei tuoi dati sensibili dipende in gran parte dalla sicurezza degli algoritmi di generazione di dati falsi selezionati. Pertanto, solo il personale autorizzato può sapere quali algoritmi di mascheramento dei dati vengono implementati, in quanto queste persone possono eseguire il reverse engineering dei dati mascherati nel set di dati originale con questa conoscenza. È buona prassi applicare la separazione dei compiti. Ad esempio, il dipartimento di sicurezza seleziona gli algoritmi e gli strumenti più adatti, mentre i proprietari dei dati mantengono le impostazioni applicate nel mascherare i propri dati.

Passaggio 4: preservare l'integrità referenziale

Integrità referenziale significa che ogni tipo di dati all'interno dell'organizzazione è mascherato allo stesso modo. Questa può essere una sfida se la tua organizzazione è piuttosto grande e ha diverse funzioni aziendali e linee di prodotti. In questo caso è probabile che la tua azienda utilizzi diversi algoritmi di mascheramento dei dati per varie attività.

Per superare questo problema, identifica tutte le tabelle che contengono vincoli referenziali e determina in quale ordine mascherare i dati poiché le tabelle padre devono essere mascherate prima delle corrispondenti tabelle figlio. Dopo aver completato il processo di mascheramento, non dimenticare di controllare se l'integrità referenziale è stata mantenuta.

Passaggio 5: rendere ripetibile il processo di mascheratura

Qualsiasi adeguamento a un particolare progetto, o solo modifiche generali all'interno dell'organizzazione, può comportare la modifica dei dati sensibili e la creazione di nuove origini dati, ponendo la necessità di ripetere il processo di mascheramento.

Ci sono casi in cui il mascheramento dei dati può essere uno sforzo una tantum, come nel caso della preparazione di un set di dati di addestramento specializzato che verrà utilizzato per alcuni mesi per un piccolo progetto. Ma se vuoi una soluzione che ti serva per un tempo prolungato, i tuoi dati possono diventare obsoleti a un certo punto. Quindi, investite tempo e impegno nella formalizzazione del processo di mascheratura per renderlo veloce, ripetibile e il più automatizzato possibile.

Sviluppa una serie di regole di mascheramento, ad esempio quali dati devono essere mascherati. Identifica eventuali eccezioni o casi speciali che puoi prevedere a questo punto. Acquisisci/crea script e strumenti automatizzati per applicare queste regole di mascheramento in modo coerente.

La tua lista di controllo per selezionare una soluzione di mascheramento dei dati

Sia che tu lavori con un fornitore di software di tua scelta o opti per una soluzione già pronta, il prodotto finale deve seguire queste best practice di mascheramento dei dati:

  • Essere irreversibile, rendendo impossibile il reverse engineering dei dati falsi ai loro valori autentici
  • Proteggi l'integrità del database originale e non renderlo inutile apportando modifiche permanenti per errore
  • Maschera i dati non sensibili se ciò è necessario per proteggere le informazioni sensibili
  • Fornisci un'opportunità per l'automazione, poiché i dati cambieranno a un certo punto e non vuoi ricominciare da zero ogni volta
  • Genera dati realistici che mantengono la struttura e la distribuzione dei dati originali e soddisfano i vincoli aziendali
  • Sii scalabile per accogliere eventuali origini dati aggiuntive che desideri incorporare nella tua attività
  • Conforme a tutte le normative applicabili, come HIPAA e GDPR, e alle tue politiche interne
  • Integrarsi bene nei sistemi e nei flussi di lavoro esistenti

Sfide di mascheramento dei dati

Di seguito è riportato un elenco delle sfide che potresti incontrare durante l'implementazione.

  • Conservazione del formato. La soluzione di mascheramento deve comprendere i dati ed essere in grado di preservarne il formato originale.
  • Conservazione del genere. La metodologia di mascheramento dei dati selezionata deve essere consapevole del genere quando si mascherano i nomi delle persone. In caso contrario, la distribuzione di genere all'interno del set di dati verrà modificata.
  • Integrità semantica. I valori falsi generati devono seguire le regole aziendali che limitano diversi tipi di dati. Ad esempio, gli stipendi devono rientrare in un intervallo specifico ei numeri di previdenza sociale devono seguire un formato predeterminato. Ciò vale anche per il mantenimento della distribuzione geografica dei dati.
  • Unicità dei dati. Se i dati originali devono essere univoci, come un numero ID dipendente, la tecnica di mascheramento dei dati deve fornire un valore univoco.
  • Bilanciare sicurezza e usabilità. Se i dati sono mascherati troppo pesantemente, possono diventare inutili. D'altra parte, se non è sufficientemente protetto, gli utenti possono ottenere un accesso non autorizzato.
  • L'integrazione dei dati nei flussi di lavoro esistenti potrebbe essere molto scomoda per i dipendenti all'inizio, poiché le persone sono abituate a lavorare in un certo modo, che attualmente viene interrotto.

Un esempio di mascheramento dei dati dal portafoglio ITRex

Un'organizzazione sanitaria internazionale stava cercando di oscurare le informazioni sensibili di identificazione personale (PII) presentate in più formati e che risiedono in ambienti sia di produzione che non di produzione. Voleva creare un software di mascheramento dei dati basato sul machine learning in grado di rilevare e offuscare le informazioni personali nel rispetto delle politiche interne dell'azienda, del GDPR e di altre normative sulla privacy dei dati.

Il nostro team ha immediatamente notato le seguenti sfide:

  • Il cliente disponeva di enormi volumi di dati, oltre 10.000 origini dati e molti flussi di dati corrispondenti
  • Non esisteva una chiara strategia di mascheramento dei dati che coprisse tutti i diversi reparti

A causa di questa grande varietà, il nostro team ha voluto elaborare una serie di politiche e processi che guidassero i diversi proprietari di set di dati su come mascherare i propri dati e fungessero da base per la nostra soluzione. Ad esempio, qualcuno potrebbe venire con l'elenco dei punti dati che desidera offuscare una volta o continuamente e la soluzione, guidata da questi principi, studierebbe i dati e selezionerebbe tecniche di offuscamento appropriate e le applicherebbe.

Ci siamo avvicinati a questo progetto rilevando il paesaggio attraverso le seguenti domande:

  • Quali soluzioni di gestione dei dati stai utilizzando? Il cliente utilizzava già Informatica, quindi abbiamo scelto quello. La soluzione di data masking di Informatica offre funzionalità pronte all'uso, che soddisfacevano alcune delle esigenze del cliente, ma non erano sufficienti a coprire tutti i requisiti.
  • Quali tipi di dati sei disposto a mascherare? A causa dell'elevato numero di fonti di dati, era impossibile affrontare tutto in una volta. Quindi, abbiamo chiesto al cliente di stabilire le priorità e identificare ciò che era mission-critical.
  • Vuoi farlo una volta o renderlo un processo ripetibile?

Dopo aver risposto a queste domande, abbiamo suggerito di fornire il mascheramento dei dati come servizio principalmente perché il cliente ha troppe fonti di dati per cominciare e potrebbero essere stati necessari anni per coprirle tutte.

Alla fine, abbiamo fornito servizi di mascheramento dei dati con l'aiuto di uno strumento personalizzato basato su ML in grado di eseguire in modo semiautomatico il mascheramento dei dati in quattro passaggi:

  1. Identificare i tipi di dati. I proprietari dei dati inseriscono le loro fonti di dati nello strumento di analisi che studia i dati delle colonne e rivela i tipi di dati che potrebbe identificare in queste colonne, come indirizzi, numeri di telefono, ecc. Un esperto umano ne verifica l'output, permettendogli di imparare dagli errori .
  2. Suggerisci approcci di mascheramento per ogni colonna e applicali dopo l'approvazione umana
  3. Distribuisci i risultati. Dopo che i dati mascherati sono stati generati, devono essere distribuiti. Abbiamo fornito più opzioni per l'archiviazione dei dati. Ciò include, a titolo esemplificativo ma non esaustivo, l'utilizzo di un database temporaneo che rimane attivo per diversi giorni, l'assegnazione di una posizione permanente per gli ambienti mascherati, la generazione di file con valori separati da virgola (CSV) e altro ancora.
  4. Esamina e assegna un badge di approvazione a un set di dati o a un set di ambienti come prova che sono adeguatamente mascherati e conformi

Questa soluzione di mascheramento dei dati ha aiutato il cliente a conformarsi al GDPR, ha ridotto drasticamente il tempo necessario per creare ambienti non di produzione e ha abbassato i costi di trasferimento dei dati dalla produzione alla sandbox.

Come mantenere i dati mascherati dopo l'implementazione?

I tuoi sforzi non si fermano quando i dati riservati vengono mascherati. Devi comunque mantenerlo nel tempo. Ecco i passaggi che ti aiuteranno in questa iniziativa:

  • Stabilire politiche e procedure che regolano i dati mascherati. Ciò include la determinazione di chi è autorizzato ad accedere a questi dati e in quali circostanze e a quali scopi servono questi dati (ad esempio, test, rapporti, ricerca, ecc.)
  • Formare i dipendenti su come utilizzare e proteggere questi dati
  • Controlla e aggiorna regolarmente il processo di mascheramento per assicurarti che rimanga pertinente
  • Monitora i dati mascherati per eventuali attività sospette, come tentativi di accesso non autorizzato e violazioni
  • Esegui backup mascherati dei dati per assicurarti che siano recuperabili

Pensieri conclusivi

Il data masking proteggerà i tuoi dati in ambienti non di produzione, ti consentirà di condividere informazioni con appaltatori di terze parti e ti aiuterà con la conformità. Puoi acquistare e distribuire tu stesso una soluzione di offuscamento dei dati se disponi di un reparto IT e controlli i tuoi flussi di dati. Tuttavia, tieni presente che l'implementazione impropria del mascheramento dei dati può portare a conseguenze piuttosto spiacevoli. Ecco alcuni dei più importanti:

  • Ostacolo alla produttività. Le tecniche di mascheramento dei dati selezionate possono causare grandi ritardi non necessari nell'elaborazione dei dati, rallentando così i dipendenti.
  • Diventare vulnerabili alle violazioni dei dati. Se i tuoi metodi di mascheramento dei dati, o la loro mancanza, non riescono a proteggere i dati sensibili, ci saranno conseguenze finanziarie e legali fino alla pena detentiva.
  • Derivazione di risultati imprecisi dall'analisi dei dati. Ciò può accadere se i dati vengono mascherati in modo errato o troppo pesante. I ricercatori interpreteranno erroneamente il set di dati sperimentali e raggiungeranno conclusioni errate che porteranno a decisioni aziendali sfortunate.

Pertanto, se un'azienda non è sicura delle proprie capacità di eseguire iniziative di offuscamento dei dati, è meglio contattare un fornitore esterno che aiuterà a selezionare le giuste tecniche di mascheramento dei dati e ad integrare il prodotto finale nei flussi di lavoro con interruzioni minime.

Rimani protetto!

Considerando l'implementazione di una soluzione di mascheramento dei dati? Contattaci! Ti aiuteremo a dare la priorità ai tuoi dati, creare uno strumento di offuscamento conforme e implementarlo senza interrompere i tuoi processi aziendali.


Originariamente pubblicato su https://itrexgroup.com il 28 febbraio 2023.