Perché è importante mappare le dipendenze dei dati e come farlo

Pubblicato: 2022-12-18

Nota del redattore: questo articolo è stato originariamente pubblicato sul blog di Iterativamente l'8 febbraio 2021.


Ad un certo punto, lavorerai con uno stack tecnologico disordinato e disorganizzato. Forse la tua organizzazione ha iniziato a utilizzare nuovi prodotti prima di considerare come interagivano con gli altri. Oppure hai ereditato il codice di qualcun altro. La mappatura delle dipendenze dei dati mostrerà a te e al tuo team come i dati fluiscono e interagiscono con i sistemi nel tuo stack.

Le aziende perdono denaro a causa della proliferazione dei dati e diventano più suscettibili alle vulnerabilità della sicurezza e alle normative costose.

Avere una mappa della dipendenza dai dati non solo ti aiuterà a comprendere meglio il tuo stack tecnologico, ma ti consentirà anche di prendere decisioni più informate in futuro.

Ecco cosa puoi fare per aiutare a ripulire le cose.

I vantaggi della mappatura delle dipendenze

All'inizio, potrebbe sembrare molto lavoro extra da configurare, e può esserlo, ma ci sono chiari motivi per cui dovresti creare una mappa delle dipendenze dei dati.

Le mappe di dipendenza dei dati offrono una visione olistica dei tuoi dati, consentendo ai team di dati di progettare piani di tracciamento migliori. Possono anche garantire che non interrompa nessuno dei sistemi di tracciamento quando il codice di analisi viene aggiornato o rimosso. Ciò è particolarmente importante quando si modifica il codice all'origine e le sue implicazioni sui sistemi a valle. Tenere traccia delle implicazioni che il cambiamento potrebbe avere sui sistemi dipendenti farà risparmiare tempo a te e al tuo team poiché puoi vedere dove i sistemi dipendenti potrebbero rompersi a causa delle modifiche.

Sembra fantastico, vero? Ci sono molti vantaggi che derivano dalla creazione di una mappa delle dipendenze dei dati.

Migliore comprensione dell'ambiente tecnologico

Una mappa ben progettata consente a chiunque di vedere facilmente come interagiscono i sistemi, aiutandoti a tracciare quali sistemi interagiscono con i dati e dove vanno i dati, passo dopo passo.

Questo aiuta anche nella pianificazione di prodotti o componenti futuri, poiché puoi vedere dove possono aiutare nell'integrazione o nella migrazione dei dati.

Precisione migliorata

La mappatura delle dipendenze dei dati ti aiuterà a mantenere l'accuratezza dei dati man mano che i dati si spostano dall'origine alla destinazione. E questo fa molto per creare fiducia nella qualità del tuo data center.

Fornendo al tuo team una visione completa della tua infrastruttura e delle tue dipendenze, puoi tenere traccia di come ciascun componente interagisce con gli altri.

È inoltre possibile utilizzare una mappa delle dipendenze dei dati per identificare le cause principali delle interruzioni dell'applicazione. Se riscontri un problema con un'applicazione, puoi iniziare da dove ha avuto origine e tornare indietro lungo la mappa per vedere se esiste una causa principale specifica. È nell'infrastruttura? Un applicazione? Una minaccia esterna?

Più facile identificare i rischi

La mappatura delle dipendenze dei dati offre agli utenti una chiara visibilità del tuo stack tecnologico, che può aiutare a determinare possibili punti di errore che mettono a rischio la tua attività. Se eseguita correttamente, la mappatura dei dati può essere uno strumento efficace per la tua organizzazione, poiché in genere aiuta un'azienda nelle seguenti aree:

  • Qualità dei dati: con l'aumentare del volume delle origini dati, la mappatura dei dati è più complessa che mai. La mappatura delle dipendenze dei dati colma il divario tra i modelli di dati, garantendo che i responsabili delle decisioni possano analizzare quando i dati vengono spostati all'interno dello stack.
  • Attacchi informatici e violazioni dei dati: poiché le aziende traggono informazioni dai dati, proteggere le informazioni degli utenti è diventato un must. Una mappa dei dati può aiutare un'organizzazione a identificare dove vengono archiviati, elaborati e trasmessi i set di dati chiave. Una volta che le organizzazioni lo hanno capito, possono adottare le misure necessarie per proteggere le informazioni sensibili dal finire nelle mani sbagliate.

Cosa considerare prima della mappatura delle dipendenze

Certo, puoi creare una mappa fisica con note adesive, ma ci sono molti strumenti digitali là fuori che possono aiutare te e il tuo team a creare una versione digitale. Ma prima di iniziare con la mappatura dei dati, ci sono due cose che dovresti considerare:

Innanzitutto, determinare la direzionalità della dipendenza

Quando si inizia con la mappatura delle dipendenze, è fondamentale sapere come le cose falliranno. Determinando dove le cose falliranno, identificherai le vulnerabilità all'interno del tuo stack. Quando puoi identificare i guasti più velocemente all'interno della tua organizzazione, puoi trovare il modo più rapido per risolvere il problema a portata di mano. Ciò non solo farà risparmiare tempo ai tuoi dipendenti, ma a lungo termine farà anche risparmiare denaro alla tua organizzazione.

Mantienilo semplice

Sebbene le mappe dei dati debbano essere complete per tenere conto di molte origini dati, non dovrebbero essere complicate da comprendere. Le mappe dei dati dovrebbero contenere informazioni rilevanti per la tua organizzazione ed essere aggiornate regolarmente, ma non è necessario esagerare durante la mappatura delle tue dipendenze. Una mappa dati complicata può essere più dannosa che utile per la tua organizzazione.

Una mappa dei dati dovrebbe essere abbastanza semplice da comprendere per un profano, quindi la prossima volta che si verifica un problema all'interno del tuo stack, un collega può facilmente trovare la radice del problema e risolverlo in un ragionevole lasso di tempo.

Le tre tecniche di mappatura delle dipendenze dei dati più comuni

Mentre la mappatura dei dati varia in base alla complessità dello stack tecnologico della tua organizzazione, queste tre tecniche di mappatura delle dipendenze dei dati sono le più comuni tra le aziende.

1. Mappatura manuale

La maggior parte dei sistemi di dati è cresciuta fino al punto in cui ora sono troppo complicati per essere monitorati manualmente. Tuttavia, la mappatura manuale è un ottimo punto di partenza se il tuo sistema di dati è piccolo e non ti aspetti che il tuo sistema cresca.

Con la mappatura manuale, gli sviluppatori utilizzano linguaggi come SQL, C++, XSLT e Java. Sebbene questa soluzione richieda molto lavoro iniziale, può essere eseguita, ma non sarà efficace quanto lo schema o la mappatura automatizzata.

2. Mappatura dello schema

Il software di mappatura dello schema confronta le origini dati con lo schema di destinazione, generando connessioni. Al termine, uno sviluppatore deve accedere manualmente al software e verificare che le informazioni siano corrette e apportare le modifiche necessarie.

Una volta completata la mappatura dei dati, il software genera il codice per caricare i dati. Questa viene spesso definita una strategia semi-automatica in quanto si basa sui team per ricontrollare il lavoro svolto dal software prima di andare avanti.

3. Mappatura automatizzata

Le soluzioni automatizzate sono diventate sempre più popolari poiché non richiedono esperienza di codifica. Questi utenti di software trascinano e rilasciano linee tra i database, semplificando la mappatura delle relazioni in un ragionevole lasso di tempo. Sebbene queste soluzioni svolgano la maggior parte del lavoro pesante, gli utenti farebbero comunque bene a verificare eventuali errori umani.

Strumenti per mappare le dipendenze dei dati

Fortunatamente, sono disponibili molti strumenti che possono aiutarti durante la mappatura delle tue dipendenze dai dati. Eccone alcuni che consigliamo:

  • Datafold: questa società di derivazione dei dati aiuta le aziende a visualizzare il proprio ecosistema di dati. Assicura alle aziende che una modifica allo schema di una tabella non influirà sulla funzionalità altrove. Sebbene l'azienda offra una versione gratuita per le aziende, la loro soluzione a pagamento offre vari vantaggi, tra cui l'integrazione di Slack e il supporto tramite chat dal vivo all'interno del prodotto.
  • Monte Carlo: una soluzione di derivazione dei dati completamente automatizzata che copre l'intero stack di dati, Monte Carlo avvisa la tua organizzazione quando i dati si interrompono. Ciò significa che puoi risolvere il problema prima che raggiunga l'utente finale. È una soluzione completamente automatizzata che copre l'intero stack di dati. Monte Carlo è una soluzione a pagamento che consente alle aziende di iniziare con una prova gratuita.
  • Datadog : lo strumento APM di Datadog consente alle organizzazioni di comprendere le dipendenze dei servizi monitorandole in tempo reale e avvisando gli utenti quando un sistema non funziona. L'azienda offre una prova gratuita per un massimo di 14 giorni.
  • Prometheus: questa soluzione open source consente di monitorare le prestazioni delle applicazioni. La soluzione è nota per la sua elevata affidabilità e operatività. Prometheus ti avviserà di eventuali cambiamenti importanti nel comportamento nelle tue applicazioni, in modo che tu possa immediatamente indagare sulla causa.

Perché la mappatura delle dipendenze dei dati potrebbe essere adatta a te

Qualsiasi azienda che sia veramente guidata dai dati dovrebbe mappare le proprie dipendenze dai dati. I dati mappati in modo inadeguato o non mappati del tutto porteranno a problemi a valle mentre i dati viaggiano da un capo all'altro all'interno dell'organizzazione. Mappare le dipendenze dei dati è un compito spaventoso per le aziende, soprattutto quando ti affidi ai dati per prendere decisioni aziendali informate.

Pensa di mappare le tue dipendenze dai dati come un'attività che in futuro ringrazierai in seguito. Non siamo perfetti: i dati sono destinati a rompersi a un certo punto, indipendentemente da quanto pensiamo impeccabile sia la nostra soluzione attuale, e sai una cosa? Va bene. Il processo di mappatura delle dipendenze dei dati assicurerà che quando i dati si rompono, non portino a un problema più grande lungo la linea. Prenditi il ​​tempo per mappare le tue dipendenze dai dati; ti farà risparmiare un sacco di tempo cercando quali altri sistemi sono stati interessati dal guasto. Se eseguita correttamente, la mappatura dei dati garantisce che i dati della tua organizzazione non siano solo corretti ma anche affidabili.

La tua organizzazione ha iniziato a mappare le tue dipendenze dai dati? Hai qualche lezione che vorresti condividere? Unisciti alla community di Amplitude.

Inizia con Amplitude