Pourquoi il est important de cartographier les dépendances des données et comment y parvenir

Publié: 2022-12-18

NDLR : cet article a été initialement publié sur le blog Iteratively le 8 février 2021.


À un moment donné, vous travaillerez avec une pile technologique désordonnée et désorganisée. Peut-être que votre organisation a commencé à utiliser de nouveaux produits avant de considérer comment ils interagissaient avec les autres. Ou vous avez hérité du code de quelqu'un d'autre. La cartographie des dépendances de données vous montrera, à vous et à votre équipe, comment les données circulent et interagissent avec les systèmes de votre pile.

Les entreprises perdent de l'argent à cause de la prolifération des données et deviennent plus sensibles aux failles de sécurité et aux réglementations coûteuses.

Avoir une carte de dépendance des données vous aidera non seulement à mieux comprendre votre pile technologique, mais vous permettra également de prendre des décisions plus éclairées à l'avenir.

Voici ce que vous pouvez faire pour aider à nettoyer les choses.

Les avantages de la cartographie des dépendances

Au début, cela peut sembler beaucoup de travail supplémentaire à configurer, et cela peut l'être, mais il existe des raisons claires pour lesquelles vous devriez créer une carte de dépendance des données.

Les cartes de dépendance des données offrent une vue globale de vos données, permettant aux équipes de données de concevoir de meilleurs plans de suivi. Ils peuvent également s'assurer qu'il ne cassera aucun des systèmes de suivi lorsque le code d'analyse est mis à jour ou supprimé. Ceci est particulièrement important lorsque vous modifiez le code à la source et ses implications sur les systèmes en aval. Le suivi des implications que le changement pourrait avoir sur les systèmes dépendants vous fera gagner du temps, à vous et à votre équipe, car vous pouvez voir où les systèmes dépendants pourraient tomber en panne en raison des changements.

Ça sonne bien, non ? La création d'une carte de dépendance des données présente de nombreux avantages.

Meilleure compréhension de l'environnement technologique

Une carte bien conçue permet à quiconque de voir facilement comment les systèmes interagissent, vous aidant à suivre les systèmes qui interagissent avec les données et où vont les données, étape par étape.

Cela aide également à planifier les futurs produits ou composants, car vous pouvez voir où ils peuvent aider à l'intégration ou à la migration des données.

Précision améliorée

La cartographie de vos dépendances de données vous aidera à maintenir l'exactitude des données à mesure que ces données se déplacent de la source à la destination. Et cela contribue grandement à renforcer la confiance dans la qualité de votre centre de données.

En donnant à votre équipe une vue complète de votre infrastructure et de vos dépendances, vous pouvez suivre le fonctionnement de chaque composant avec les autres.

Vous pouvez également utiliser une carte de dépendance des données pour identifier les causes profondes des interruptions d'application. Si vous rencontrez un problème avec une application, vous pouvez commencer à partir de son point d'origine et revenir en arrière sur la carte pour voir s'il existe une cause profonde spécifique. Est-ce dans l'infrastructure? Une application? Une menace extérieure ?

Identification plus facile des risques

La cartographie de vos dépendances de données donne aux utilisateurs une visibilité claire sur votre pile technologique, ce qui peut aider à déterminer les points de défaillance possibles qui mettent votre entreprise en danger. S'il est effectué correctement, le mappage des données peut être un outil efficace pour votre organisation, car il aide généralement une entreprise dans les domaines suivants :

  • Qualité des données : à mesure que le volume des sources de données augmente, la cartographie des données est plus complexe que jamais. La cartographie des dépendances de données comble l'écart entre les modèles de données, garantissant que les décideurs peuvent analyser le moment où les données sont déplacées dans votre pile.
  • Cyberattaques et violations de données : alors que les entreprises tirent des informations des données, la protection des informations des utilisateurs est devenue un must. Une carte de données peut aider une organisation à identifier où les ensembles de données clés sont stockés, traités et transmis. Une fois que les organisations ont compris cela, elles peuvent prendre les mesures nécessaires pour empêcher que les informations sensibles ne se retrouvent entre de mauvaises mains.

Éléments à prendre en compte avant la cartographie des dépendances

Bien sûr, vous pouvez créer une carte physique avec des notes autocollantes, mais il existe de nombreux outils numériques qui peuvent vous aider, vous et votre équipe, à créer une version numérique. Mais avant de vous lancer dans le mappage de données, vous devez prendre en compte deux éléments :

Tout d'abord, déterminez la directionnalité de la dépendance

Lorsque vous commencez avec la cartographie des dépendances, il est crucial de savoir comment les choses vont échouer. En déterminant où les choses vont échouer, vous identifiez les vulnérabilités au sein de votre pile. Lorsque vous pouvez identifier les défaillances plus rapidement au sein de votre organisation, vous pouvez trouver le moyen le plus rapide de résoudre le problème en question. Cela permettra non seulement de faire gagner du temps à vos employés, mais également d'économiser de l'argent à votre organisation à long terme.

Rester simple

Bien que les cartes de données doivent être complètes pour tenir compte de nombreuses sources de données, elles ne doivent pas être compliquées à comprendre. Les cartes de données doivent contenir des informations pertinentes pour votre organisation et être mises à jour régulièrement, mais il n'est pas nécessaire d'aller trop loin lors de la cartographie de vos dépendances. Une carte de données compliquée peut être plus nuisible qu'utile pour votre organisation.

Une carte de données doit être suffisamment simple à comprendre pour un profane. Ainsi, la prochaine fois qu'il y aura un problème dans votre pile, un collègue pourra facilement trouver la racine du problème et le résoudre dans un délai raisonnable.

Les trois techniques de mappage de dépendance de données les plus courantes

Bien que la cartographie des données varie en fonction de la complexité de la pile technologique de votre organisation, ces trois techniques de cartographie de la dépendance des données sont les plus courantes parmi les entreprises.

1. Cartographie manuelle

La plupart des systèmes de données ont atteint un point tel qu'ils sont désormais trop compliqués pour être suivis manuellement. Cependant, le mappage manuel est un excellent point de départ si votre système de données est petit et que vous ne vous attendez pas à ce que votre système se développe.

Avec le mappage manuel, les développeurs utilisent des langages tels que SQL, C++, XSLT et Java. Bien que cette solution nécessite beaucoup de travail en amont, elle peut être réalisée, mais elle ne sera pas aussi efficace que le schéma ou le mappage automatisé.

2. Mappage de schéma

Le logiciel de mappage de schéma compare les sources de données au schéma cible, générant des connexions. Une fois cette opération terminée, un développeur doit accéder manuellement au logiciel et vérifier que les informations sont correctes et apporter les modifications nécessaires.

Une fois la carte de données terminée, le logiciel génère du code pour charger les données. Ceci est souvent appelé une stratégie semi-automatisée car elle repose sur des équipes pour revérifier le travail effectué par le logiciel avant d'aller de l'avant.

3. Cartographie automatisée

Les solutions automatisées sont devenues de plus en plus populaires car elles ne nécessitent aucune expérience de codage. Ces utilisateurs de logiciels font glisser et déposent des lignes entre les bases de données, ce qui facilite la cartographie des relations dans un délai raisonnable. Bien que ces solutions effectuent la majeure partie du travail lourd, les utilisateurs feraient toujours bien de vérifier toute erreur humaine.

Outils de cartographie des dépendances de données

Heureusement, il existe de nombreux outils disponibles qui peuvent vous aider à cartographier vos dépendances de données. En voici quelques-unes que nous recommandons :

  • Datafold : cette société de lignée de données aide les entreprises à visualiser leur écosystème de données. Il garantit aux entreprises qu'une modification du schéma d'une table n'affectera pas les fonctionnalités ailleurs. Bien que la société propose une version gratuite pour les entreprises, sa solution payante offre divers avantages, notamment l'intégration de Slack et une assistance par chat en direct dans le produit.
  • Monte Carlo : une solution de lignage des données entièrement automatisée qui couvre l'ensemble de votre pile de données, Monte Carlo alerte votre organisation en cas de rupture de données. Cela signifie que vous pouvez résoudre le problème avant qu'il n'atteigne l'utilisateur final. Il s'agit d'une solution entièrement automatisée qui couvre l'ensemble de votre pile de données. Monte Carlo est une solution payante qui permet aux entreprises de commencer par un essai gratuit.
  • Datadog : L'outil APM de Datadog permet aux organisations de comprendre les dépendances de service tout en les surveillant en temps réel et en alertant les utilisateurs lorsqu'un système est en panne. La société propose un essai gratuit jusqu'à 14 jours.
  • Prometheus : cette solution open source vous permet de surveiller les performances des applications. La solution est connue pour sa grande fiabilité et sa disponibilité. Prometheus vous alertera de tout changement majeur de comportement dans vos applications, afin que vous puissiez immédiatement en rechercher la cause.

Pourquoi la cartographie de la dépendance des données pourrait vous convenir

Toute entreprise véritablement axée sur les données devrait cartographier ses dépendances aux données. Les données mal cartographiées ou pas cartographiées du tout finiront par entraîner des problèmes en aval, car les données voyagent de bout en bout au sein de votre organisation. Cartographier vos dépendances de données est une tâche effrayante pour les entreprises, en particulier lorsque vous vous fiez aux données pour prendre des décisions commerciales éclairées.

Pensez à cartographier vos dépendances de données comme une tâche que l'avenir vous remerciera plus tard. Nous ne sommes pas parfaits - les données sont vouées à se casser à un moment donné, peu importe à quel point nous pensons que notre solution actuelle est parfaite, et vous savez quoi ? C'est bon. Le processus de cartographie de vos dépendances de données garantira que lorsque les données se cassent, cela ne conduit pas à un problème plus important sur toute la ligne. Prenez le temps de cartographier vos dépendances de données ; cela vous fera gagner beaucoup de temps à rechercher quels autres systèmes ont été affectés par la panne. Lorsqu'il est effectué correctement, le mappage des données garantit que les données de votre organisation sont non seulement correctes mais également fiables.

Votre organisation a-t-elle commencé à cartographier vos dépendances de données ? Avez-vous des leçons que vous aimeriez partager? Rejoignez la communauté Amplitude.

Démarrer avec Amplitude