Pourquoi les équipes de données ont du mal à valider les données (et comment changer cela)

Publié: 2022-12-19

NDLR : cet article a été initialement publié sur le blog Iteratively le 18 décembre 2020.

Vous connaissez le vieux dicton, "Garbage in, garbage out"? Il y a de fortes chances que vous ayez déjà entendu cette phrase en rapport avec l'hygiène de vos données. Mais comment réparer les ordures que sont la mauvaise gestion et la mauvaise qualité des données ? Eh bien, c'est délicat. Surtout si vous ne contrôlez pas la mise en œuvre du code de suivi (comme c'est le cas avec de nombreuses équipes de données).

Cependant, ce n'est pas parce que les data leads ne possèdent pas leur pipeline, de la conception des données à la validation, que tout espoir est perdu. En tant que pont entre vos consommateurs de données (chefs de produit, équipes de produits et analystes, notamment) et vos producteurs de données (ingénieurs), vous pouvez aider à développer et à gérer la validation des données qui améliorera l'hygiène des données tout autour.

Avant d'entrer dans les détails, lorsque nous parlons de validation des données, nous faisons référence au processus et aux techniques qui aident les équipes de données à maintenir la qualité de leurs données.

Voyons maintenant pourquoi les équipes de données ont du mal avec cette validation et comment elles peuvent surmonter ses défis.

Premièrement, pourquoi les équipes de données ont-elles du mal à valider les données ?

Il existe trois principales raisons pour lesquelles les équipes de données ont du mal à valider les données pour l'analyse :

Souvent, ils ne sont pas directement impliqués dans la mise en œuvre du code de suivi des événements et du dépannage , ce qui laisse les équipes de données dans une position Il n'y a souvent pas de processus standardisés autour de la validation des données pour l'analyse , ce qui signifie que les tests sont à la merci de contrôles d'assurance qualité incohérents.
Les équipes de données et les ingénieurs s'appuient sur des techniques de validation réactives plutôt que sur des méthodes de validation proactives des données , ce qui n'empêche pas les principaux problèmes d'hygiène des données.

N'importe lequel de ces trois défis suffit à frustrer même le meilleur responsable des données (et l'équipe qui le soutient). Et il est logique de comprendre pourquoi : les données de mauvaise qualité ne sont pas seulement coûteuses : les mauvaises données coûtent en moyenne 3 000 milliards de dollars selon IBM. Et dans toute l'organisation, cela érode également la confiance dans les données elles-mêmes et fait perdre des heures de productivité aux équipes de données et aux ingénieurs pour éliminer les bogues.

La morale de l'histoire est? Personne ne gagne lorsque la validation des données est mise en veilleuse.

Heureusement, ces défis peuvent être surmontés grâce à de bonnes pratiques de validation des données. Examinons de plus près chaque point douloureux.

Les équipes de données ne contrôlent souvent pas la collecte de données elle-même

Comme nous l'avons dit plus haut, la principale raison pour laquelle les équipes de données ont du mal avec la validation des données est que ce ne sont pas elles qui effectuent l'instrumentation du suivi des événements en question (au mieux, elles peuvent voir qu'il y a un problème, mais elles ne peuvent pas le résoudre ).

Cela laisse aux analystes de données et aux chefs de produit, ainsi qu'à tous ceux qui cherchent à rendre leur prise de décision davantage axée sur les données, la tâche de démêler et de nettoyer les données après coup. Et personne - et nous voulons dire personne - n'apprécie de manière récréative la collecte de données.

Ce problème est particulièrement difficile à surmonter pour la plupart des équipes de données car peu de personnes sur la liste des données, en dehors des ingénieurs, ont les compétences techniques pour effectuer elles-mêmes la validation des données. Les silos organisationnels entre les producteurs de données et les consommateurs de données rendent ce problème encore plus sensible. Pour le soulager, les responsables de données doivent favoriser la collaboration entre équipes pour garantir des données propres.

Après tout, les données sont un sport d'équipe et vous ne gagnerez aucun match si vos joueurs ne peuvent pas se parler, s'entraîner ensemble ou réfléchir à de meilleurs jeux pour de meilleurs résultats.

L'instrumentation et la validation des données ne sont pas différentes. Vos consommateurs de données doivent travailler avec les producteurs de données pour mettre en place et appliquer des pratiques de gestion des données à la source, y compris des tests, qui détectent de manière proactive les problèmes avec les données avant que quiconque ne soit en service en aval.

Cela nous amène à notre point suivant.

Les équipes de données (et leurs organisations) n'ont souvent pas défini de processus autour de la validation des données pour l'analyse

Vos ingénieurs savent que tester le code est important. Tout le monde n'aime peut-être pas toujours le faire, mais s'assurer que votre application fonctionne comme prévu est un élément essentiel de la livraison de produits de qualité.

Il s'avère que s'assurer que le code d'analyse collecte et fournit les données d'événement comme prévu est également essentiel pour créer et itérer sur un excellent produit.

Alors, où est la déconnexion ? La pratique consistant à tester les données d'analyse est encore relativement nouvelle pour les équipes d'ingénierie et de données. Trop souvent, le code d'analyse est considéré comme un complément aux fonctionnalités, et non comme une fonctionnalité de base. Ceci, combiné à des pratiques de gouvernance des données médiocres, peut signifier qu'il est mis en œuvre sporadiquement à tous les niveaux (ou pas du tout).

En termes simples, cela est souvent dû au fait que les personnes extérieures à l'équipe des données ne comprennent pas encore à quel point les données d'événement sont précieuses pour leur travail quotidien. Ils ne savent pas que les données d'événement propres sont un arbre à argent dans leur arrière-cour, et qu'il leur suffit de l'arroser (de le valider) régulièrement pour gagner de l'argent.

Pour que chacun comprenne qu'il doit prendre soin de l'arbre financier que sont les données d'événement, les équipes de données doivent évangéliser toutes les façons dont des données bien validées peuvent être utilisées dans l'ensemble de l'organisation. Bien que les équipes de données puissent être limitées et cloisonnées au sein de leurs organisations, il appartient en fin de compte à ces champions des données de faire le travail pour briser les murs entre eux et les autres parties prenantes afin de s'assurer que les bons processus et outils sont en place pour améliorer la qualité des données.

Pour surmonter cet ouest sauvage de la gestion des données et assurer une bonne gouvernance des données, les équipes de données doivent créer des processus qui précisent quand, où et comment les données doivent être testées de manière proactive. Cela peut sembler décourageant, mais en réalité, les tests de données peuvent s'intégrer de manière transparente dans le cycle de vie de développement logiciel (SDLC), les outils et les pipelines CI/CD existants.
Des processus et des instructions clairs pour l'équipe de données qui conçoit la stratégie de données et l'équipe d'ingénierie qui met en œuvre et teste le code aideront chacun à comprendre les sorties et les entrées qu'ils doivent s'attendre à voir.

Les équipes de données et les ingénieurs s'appuient sur des techniques de test de données réactives plutôt que proactives
Dans presque tous les aspects de la vie, il vaut mieux être proactif que réactif. Cela sonne également vrai pour la validation des données pour l'analyse.
Mais de nombreuses équipes de données et leurs ingénieurs se sentent pris au piège des techniques réactives de validation des données. Sans une gouvernance des données, des outils et des processus solides qui facilitent les tests proactifs, le suivi des événements doit souvent être mis en œuvre et expédié rapidement pour être inclus dans une version (ou ajouté rétroactivement après une livraison). Celles-ci obligent les responsables de données et leurs équipes à utiliser des techniques telles que la détection d'anomalies ou la transformation de données après coup.

Non seulement cette approche ne résout pas le problème fondamental de vos mauvaises données, mais elle coûte aux ingénieurs de données des heures de leur temps à éliminer les bogues. Cela coûte également aux analystes des heures de leur temps à nettoyer les mauvaises données et coûte à l'entreprise la perte de revenus de toutes les améliorations de produits qui auraient pu se produire si les données étaient meilleures.
Plutôt que d'être dans un état constant de rattrapage des données, les responsables des données doivent aider à façonner les processus de gestion des données qui incluent des tests proactifs dès le début et des outils qui comportent des garde-fous, tels que la sécurité des types, pour améliorer la qualité des données et réduire les retouches en aval.

Alors, que sont les mesures proactives de validation des données ? Nous allons jeter un coup d'oeil.
Méthodes et techniques de validation des données
La validation proactive des données signifie adopter les bons outils et processus de test à chaque étape du pipeline de données :
Dans le client avec des outils comme Amplitude pour tirer parti de la sécurité des types, des tests unitaires et des tests A/B.
Dans le pipeline avec des outils comme Amplitude, Segment Protocols et le dépôt de schéma open source Iglu de Snowplow pour la validation de schéma, ainsi que d'autres outils pour les tests d'intégration et de composants, les tests de fraîcheur et les tests de distribution.
Dans l'entrepôt avec des outils tels que dbt, Dataform et Great Expectations pour tirer parti de la schématisation, des tests de sécurité, des tests de relation, des tests de fraîcheur et de distribution, et de la vérification de la plage et du type.
Lorsque les équipes de données maintiennent et appliquent activement des mesures proactives de validation des données, elles peuvent s'assurer que les données collectées sont utiles, claires et propres et que tous les détenteurs de données comprennent comment les conserver ainsi.
De plus, les défis liés à la collecte de données, aux processus et aux techniques de test peuvent être difficiles à surmonter seuls, il est donc important que les prospects brisent les silos organisationnels entre les équipes de données et les équipes d'ingénierie.
Comment améliorer la validation des données pour l'analyse
La première étape vers des pratiques de validation fonctionnelle des données pour l'analyse consiste à reconnaître que les données sont un sport d'équipe qui nécessite un investissement de la part des détenteurs de données à tous les niveaux, que ce soit vous, en tant que responsable des données, ou votre ingénieur individuel mettant en œuvre des lignes de code de suivi.
Tout le monde dans l'organisation bénéficie d'une bonne collecte et validation des données, du client à l'entrepôt.
Pour conduire cela, vous avez besoin de trois choses :
Direction descendante des responsables des données et de la direction de l'entreprise qui établit des processus de maintenance et d'utilisation des données dans l'ensemble de l'entreprise
Évangélisation des données à tous les niveaux de l'entreprise afin que chaque équipe comprenne comment les données les aident à mieux faire leur travail et comment des tests réguliers le soutiennent
Des workflows et des outils pour bien gouverner vos données , qu'il s'agisse d'un outil interne, d'un mix d'outils comme Segment Protocols ou Snowplow and dbt, ou encore mieux, intégré à votre plateforme Analytics comme Amplitude. Tout au long de chacune de ces étapes, il est également important que les responsables de données partagent les gains et progressent vers des données de qualité rapidement et souvent. Cette transparence aidera non seulement les consommateurs de données à voir comment ils peuvent mieux utiliser les données, mais aidera également les producteurs de données (par exemple, vos ingénieurs effectuant vos tests) à voir les fruits de leur travail. C'est un gagnant-gagnant.
Surmontez vos problèmes de validation des données
La validation des données est difficile pour les équipes de données car les consommateurs de données ne peuvent pas contrôler la mise en œuvre, les producteurs de données ne comprennent pas pourquoi la mise en œuvre est importante et les techniques de validation au coup par coup laissent tout le monde réagir aux mauvaises données plutôt que de les empêcher. Mais il ne doit pas en être ainsi.
Les équipes de données (et les ingénieurs qui les soutiennent) peuvent surmonter les problèmes de qualité des données en travaillant ensemble, en profitant des avantages interfonctionnels des bonnes données et en utilisant les excellents outils qui facilitent la gestion et les tests des données.