Warum Datenteams mit der Datenvalidierung kämpfen (und wie man das ändert)
Veröffentlicht: 2022-12-19Anmerkung der Redaktion: Dieser Artikel wurde ursprünglich am 18. Dezember 2020 im Iteratively-Blog veröffentlicht.
Kennen Sie das alte Sprichwort „Müll rein, Müll raus“? Wahrscheinlich haben Sie diesen Satz im Zusammenhang mit Ihrer Datenhygiene schon einmal gehört. Aber wie behebt man den Müll, der aus schlechtem Datenmanagement und schlechter Qualität besteht? Nun, es ist schwierig. Vor allem, wenn Sie keine Kontrolle über die Implementierung des Tracking-Codes haben (wie es bei vielen Datenteams der Fall ist).
Nur weil Datenleads ihre Pipeline vom Datendesign bis zum Commit nicht besitzen, heißt das jedoch nicht, dass alle Hoffnung verloren ist. Als Brücke zwischen Ihren Datenkonsumenten (insbesondere Produktmanager, Produktteams und Analysten) und Ihren Datenproduzenten (Ingenieuren) können Sie bei der Entwicklung und Verwaltung von Datenvalidierungen helfen, die die Datenhygiene rundum verbessern.
Bevor wir ins Unkraut kommen, wenn wir von Datenvalidierung sprechen, beziehen wir uns auf den Prozess und die Techniken, die Datenteams dabei helfen, die Qualität ihrer Daten aufrechtzuerhalten.
Sehen wir uns nun an, warum Datenteams mit dieser Validierung zu kämpfen haben und wie sie diese Herausforderungen meistern können.
Erstens, warum haben Datenteams Probleme mit der Datenvalidierung?
Es gibt drei Hauptgründe, warum Datenteams mit der Datenvalidierung für Analysen zu kämpfen haben:
- Sie sind oft nicht direkt an der Implementierung des Ereignisverfolgungscodes und der Fehlerbehebung beteiligt, sodass Datenteams eher in einer Es gibt oft keine standardisierten Prozesse rund um die Datenvalidierung für Analysen , was bedeutet, dass das Testen uneinheitlichen QA-Prüfungen ausgeliefert ist.
- Datenteams und Ingenieure verlassen sich eher auf reaktive Validierungstechniken als auf proaktive Datenvalidierungsmethoden , was die Kernprobleme der Datenhygiene nicht aufhebt.
Jede dieser drei Herausforderungen reicht aus, um selbst den besten Datenlead (und das Team, das ihn unterstützt) zu frustrieren. Und es macht Sinn, warum: Daten von schlechter Qualität sind nicht nur teuer – schlechte Daten kosten laut IBM durchschnittlich 3 Billionen US -Dollar. Und im gesamten Unternehmen untergräbt es auch das Vertrauen in die Daten selbst und führt dazu, dass Datenteams und Ingenieure Stunden an Produktivität verlieren, um Fehler zu beseitigen.
Die Moral von der Geschichte ist? Niemand gewinnt, wenn die Datenvalidierung zurückgestellt wird.
Glücklicherweise können diese Herausforderungen mit guten Datenvalidierungspraktiken überwunden werden. Werfen wir einen genaueren Blick auf jeden Schmerzpunkt.
Datenteams haben oft keine Kontrolle über die Datenerfassung selbst
Wie wir oben gesagt haben, ist der Hauptgrund, warum Datenteams mit der Datenvalidierung zu kämpfen haben, dass sie nicht diejenigen sind, die die Instrumentierung der fraglichen Ereignisverfolgung durchführen (im besten Fall können sie sehen, dass es ein Problem gibt, aber sie können es nicht beheben ).
Dies überlässt Datenanalysten und Produktmanagern sowie allen, die ihre Entscheidungsfindung datengesteuerter gestalten möchten, die Aufgabe, die Daten im Nachhinein zu entwirren und zu bereinigen. Und niemand – und wir meinen wirklich niemand – hat in der Freizeit Spaß am Daten-Munging.
Dieser Schmerzpunkt ist für die meisten Datenteams besonders schwer zu überwinden, da außer den Ingenieuren nur wenige Personen auf der Datenliste über die technischen Fähigkeiten verfügen, um die Datenvalidierung selbst durchzuführen. Organisatorische Silos zwischen Datenproduzenten und Datenkonsumenten machen diesen Schmerzpunkt noch sensibler. Um sie zu entlasten, müssen Datenverantwortliche die teamübergreifende Zusammenarbeit fördern, um saubere Daten zu gewährleisten.
Schließlich sind Daten ein Teamsport, und Sie werden keine Spiele gewinnen, wenn Ihre Spieler nicht miteinander sprechen, zusammen trainieren oder bessere Spiele für bessere Ergebnisse erfinden können.
Dateninstrumentierung und -validierung sind nicht anders. Ihre Datenkonsumenten müssen mit Datenproduzenten zusammenarbeiten, um Datenverwaltungspraktiken an der Quelle einzuführen und durchzusetzen, einschließlich Tests, die Probleme mit Daten proaktiv erkennen, bevor irgendjemand nachgelagert im Dienst ist.
Das bringt uns zu unserem nächsten Punkt.
Datenteams (und ihre Organisationen) haben oft keine festgelegten Prozesse rund um die Datenvalidierung für Analysen
Ihre Ingenieure wissen, dass das Testen von Code wichtig ist. Es mag nicht jeder tun, aber sicherzustellen, dass Ihre Anwendung wie erwartet läuft, ist ein wesentlicher Bestandteil der Auslieferung großartiger Produkte.
Es stellt sich heraus, dass es auch wichtig ist, sicherzustellen, dass der Analysecode Ereignisdaten wie beabsichtigt sammelt und liefert, um ein großartiges Produkt zu entwickeln und zu iterieren.
Wo ist also die Trennung? Die Praxis des Testens von Analysedaten ist für Engineering- und Datenteams noch relativ neu. Zu oft wird Analytics-Code als Add-on zu Funktionen betrachtet, nicht als Kernfunktionalität. In Kombination mit glanzlosen Data-Governance-Praktiken kann dies bedeuten, dass sie flächendeckend sporadisch (oder überhaupt nicht) implementiert werden.
Einfach ausgedrückt liegt dies oft daran, dass Leute außerhalb des Datenteams noch nicht verstehen, wie wertvoll Ereignisdaten für ihre tägliche Arbeit sind. Sie wissen nicht, dass saubere Ereignisdaten ein Geldbaum in ihrem Hinterhof sind und dass sie sie nur regelmäßig gießen (validieren) müssen, um Geld zu verdienen.
Um allen verständlich zu machen, dass sie sich um den Geldbaum Ereignisdaten kümmern müssen, müssen Datenteams alle Möglichkeiten verbreiten, wie gut validierte Daten im gesamten Unternehmen verwendet werden können. Während Datenteams innerhalb ihrer Organisationen möglicherweise begrenzt und isoliert sind, liegt es letztendlich an diesen Datenchampions, die Mauern zwischen ihnen und anderen Interessengruppen einzureißen, um sicherzustellen, dass die richtigen Prozesse und Tools zur Verbesserung der Datenqualität vorhanden sind.
Um diesen wilden Westen des Datenmanagements zu überwinden und eine angemessene Datenverwaltung sicherzustellen, müssen Datenteams Prozesse entwickeln, die festlegen, wann, wo und wie Daten proaktiv getestet werden sollten. Das mag entmutigend klingen, aber in Wirklichkeit können Datentests nahtlos in den bestehenden Software Development Life Cycle (SDLC), Tools und CI/CD-Pipelines integriert werden.
Klare Prozesse und Anweisungen sowohl für das Datenteam, das die Datenstrategie entwirft, als auch für das Engineering-Team, das den Code implementiert und testet, helfen jedem, die erwarteten Ergebnisse und Eingaben zu verstehen.
Datenteams und Ingenieure verlassen sich eher auf reaktive als auf proaktive Datentesttechniken
In fast allen Lebensbereichen ist es besser, proaktiv als reaktiv zu sein. Dies gilt auch für die Datenvalidierung für Analysen.
Aber viele Datenteams und ihre Ingenieure fühlen sich in reaktiven Datenvalidierungstechniken gefangen. Ohne solide Datenverwaltung, Tools und Prozesse, die proaktives Testen vereinfachen, muss die Ereignisverfolgung oft schnell implementiert und ausgeliefert werden, um in eine Version aufgenommen zu werden (oder nach einer Lieferung rückwirkend hinzugefügt zu werden). Diese zwingen Datenleiter und ihre Teams dazu, Techniken wie Anomalieerkennung oder Datentransformation im Nachhinein einzusetzen.
Dieser Ansatz behebt nicht nur nicht das Grundproblem Ihrer fehlerhaften Daten, sondern kostet Dateningenieure Stunden ihrer Zeit, um Fehler zu beseitigen. Es kostet auch Analysten Stunden ihrer Zeit, schlechte Daten zu bereinigen, und kostet das Unternehmen Umsatzeinbußen durch all die Produktverbesserungen, die hätten passieren können, wenn die Daten besser wären.
Anstatt sich in einem ständigen Zustand der Datenerfassung zu befinden, müssen Datenleiter Datenverwaltungsprozesse mitgestalten, die frühzeitig proaktive Tests und Tools mit Leitplanken wie Typsicherheit umfassen, um die Datenqualität zu verbessern und nachgelagerte Nacharbeiten zu reduzieren.
Was sind also proaktive Datenvalidierungsmaßnahmen? Lass uns einen Blick darauf werfen.
Datenvalidierungsmethoden und -techniken
Proaktive Datenvalidierung bedeutet, in jeder Phase der Datenpipeline die richtigen Tools und Testprozesse einzusetzen:
- Im Client mit Tools wie Amplitude zur Nutzung von Type Safety, Unit-Tests und A/B-Tests.
- In der Pipeline mit Tools wie Amplitude, Segment Protocols und dem Open-Source-Schema-Repository Iglu von Snowplow für die Schemavalidierung sowie anderen Tools für Integrations- und Komponententests, Frischetests und Verteilungstests.
- Im Warehouse mit Tools wie dbt, Dataform und Great Expectations, um Schematisierung, Sicherheitstests, Beziehungstests, Frische- und Verteilungstests sowie Bereichs- und Typprüfungen zu nutzen.
Wenn Datenteams aktiv proaktive Datenvalidierungsmaßnahmen aufrechterhalten und durchsetzen, können sie sicherstellen, dass die gesammelten Daten nützlich, klar und sauber sind und dass alle Datenverantwortlichen verstehen, wie dies so bleiben kann.
Darüber hinaus können Herausforderungen in Bezug auf Datenerfassungs-, Prozess- und Testtechniken allein schwer zu bewältigen sein, daher ist es wichtig, dass Leads organisatorische Silos zwischen Datenteams und Engineering-Teams aufbrechen.
Wie man die Datenvalidierung für Analysen zum Besseren verändert
Der erste Schritt in Richtung funktionaler Datenvalidierungspraktiken für Analysen besteht darin, zu erkennen, dass Daten ein Mannschaftssport sind, der Investitionen von Datenaktionären auf allen Ebenen erfordert, egal ob Sie es als Datenverantwortlicher oder Ihr einzelner Ingenieur sind, der Tracking-Codezeilen implementiert.
Jeder im Unternehmen profitiert von einer guten Datenerfassung und Datenvalidierung, vom Kunden bis zum Lager.
Um dies zu fahren, benötigen Sie drei Dinge:
- Top-down-Anweisung von Datenleitern und Unternehmensführung , die Prozesse für die Pflege und Nutzung von Daten im gesamten Unternehmen einrichtet
- Datenevangelisation auf allen Ebenen des Unternehmens , damit jedes Team versteht, wie Daten ihm helfen, seine Arbeit besser zu machen, und wie regelmäßige Tests dies unterstützen
- Workflows und Tools, um Ihre Daten gut zu verwalten , sei es ein internes Tool, eine Mischung aus Tools wie Segment Protocols oder Snowplow und dbt, oder noch besser, integriert in Ihre Analytics-Plattform wie Amplitude. Bei jedem dieser Schritte ist es auch wichtig, dass Daten-Leads Erfolge teilen und früh und oft zu großartigen Daten kommen. Diese Transparenz hilft nicht nur Datenkonsumenten zu sehen, wie sie Daten besser nutzen können, sondern hilft auch Datenproduzenten (z. B. Ihren Ingenieuren, die Ihre Tests durchführen), die Früchte ihrer Arbeit zu sehen. Es ist eine Win-Win-Situation.
Überwinden Sie Ihre Datenvalidierungsprobleme
Die Datenvalidierung ist für Datenteams schwierig, da die Datenkonsumenten die Implementierung nicht kontrollieren können, die Datenproduzenten nicht verstehen, warum die Implementierung wichtig ist, und stückweise Validierungstechniken dazu führen, dass jeder auf schlechte Daten reagiert, anstatt sie zu verhindern. Aber es muss nicht so sein.
Datenteams (und die Ingenieure, die sie unterstützen) können Datenqualitätsprobleme überwinden, indem sie zusammenarbeiten, die funktionsübergreifenden Vorteile guter Daten nutzen und die großartigen Tools nutzen, die das Datenmanagement und das Testen vereinfachen.