Por qué los equipos de datos luchan con la validación de datos (y cómo cambiar eso)

Publicado: 2022-12-19

Nota del editor: este artículo se publicó originalmente en el blog de Iteratively el 18 de diciembre de 2020.


¿Conoces el viejo dicho, "Basura entra, basura sale"? Lo más probable es que haya escuchado esa frase en relación con la higiene de sus datos. Pero, ¿cómo arreglas la basura que es la mala gestión y calidad de los datos? Bueno, es complicado. Especialmente si no tiene control sobre la implementación del código de seguimiento (como es el caso de muchos equipos de datos).

Sin embargo, el hecho de que los clientes potenciales de datos no sean dueños de su canalización desde el diseño de datos hasta el compromiso no significa que se haya perdido toda esperanza. Como puente entre sus consumidores de datos (gerentes de productos, equipos de productos y analistas, a saber) y sus productores de datos (ingenieros), puede ayudar a desarrollar y administrar la validación de datos que mejorará la higiene de los datos en general.

Antes de entrar en materia, cuando decimos validación de datos nos referimos al proceso y las técnicas que ayudan a los equipos de datos a mantener la calidad de sus datos.

Ahora, veamos por qué los equipos de datos luchan con esta validación y cómo pueden superar sus desafíos.

Primero, ¿por qué los equipos de datos luchan con la validación de datos?

Hay tres razones principales por las que los equipos de datos luchan con la validación de datos para análisis:

  1. A menudo, no están directamente involucrados con la implementación del código de seguimiento de eventos y la solución de problemas , lo que deja a los equipos de datos en una posición A menudo, no existen procesos estandarizados en torno a la validación de datos para análisis , lo que significa que las pruebas están a merced de controles de calidad inconsistentes.
  2. Los equipos e ingenieros de datos confían en técnicas de validación reactivas en lugar de métodos de validación de datos proactivos , lo que no detiene los problemas centrales de higiene de datos.

Cualquiera de estos tres desafíos es suficiente para frustrar incluso al mejor líder de datos (y al equipo que lo respalda). Y tiene sentido por qué: los datos de mala calidad no solo son caros: los datos malos cuestan un promedio de $ 3 billones según IBM. Y en toda la organización, también erosiona la confianza en los datos mismos y hace que los equipos de datos y los ingenieros pierdan horas de productividad para eliminar errores.

¿La moraleja de la historia es? Nadie gana cuando la validación de datos se pone en un segundo plano.

Afortunadamente, estos desafíos se pueden superar con buenas prácticas de validación de datos. Echemos un vistazo más profundo a cada punto de dolor.

Los equipos de datos a menudo no tienen el control de la recopilación de datos en sí.

Como dijimos anteriormente, la razón principal por la que los equipos de datos luchan con la validación de datos es que no son ellos quienes llevan a cabo la instrumentación del seguimiento de eventos en cuestión (en el mejor de los casos, pueden ver que hay un problema, pero no pueden solucionarlo). ).

Esto deja a los analistas de datos y gerentes de productos, así como a cualquier persona que busque hacer que su toma de decisiones esté más basada en datos, con la tarea de desenredar y limpiar los datos después del hecho. Y nadie, y nos referimos a nadie, disfruta recreativamente de la manipulación de datos.

Este punto crítico es particularmente difícil de superar para la mayoría de los equipos de datos porque pocas personas en la lista de datos, aparte de los ingenieros, tienen las habilidades técnicas para realizar la validación de datos por sí mismos. Los silos organizacionales entre productores de datos y consumidores de datos hacen que este punto de dolor sea aún más sensible. Para aliviarlo, los líderes de datos deben fomentar la colaboración entre equipos para garantizar datos limpios.

Después de todo, los datos son un deporte de equipo y no ganará ningún juego si sus jugadores no pueden hablar entre sí, entrenar juntos o intercambiar ideas sobre mejores jugadas para obtener mejores resultados.

La instrumentación y validación de datos no son diferentes. Sus consumidores de datos deben trabajar con los productores de datos para implementar y hacer cumplir las prácticas de administración de datos en la fuente, incluidas las pruebas, que detectan de manera proactiva los problemas con los datos antes de que alguien esté trabajando en el proceso posterior.

Esto nos lleva a nuestro siguiente punto.

Los equipos de datos (y sus organizaciones) a menudo no tienen procesos establecidos en torno a la validación de datos para análisis

Sus ingenieros saben que probar el código es importante. Es posible que a todos no siempre les guste hacerlo, pero asegurarse de que su aplicación se ejecute como se espera es una parte fundamental del envío de excelentes productos.

Resulta que asegurarse de que el código de análisis recopile y entregue datos de eventos según lo previsto también es clave para crear e iterar un gran producto.

Entonces, ¿dónde está la desconexión? La práctica de probar datos analíticos aún es relativamente nueva para los equipos de ingeniería y datos. Con demasiada frecuencia, el código de análisis se considera un complemento de las funciones, no una funcionalidad principal. Esto, combinado con prácticas mediocres de gobierno de datos, puede significar que se implementa esporádicamente en todos los ámbitos (o no se implementa en absoluto).

En pocas palabras, esto se debe a menudo a que las personas ajenas al equipo de datos aún no entienden cuán valiosos son los datos de eventos para su trabajo diario. No saben que los datos de eventos limpios son un árbol de dinero en su patio trasero, y que todo lo que tienen que hacer es regarlos (validarlos) regularmente para ganar dinero.

Para que todos entiendan que deben cuidar el árbol de dinero que son los datos de eventos, los equipos de datos deben evangelizar todas las formas en que los datos bien validados se pueden usar en toda la organización. Si bien los equipos de datos pueden estar limitados y aislados dentro de sus organizaciones, en última instancia, depende de estos campeones de datos hacer el trabajo para derribar los muros entre ellos y otras partes interesadas para garantizar que se implementen los procesos y las herramientas correctos para mejorar la calidad de los datos.

Para superar este salvaje oeste de la gestión de datos y garantizar un gobierno de datos adecuado, los equipos de datos deben crear procesos que especifiquen cuándo, dónde y cómo se deben probar los datos de forma proactiva. Esto puede parecer desalentador, pero en realidad, las pruebas de datos pueden encajar perfectamente en el ciclo de vida de desarrollo de software (SDLC), las herramientas y las canalizaciones de CI/CD existentes.

Los procesos e instrucciones claros tanto para el equipo de datos que diseña la estrategia de datos como para el equipo de ingeniería que implementa y prueba el código ayudarán a todos a comprender los resultados y las entradas que deben esperar ver.

Los equipos e ingenieros de datos confían en técnicas de prueba de datos reactivas en lugar de proactivas

En casi todos los aspectos de la vida, es mejor ser proactivo que reactivo. Esto también es válido para la validación de datos para análisis.

Pero muchos equipos de datos y sus ingenieros se sienten atrapados en técnicas reactivas de validación de datos. Sin un gobierno de datos sólido, herramientas y procesos que faciliten las pruebas proactivas, el seguimiento de eventos a menudo debe implementarse y enviarse rápidamente para incluirse en una versión (o agregarse retroactivamente después de un envío). Estos obligan a los líderes de datos y a sus equipos a utilizar técnicas como la detección de anomalías o la transformación de datos después del hecho.

Este enfoque no solo no soluciona el problema de raíz de sus datos incorrectos, sino que les cuesta a los ingenieros de datos horas de su tiempo para eliminar errores. También les cuesta a los analistas horas de su tiempo limpiando datos erróneos y le cuesta a la empresa perder ingresos por todas las mejoras del producto que podrían haber ocurrido si los datos fueran mejores.

En lugar de estar en un estado constante de recuperación de datos, los líderes de datos deben ayudar a dar forma a los procesos de gestión de datos que incluyen pruebas proactivas desde el principio y herramientas que cuentan con barandillas, como la seguridad de tipo, para mejorar la calidad de los datos y reducir el trabajo posterior.

Entonces, ¿qué son las medidas proactivas de validación de datos? Vamos a ver.

Métodos y técnicas de validación de datos.

La validación proactiva de datos significa adoptar las herramientas y los procesos de prueba correctos en cada etapa de la canalización de datos:

  • En el cliente con herramientas como Amplitude para aprovechar la seguridad de tipos, las pruebas unitarias y las pruebas A/B.
  • En preparación con herramientas como Amplitude, Segment Protocols y el repositorio de esquemas de código abierto Iglu de Snowplow para la validación de esquemas, así como otras herramientas para integración y pruebas de componentes, pruebas de actualización y pruebas de distribución.
  • En el almacén con herramientas como dbt, Dataform y Great Expectations para aprovechar la esquematización, las pruebas de seguridad, las pruebas de relación, las pruebas de frescura y distribución, y la verificación de rango y tipo.

Cuando los equipos de datos mantienen y aplican activamente medidas proactivas de validación de datos, pueden garantizar que los datos recopilados sean útiles, claros y limpios, y que todos los accionistas de datos entiendan cómo mantenerlos de esa manera.

Además, los desafíos relacionados con la recopilación de datos, el proceso y las técnicas de prueba pueden ser difíciles de superar solos, por lo que es importante que los líderes rompan los silos organizacionales entre los equipos de datos y los equipos de ingeniería.

Cómo cambiar la validación de datos para análisis para mejor

El primer paso hacia las prácticas funcionales de validación de datos para análisis es reconocer que los datos son un deporte de equipo que requiere la inversión de los accionistas de datos en todos los niveles, ya sea usted, como líder de datos, o su ingeniero individual que implementa líneas de código de seguimiento.

Todos en la organización se benefician de una buena recopilación y validación de datos, desde el cliente hasta el almacén.

Para impulsar esto, necesita tres cosas:

  1. Dirección de arriba hacia abajo de los líderes de datos y el liderazgo de la empresa que establece procesos para mantener y usar datos en todo el negocio.
  2. Evangelización de datos en todas las capas de la empresa para que cada equipo entienda cómo los datos les ayudan a hacer mejor su trabajo y cómo las pruebas periódicas lo respaldan.
  3. Flujos de trabajo y herramientas para gobernar bien sus datos , ya sea una herramienta interna, una combinación de herramientas como Segment Protocols o Snowplow y dbt, o incluso mejor, integrada en su plataforma de análisis como Amplitude. A lo largo de cada uno de estos pasos, también es importante que los líderes de datos compartan las ganancias y progresen hacia grandes datos de manera temprana y frecuente. Esta transparencia no solo ayudará a los consumidores de datos a ver cómo pueden utilizar mejor los datos, sino que también ayudará a los productores de datos (p. ej., los ingenieros que realizan las pruebas) a ver los frutos de su trabajo. Es un ganar-ganar.

Supere sus problemas de validación de datos

La validación de datos es difícil para los equipos de datos porque los consumidores de datos no pueden controlar la implementación, los productores de datos no entienden por qué la implementación es importante y las técnicas de validación fragmentadas hacen que todos reaccionen a los datos incorrectos en lugar de prevenirlos. Pero no tiene por qué ser así.

Los equipos de datos (y los ingenieros que los respaldan) pueden superar los problemas de calidad de los datos trabajando juntos, aprovechando los beneficios interfuncionales de los buenos datos y utilizando las excelentes herramientas disponibles que facilitan la gestión y las pruebas de datos.

Comience con Amplitud