لماذا تكافح فرق البيانات مع التحقق من صحة البيانات (وكيفية تغيير ذلك)

نشرت: 2022-12-19

ملاحظة المحرر: تم نشر هذه المقالة في الأصل على مدونة Iteratively في 18 كانون الأول (ديسمبر) 2020.


أنت تعرف القول المأثور ، "القمامة في ، والقمامة خارج"؟ من المحتمل أنك سمعت هذه العبارة فيما يتعلق بنظافة البيانات الخاصة بك. ولكن كيف يمكنك إصلاح القمامة التي تتمثل في سوء إدارة البيانات وجودتها؟ حسنًا ، هذا صعب. خاصة إذا لم يكن لديك سيطرة على تنفيذ شفرة التتبع (كما هو الحال مع العديد من فرق البيانات).

ومع ذلك ، لا يعني مجرد عدم امتلاك العملاء المحتملين للبيانات خط الأنابيب الخاص بهم من تصميم البيانات للالتزام ، فقد كل الأمل. كجسر بين مستهلكي البيانات (مديري المنتجات وفرق المنتجات والمحللين ، على وجه التحديد) ومنتجي البيانات (المهندسين) ، يمكنك المساعدة في تطوير وإدارة التحقق من صحة البيانات التي من شأنها تحسين صحة البيانات في كل مكان.

قبل أن ندخل في الحشائش ، عندما نقول التحقق من صحة البيانات فإننا نشير إلى العملية والتقنيات التي تساعد فرق البيانات على الحفاظ على جودة بياناتهم.

الآن ، دعونا نلقي نظرة على سبب معاناة فرق البيانات مع هذا التحقق ، وكيف يمكنهم التغلب على تحدياته.

أولاً ، لماذا تواجه فرق البيانات صعوبة في التحقق من صحة البيانات؟

هناك ثلاثة أسباب رئيسية تواجه فرق البيانات صعوبة في التحقق من صحة البيانات من أجل التحليلات:

  1. غالبًا ما لا يشاركون بشكل مباشر في تنفيذ رمز تتبع الأحداث واستكشاف الأخطاء وإصلاحها ، مما يترك فرق البيانات في وضع غالبًا لا توجد عمليات موحدة حول التحقق من صحة البيانات للتحليلات ، مما يعني أن الاختبار تحت رحمة فحوصات ضمان الجودة غير المتسقة.
  2. تعتمد فرق البيانات والمهندسون على تقنيات التحقق التفاعلية بدلاً من طرق التحقق من صحة البيانات الاستباقية ، والتي لا توقف المشكلات الأساسية المتعلقة بنظافة البيانات.

أي من هذه التحديات الثلاثة كافٍ لإحباط حتى أفضل قائد بيانات (والفريق الذي يدعمهم). ومن المنطقي السبب: إن جودة البيانات الرديئة ليست باهظة الثمن فحسب - فالبيانات السيئة تكلف في المتوسط ​​3 تريليونات دولار وفقًا لشركة IBM. وعبر المؤسسة ، يؤدي أيضًا إلى تآكل الثقة في البيانات نفسها ويتسبب في خسارة فرق البيانات والمهندسين لساعات من الإنتاجية لسحق الأخطاء.

المغزى من القصة؟ لا أحد يربح عندما يتم وضع التحقق من صحة البيانات على الناسخ الخلفي.

لحسن الحظ ، يمكن التغلب على هذه التحديات من خلال ممارسات التحقق من صحة البيانات الجيدة. دعنا نلقي نظرة أعمق على كل نقطة ألم.

غالبًا ما لا تتحكم فرق البيانات في جمع البيانات نفسها

كما قلنا أعلاه ، السبب الرئيسي الذي يجعل فرق البيانات تعاني من التحقق من صحة البيانات هو أنهم ليسوا من ينفذون أدوات تتبع الحدث المعني (في أفضل الأحوال ، يمكنهم رؤية وجود مشكلة ، لكن لا يمكنهم إصلاحها ).

هذا يترك محللي البيانات ومديري المنتجات ، وكذلك أي شخص يتطلع إلى جعل اتخاذ قراراتهم أكثر استنادًا إلى البيانات ، مثقلًا بمهمة فك تشابك البيانات وتنظيفها بعد الحقيقة. ولا أحد - ونعني لا أحد - يستمتع بشكل ترفيهي بالبيانات.

يصعب التغلب على نقطة الألم هذه بالنسبة لمعظم فرق البيانات لأن قلة من الأشخاص في قائمة البيانات ، خارج المهندسين ، لديهم المهارات التقنية للقيام بالتحقق من صحة البيانات بأنفسهم. الصوامع التنظيمية بين منتجي البيانات ومستهلكي البيانات تجعل نقطة الألم هذه أكثر حساسية. للتخفيف من ذلك ، يتعين على العملاء المحتملين تعزيز التعاون بين الفريق لضمان البيانات النظيفة.

بعد كل شيء ، البيانات هي رياضة جماعية ، ولن تفوز بأي مباراة إذا لم يتمكن اللاعبون من التحدث مع بعضهم البعض ، أو التدريب معًا ، أو تبادل الأفكار للعب بشكل أفضل لتحقيق نتائج أفضل.

لا تختلف أجهزة البيانات والتحقق من صحتها. يحتاج مستهلكو البيانات لديك إلى العمل مع منتجي البيانات لوضع ممارسات إدارة البيانات وإنفاذها عند المصدر ، بما في ذلك الاختبار ، الذي يكتشف بشكل استباقي المشكلات المتعلقة بالبيانات قبل أن يقوم أي شخص بمهمة العمل في المراحل النهائية.

هذا يقودنا إلى النقطة التالية.

غالبًا ما لا تقوم فرق البيانات (ومؤسساتها) بتعيين عمليات حول التحقق من صحة البيانات من أجل التحليلات

يعرف المهندسون لديك أن اختبار الكود مهم. قد لا يحب الجميع القيام بذلك دائمًا ، ولكن التأكد من أن تطبيقك يعمل كما هو متوقع هو جزء أساسي من شحن المنتجات الرائعة.

تبين أن التأكد من أن كود التحليلات يجمع بيانات الأحداث ويسلمها على النحو المنشود هو أيضًا مفتاح لبناء منتج رائع وتكراره.

إذن أين هو الانفصال؟ لا تزال ممارسة اختبار بيانات التحليلات جديدة نسبيًا على فرق الهندسة والبيانات. في كثير من الأحيان ، يُنظر إلى رمز التحليلات على أنه وظيفة إضافية للميزات ، وليس وظائف أساسية. يمكن أن يعني هذا ، جنبًا إلى جنب مع ممارسات حوكمة البيانات الباهتة ، أنه يتم تنفيذها بشكل متقطع في جميع المجالات (أو لا يتم تنفيذها على الإطلاق).

ببساطة ، هذا غالبًا لأن الأشخاص خارج فريق البيانات لا يفهمون بعد مدى أهمية بيانات الأحداث في عملهم اليومي. إنهم لا يعرفون أن بيانات الأحداث النظيفة عبارة عن شجرة أموال في فناء منزلهم الخلفي ، وأن كل ما عليهم فعله هو سقيها (التحقق من صحتها) بانتظام لتكوين بنك.

لجعل الجميع يفهم أنهم بحاجة إلى رعاية شجرة المال التي هي بيانات الأحداث ، تحتاج فرق البيانات إلى التبشير بجميع الطرق التي يمكن من خلالها استخدام البيانات التي تم التحقق من صحتها جيدًا عبر المؤسسة. على الرغم من أن فرق البيانات قد تكون محدودة ومعزولة داخل مؤسساتهم ، فإن الأمر متروك في النهاية لأبطال البيانات هؤلاء للقيام بالعمل لكسر الجدران بينهم وبين أصحاب المصلحة الآخرين لضمان وجود العمليات والأدوات الصحيحة لتحسين جودة البيانات.

للتغلب على هذا الغرب المتوحش لإدارة البيانات وضمان الحوكمة المناسبة للبيانات ، يجب على فرق البيانات بناء العمليات التي توضح متى وأين وكيف يجب اختبار البيانات بشكل استباقي. قد يبدو هذا أمرًا شاقًا ، ولكن في الواقع ، يمكن أن ينجذب اختبار البيانات بسلاسة إلى دورة حياة تطوير البرامج الحالية (SDLC) والأدوات وخطوط أنابيب CI / CD.

إن العمليات والتعليمات الواضحة لكل من فريق البيانات الذي يصمم استراتيجية البيانات والفريق الهندسي الذي يقوم بتنفيذ واختبار الكود سيساعد الجميع على فهم المخرجات والمدخلات التي يجب أن يتوقعوا رؤيتها.

تعتمد فرق البيانات والمهندسون على تقنيات اختبار البيانات التفاعلية بدلاً من تقنيات اختبار البيانات الاستباقية

في كل جزء من الحياة تقريبًا ، من الأفضل أن تكون استباقيًا بدلًا من رد الفعل. يعتبر هذا صحيحًا للتحقق من صحة البيانات للتحليلات أيضًا.

لكن العديد من فرق البيانات ومهندسيهم يشعرون بأنهم محاصرون في تقنيات التحقق من صحة البيانات التفاعلية. بدون إدارة البيانات القوية والأدوات والعمليات التي تجعل الاختبار الاستباقي سهلاً ، غالبًا ما يجب تنفيذ تتبع الأحداث وشحنها بسرعة ليتم تضمينها في إصدار (أو إضافتها بأثر رجعي بعد سفينة واحدة). تؤدي بيانات القوة هذه وفرقهم إلى استخدام تقنيات مثل اكتشاف الشذوذ أو تحويل البيانات بعد وقوعها.

لا يقتصر دور هذا الأسلوب على إصلاح المشكلة الجذرية لبياناتك السيئة فحسب ، بل إنه يكلف مهندسي البيانات ساعات من وقتهم في القضاء على الأخطاء. كما أنه يكلف المحللين ساعات من وقتهم في تنظيف البيانات السيئة ويكلف الشركة خسارة الإيرادات من جميع تحسينات المنتجات التي كان يمكن أن تحدث إذا كانت البيانات أفضل.

بدلاً من أن تكون في حالة ثابتة من اللحاق بالبيانات ، يجب أن يساعد العملاء المحتملون في تشكيل عمليات إدارة البيانات التي تشمل الاختبار الاستباقي في وقت مبكر ، والأدوات التي تتميز بحواجز الحماية ، مثل أمان النوع ، لتحسين جودة البيانات وتقليل إعادة العمل في المراحل النهائية.

إذن ، ما هي إجراءات التحقق من صحة البيانات الاستباقية؟ لنلقي نظرة.

طرق وتقنيات التحقق من صحة البيانات

يعني التحقق الاستباقي من صحة البيانات تبني الأدوات الصحيحة وعمليات الاختبار في كل مرحلة من مراحل خط أنابيب البيانات:

  • في العميل باستخدام أدوات مثل Amplitude للاستفادة من أمان النوع واختبار الوحدة واختبار A / B.
  • في خط الأنابيب باستخدام أدوات مثل Amplitude و Segment Protocols و Snowplow's Open-source schema repo Iglu للتحقق من صحة المخطط ، بالإضافة إلى أدوات أخرى لاختبار التكامل والمكونات واختبار الحداثة واختبارات التوزيع.
  • في المستودع باستخدام أدوات مثل dbt و Dataform و Great Expectations للاستفادة من التخطيط واختبار الأمان واختبار العلاقة واختبار الحداثة والتوزيع وفحص النطاق والنوع.

عندما تحافظ فرق البيانات بشكل نشط على إجراءات التحقق من صحة البيانات الاستباقية وتنفذها ، يمكنها التأكد من أن البيانات التي تم جمعها مفيدة وواضحة ونظيفة وأن جميع المساهمين في البيانات يفهمون كيفية الحفاظ عليها بهذه الطريقة.

علاوة على ذلك ، قد يكون من الصعب التغلب على التحديات المتعلقة بأساليب جمع البيانات والعملية والاختبار بمفردها ، لذلك من المهم أن يؤدي ذلك إلى كسر الصوامع التنظيمية بين فرق البيانات وفرق الهندسة.

كيفية تغيير التحقق من صحة البيانات للتحليلات للأفضل

تتمثل الخطوة الأولى نحو ممارسات التحقق من صحة البيانات الوظيفية للتحليلات في إدراك أن البيانات هي رياضة جماعية تتطلب الاستثمار من مساهمي البيانات على كل مستوى ، سواء كنت أنت ، بصفتك قائد البيانات ، أو مهندسًا منفردًا لأسطر شفرة التتبع.

يستفيد الجميع في المؤسسة من جمع البيانات الجيدة والتحقق من صحة البيانات ، من العميل إلى المستودع.

لقيادة هذا ، تحتاج إلى ثلاثة أشياء:

  1. اتجاه من أعلى إلى أسفل من قادة البيانات وقيادة الشركة الذي يؤسس عمليات للحفاظ على البيانات واستخدامها في جميع أنحاء الأعمال
  2. التبشير بالبيانات في جميع طبقات الشركة بحيث يفهم كل فريق كيف تساعدهم البيانات على أداء عملهم بشكل أفضل ، وكيف يدعم الاختبار المنتظم ذلك
  3. تدفقات العمل والأدوات للتحكم في بياناتك بشكل جيد ، سواء كانت هذه أداة داخلية ، أو مزيجًا من الأدوات مثل Segment Protocols أو Snowplow و dbt ، أو حتى أفضل ، مدمج في النظام الأساسي للتحليلات مثل Amplitude. خلال كل خطوة من هذه الخطوات ، من المهم أيضًا أن تؤدي البيانات إلى انتصارات المشاركة والتقدم نحو البيانات الرائعة مبكرًا وفي كثير من الأحيان. لن تساعد هذه الشفافية مستهلكي البيانات في معرفة كيف يمكنهم استخدام البيانات بشكل أفضل فحسب ، بل تساعد أيضًا منتجي البيانات (على سبيل المثال ، المهندسين الذين يقومون باختبارك) على رؤية ثمار عملهم. إنه الفوز.

التغلب على مشاكل التحقق من صحة البيانات الخاصة بك

يعد التحقق من صحة البيانات أمرًا صعبًا بالنسبة لفرق البيانات نظرًا لأن مستهلكي البيانات لا يمكنهم التحكم في التنفيذ ، ولا يفهم منتجو البيانات سبب أهمية التنفيذ ، كما أن تقنيات التحقق الجزئي تجعل الجميع يتفاعلون مع البيانات السيئة بدلاً من منعها. لكن لا يجب أن يكون الأمر بهذه الطريقة.

يمكن لفرق البيانات (والمهندسين الذين يدعمونهم) التغلب على مشكلات جودة البيانات من خلال العمل معًا ، وتبني الفوائد متعددة الوظائف للبيانات الجيدة ، واستخدام الأدوات الرائعة المتوفرة التي تجعل إدارة البيانات واختبارها أسهل.

ابدأ مع Amplitude