Veri ekipleri neden veri doğrulama konusunda zorlanıyor (ve bunu nasıl değiştirecek)

Yayınlanan: 2022-12-19

Editörün notu: Bu makale ilk olarak 18 Aralık 2020'de Iteratively blogunda yayınlandı.


"Çöp içeri, çöp dışarı" eski deyişini biliyor musunuz? Muhtemelen, veri hijyeninizle ilgili olarak bu ifadeyi duymuşsunuzdur. Ancak kötü veri yönetimi ve kalitesi olan çöpü nasıl düzeltirsiniz? Bu zor. Özellikle izleme kodunun uygulanması üzerinde kontrolünüz yoksa (birçok veri ekibinde olduğu gibi).

Ancak, veri adaylarının veri tasarımından işlemeye kadar olan ardışık düzenlerine sahip olmaması, tüm umutların kaybolduğu anlamına gelmez. Veri tüketicileriniz (yani ürün yöneticileri, ürün ekipleri ve analistler) ile veri üreticileriniz (mühendisler) arasındaki köprü olarak, her yerde veri hijyenini iyileştirecek veri doğrulamanın geliştirilmesine ve yönetilmesine yardımcı olabilirsiniz.

Yabani otlara girmeden önce, veri doğrulama dediğimizde, veri ekiplerinin verilerinin kalitesini korumalarına yardımcı olan süreç ve teknikleri kastediyoruz.

Şimdi, veri ekiplerinin bu doğrulamayla neden mücadele ettiğine ve zorlukların üstesinden nasıl gelebileceklerine bakalım.

İlk olarak, veri ekipleri neden veri doğrulama ile mücadele ediyor?

Veri ekiplerinin analitik için veri doğrulama ile uğraşmasının üç ana nedeni vardır:

  1. Genellikle olay izleme kodunun uygulanması ve sorun giderme ile doğrudan ilgilenmezler , bu da veri ekiplerini sorunları çözmek için Analitik için veri doğrulama etrafında genellikle standartlaştırılmış süreçler yoktur , bu da testin tutarsız KG kontrollerinin insafına kaldığı anlamına gelir.
  2. Veri ekipleri ve mühendisler, temel veri hijyeni sorunlarını durdurmayan proaktif veri doğrulama yöntemleri yerine reaktif doğrulama tekniklerine güvenir .

Bu üç zorluktan herhangi biri, en iyi veri liderini (ve onları destekleyen ekibi) bile hayal kırıklığına uğratmaya yeterlidir. Nedeni de mantıklı: Düşük kaliteli veriler yalnızca pahalı olmakla kalmıyor; IBM'e göre kötü verilerin ortalama maliyeti 3 trilyon dolar . Ayrıca kuruluş çapında, verilere olan güveni de aşındırır ve veri ekipleri ile mühendislerin böcekleri ezmek için saatlerce üretkenlik kaybetmesine neden olur.

Hikayenin ahlaki nedir? Veri doğrulama arka plana alındığında kimse kazanamaz.

Neyse ki, iyi veri doğrulama uygulamalarıyla bu zorlukların üstesinden gelinebilir. Her bir acı noktasına daha derin bir göz atalım.

Veri ekipleri genellikle verilerin toplanmasının kontrolünde değildir.

Yukarıda da belirttiğimiz gibi, veri ekiplerinin veri doğrulama ile mücadele etmesinin ana nedeni, söz konusu olay izlemenin enstrümantasyonunu gerçekleştirenlerin kendileri olmamasıdır (en iyi durumda, bir sorun olduğunu görebilirler ancak çözemezler). ).

Bu, veri analistleri ve ürün yöneticilerinin yanı sıra karar verme sürecini daha fazla veri odaklı hale getirmek isteyen herkesi, olaydan sonra verileri çözme ve temizleme göreviyle yükümlü bırakıyor. Ve hiç kimse - ve hiç kimseyi kastetmiyoruz - eğlence amaçlı olarak veri karıştırmaktan hoşlanmaz.

Çoğu veri ekibi için bu sıkıntılı noktanın üstesinden gelmek özellikle zordur çünkü veri listesinde mühendisler dışında çok az kişi veri doğrulamayı kendileri yapacak teknik becerilere sahiptir. Veri üreticileri ile veri tüketicileri arasındaki kurumsal silolar, bu hassas noktayı daha da hassas hale getiriyor. Bunu hafifletmek için, veri liderlerinin temiz verileri sağlamak için ekipler arası işbirliğini teşvik etmesi gerekir.

Ne de olsa veri bir takım sporudur ve oyuncularınız birbirleriyle konuşamaz, birlikte antrenman yapamaz veya daha iyi sonuçlar için daha iyi oyunlar üzerinde beyin fırtınası yapamazsa hiçbir oyunu kazanamazsınız.

Veri enstrümantasyonu ve doğrulama farklı değildir. Veri tüketicilerinizin veri üreticileriyle birlikte çalışması gerekir, testler de dahil olmak üzere veri yönetimi uygulamalarını kaynağa yerleştirip uygulatmak gerekir.

Bu bizi bir sonraki noktamıza getiriyor.

Veri ekipleri (ve kuruluşları) genellikle analitik için veri doğrulaması etrafında belirlenmiş süreçlere sahip değildir.

Mühendisleriniz test kodunun önemli olduğunu biliyor. Herkes bunu yapmaktan her zaman hoşlanmayabilir, ancak uygulamanızın beklendiği gibi çalıştığından emin olmak, harika ürünler göndermenin temel bir parçasıdır.

Analitik kodunun olay verilerini amaçlandığı şekilde hem toplayıp hem de teslim ettiğinden emin olmanın da harika bir ürün oluşturmanın ve yinelemenin anahtarı olduğu ortaya çıktı.

Peki kopukluk nerede? Analitik verilerini test etme uygulaması, mühendislik ve veri ekipleri için hâlâ nispeten yenidir. Analitik kodunun temel işlevlere değil, çoğu zaman özelliklere bir eklenti olduğu düşünülür. Bu, cansız veri yönetişimi uygulamalarıyla birleştiğinde, yönetim kurulu genelinde düzensiz olarak uygulandığı (veya hiç uygulanmadığı) anlamına gelebilir.

Basitçe söylemek gerekirse, bunun nedeni genellikle veri ekibi dışındaki kişilerin olay verilerinin günlük işleri için ne kadar değerli olduğunu henüz anlamamış olmalarıdır. Temiz olay verilerinin arka bahçelerindeki bir para ağacı olduğunu ve banka yapmak için tek yapmaları gerekenin onu düzenli olarak sulamak (doğrulamak) olduğunu bilmiyorlar.

Olay verileri olan para ağacıyla ilgilenmeleri gerektiğini herkesin anlamasını sağlamak için veri ekiplerinin, doğrulanmış verilerin kuruluş genelinde kullanılabileceği tüm yolları yayması gerekir. Veri ekipleri kendi kuruluşlarında sınırlı ve sessize alınmış olsa da, veri kalitesini iyileştirmek için doğru süreçlerin ve araçların yürürlükte olduğundan emin olmak için kendileriyle diğer paydaşlar arasındaki duvarları yıkma işini yapmak nihai olarak bu veri şampiyonlarına bağlıdır.

Veri yönetiminin bu vahşi batısının üstesinden gelmek ve uygun veri yönetişimini sağlamak için veri ekiplerinin, verilerin proaktif olarak ne zaman, nerede ve nasıl test edilmesi gerektiğini açıklayan süreçler oluşturması gerekir. Bu göz korkutucu gelebilir, ancak gerçekte veri testi, mevcut Yazılım Geliştirme Yaşam Döngüsü'ne (SDLC), araçlara ve CI/CD boru hatlarına sorunsuz bir şekilde yerleştirilebilir.

Hem veri stratejisini tasarlayan veri ekibi hem de kodu uygulayan ve test eden mühendislik ekibi için açık süreçler ve talimatlar, herkesin görmeyi beklemesi gereken çıktıları ve girdileri anlamasına yardımcı olacaktır.

Veri ekipleri ve mühendisler proaktif yerine reaktif veri testi tekniklerine güveniyor

Hayatın hemen hemen her alanında, reaktif olmaktansa proaktif olmak daha iyidir. Bu, analitik için veri doğrulama için de geçerlidir.

Ancak birçok veri ekibi ve mühendisleri, reaktif veri doğrulama tekniklerinde kapana kısılmış hissediyor. Sağlam veri yönetişimi, araçları ve proaktif testi kolaylaştıran süreçler olmadan, olay izlemenin bir sürüme dahil edilmesi (veya bir sevkiyattan sonra geriye dönük olarak eklenmesi) için genellikle hızlı bir şekilde uygulanması ve gönderilmesi gerekir. Bunlar, veri liderlerini ve ekiplerini olaydan sonra anormallik tespiti veya veri dönüştürme gibi teknikleri kullanmaya zorlar.

Bu yaklaşım yalnızca kötü verilerinizin temel sorununu çözmez, aynı zamanda veri mühendislerinin hataları ezmek için saatler harcamasına neden olur. Ayrıca, analistlerin kötü verileri temizlemek için harcadıkları zamana ve verilerin daha iyi olması durumunda olabilecek tüm ürün geliştirmelerinden elde edilen gelir kaybına da mal olur.

Sürekli bir veri yakalama durumunda olmak yerine, veri liderleri, erken proaktif testleri içeren veri yönetimi süreçlerini ve veri kalitesini iyileştirmek ve aşağı yönde yeniden çalışmayı azaltmak için tip güvenliği gibi korkuluklara sahip araçları şekillendirmeye yardımcı olmalıdır.

Peki, proaktif veri doğrulama önlemleri nelerdir? Hadi bir bakalım.

Veri doğrulama yöntemleri ve teknikleri

Proaktif veri doğrulama, veri hattının her aşamasında doğru araçları ve test süreçlerini benimsemek anlamına gelir:

  • Tip güvenliğinden, birim testinden ve A/B testinden yararlanmak için Amplitude gibi araçlarla istemcide .
  • Amplitude, Segment Protocols ve Snowplow'un şema doğrulama için açık kaynaklı şema deposu Iglu gibi araçların yanı sıra entegrasyon ve bileşen testi, tazelik testi ve dağıtım testleri için diğer araçlarla birlikte boru hattında .
  • Şemalaştırma, güvenlik testi, ilişki testi, tazelik ve dağıtım testi ve aralık ve tip kontrolünden yararlanmak için dbt, Dataform ve Great Expectations gibi araçlarla depoda .

Veri ekipleri, proaktif veri doğrulama önlemlerini aktif olarak sürdürüp uyguladığında, toplanan verilerin yararlı, açık ve temiz olmasını ve tüm veri sahiplerinin bu verileri nasıl bu şekilde tutacağını anlamasını sağlayabilirler.

Ayrıca, veri toplama, işleme ve test etme teknikleriyle ilgili zorlukların tek başına üstesinden gelinmesi zor olabilir; bu nedenle, veri ekipleri ile mühendislik ekipleri arasındaki kurumsal siloları yıkmak önemlidir.

Analitik için veri doğrulama nasıl daha iyi hale getirilir?

Analitik için işlevsel veri doğrulama uygulamalarına yönelik ilk adım, ister veri lideri olarak siz olun, ister izleme kodu satırlarını uygulayan bireysel mühendisiniz olsun, verilerin her seviyedeki veri hissedarlarından yatırım gerektiren bir takım sporu olduğunun farkına varmaktır.

Kuruluştaki herkes, müşteriden depoya kadar iyi veri toplama ve veri doğrulamadan yararlanır.

Bunu sürmek için üç şeye ihtiyacınız var:

  1. İşletme çapında verileri korumak ve kullanmak için süreçler oluşturan veri liderlerinden ve şirket liderliğinden yukarıdan aşağıya yönlendirme
  2. Her ekibin verilerin işlerini daha iyi yapmalarına nasıl yardımcı olduğunu ve düzenli testlerin bunu nasıl desteklediğini anlaması için şirketin tüm katmanlarında veri evanjelizmi
  3. İster dahili bir araç, ister Segment Protokolleri veya Snowplow ve dbt gibi araçların bir karışımı veya daha da iyisi Amplitude gibi Analitik platformunuzda yerleşik olsun , verilerinizi iyi yönetmek için iş akışları ve araçlar . Bu adımların her biri boyunca, verilerin erken ve sık sık büyük verilere doğru ilerlemeyi ve paylaşmayı yönlendirmesi de önemlidir. Bu şeffaflık, yalnızca veri tüketicilerinin verileri nasıl daha iyi kullanabileceklerini görmelerine yardımcı olmakla kalmayacak, aynı zamanda veri üreticilerinin (örneğin, testlerinizi yapan mühendisleriniz) emeklerinin meyvelerini görmelerine yardımcı olacaktır. Bu bir kazan-kazan.

Veri doğrulama sorunlarınızın üstesinden gelin

Veri doğrulama, veri ekipleri için zordur çünkü veri tüketicileri uygulamayı kontrol edemez, veri üreticileri uygulamanın neden önemli olduğunu anlamaz ve parça parça doğrulama teknikleri, herkesin kötü verileri engellemek yerine tepki vermesine neden olur. Ama böyle olmak zorunda değil.

Veri ekipleri (ve onları destekleyen mühendisler), birlikte çalışarak, iyi verilerin işlevler arası faydalarını benimseyerek ve veri yönetimi ile test etmeyi kolaylaştıran harika araçlardan yararlanarak veri kalitesi sorunlarının üstesinden gelebilir.

Amplitude'u kullanmaya başlayın