เหตุใดทีมข้อมูลจึงต้องต่อสู้กับการตรวจสอบความถูกต้องของข้อมูล (และวิธีเปลี่ยนแปลงสิ่งนั้น)

เผยแพร่แล้ว: 2022-12-19

หมายเหตุบรรณาธิการ: บทความนี้เผยแพร่ครั้งแรกในบล็อก Iteratively เมื่อวันที่ 18 ธันวาคม 2020


คุณรู้จักสุภาษิตโบราณที่ว่า “ขยะเข้า ขยะออก” ไหม? โอกาสที่คุณอาจเคยได้ยินวลีที่เกี่ยวข้องกับสุขอนามัยข้อมูลของคุณ แต่คุณจะแก้ไขขยะที่จัดการข้อมูลและคุณภาพไม่ดีได้อย่างไร? มันยุ่งยาก โดยเฉพาะอย่างยิ่งหากคุณไม่มีอำนาจควบคุมการติดตั้งโค้ดติดตาม (เช่นเดียวกับกรณีของทีมข้อมูลหลายๆ ทีม)

อย่างไรก็ตาม เพียงเพราะลูกค้าเป้าหมายไม่ได้เป็นเจ้าของไปป์ไลน์ตั้งแต่การออกแบบข้อมูลไปจนถึงการส่งข้อมูล ไม่ได้หมายความว่าความหวังทั้งหมดจะหายไป ในฐานะที่เป็นสะพานเชื่อมระหว่างผู้บริโภคข้อมูลของคุณ (ผู้จัดการผลิตภัณฑ์ ทีมผลิตภัณฑ์ และนักวิเคราะห์ กล่าวคือ) และผู้ผลิตข้อมูลของคุณ (วิศวกร) คุณสามารถช่วยพัฒนาและจัดการการตรวจสอบข้อมูลที่จะปรับปรุงสุขอนามัยของข้อมูลได้รอบด้าน

ก่อนที่เราจะพูดถึงวัชพืช เมื่อเราพูดถึงการตรวจสอบข้อมูล เราหมายถึงกระบวนการและเทคนิคที่ช่วยให้ทีมข้อมูลรักษาคุณภาพของข้อมูลได้

ตอนนี้ มาดูกันว่าเหตุใดทีมข้อมูลจึงประสบปัญหากับการตรวจสอบความถูกต้องนี้ และวิธีที่พวกเขาสามารถเอาชนะความท้าทายได้

ประการแรก เหตุใดทีมข้อมูลจึงต้องต่อสู้กับการตรวจสอบความถูกต้องของข้อมูล

มีเหตุผลหลักสามประการที่ทีมข้อมูลประสบปัญหากับการตรวจสอบข้อมูลสำหรับการวิเคราะห์:

  1. พวกเขามักจะไม่เกี่ยวข้องโดยตรงกับการติดตั้งโค้ดติดตามเหตุการณ์และการแก้ปัญหา ซึ่งทำให้ทีมข้อมูลอยู่ในตำแหน่ง มักจะมีกระบวนการที่ไม่ได้มาตรฐานเกี่ยวกับการตรวจสอบความถูกต้องของข้อมูลสำหรับการวิเคราะห์ ซึ่งหมายความว่าการทดสอบจะขึ้นอยู่กับการตรวจสอบ QA ที่ไม่สอดคล้องกัน
  2. ทีมข้อมูลและวิศวกรอาศัยเทคนิคการตรวจสอบเชิงโต้ตอบมากกว่าวิธีการตรวจสอบข้อมูลเชิงรุก ซึ่งไม่ได้หยุดปัญหาหลักด้านสุขอนามัยของข้อมูล

ความท้าทายใดๆ ในสามข้อนี้ก็เพียงพอที่จะทำให้แม้แต่ผู้นำข้อมูลที่ดีที่สุด (และทีมที่สนับสนุนพวกเขา) ผิดหวัง และมันก็สมเหตุสมผลแล้วว่าทำไม: ข้อมูลคุณภาพต่ำไม่ใช่แค่ราคาแพง ข้อมูลแย่ๆ มีค่าใช้จ่ายเฉลี่ย 3 ล้านล้านดอลลาร์ ตามข้อมูลของไอบีเอ็ม และทั่วทั้งองค์กร ยังทำลายความน่าเชื่อถือในตัวข้อมูล และทำให้ทีมข้อมูลและวิศวกรสูญเสียเวลาในการทำงานหลายชั่วโมงเพื่อจัดการกับบั๊ก

คติธรรมของเรื่องคือ? ไม่มีใครชนะเมื่อมีการตรวจสอบความถูกต้องของข้อมูลบนแบ็คเบิร์น

โชคดีที่ความท้าทายเหล่านี้สามารถเอาชนะได้ด้วยแนวปฏิบัติที่ดีในการตรวจสอบข้อมูล มาดูจุดที่ปวดแต่ละจุดกันดีกว่า

ทีมข้อมูลมักไม่สามารถควบคุมการรวบรวมข้อมูลได้

ดังที่เราได้กล่าวไว้ข้างต้น เหตุผลหลักที่ทีมข้อมูลประสบปัญหากับการตรวจสอบความถูกต้องของข้อมูลคือพวกเขาไม่ได้เป็นผู้ดำเนินการติดตามเหตุการณ์ที่เป็นปัญหา (อย่างดีที่สุด พวกเขาเห็นว่ามีปัญหา แต่ไม่สามารถแก้ไขได้ ).

สิ่งนี้ทำให้นักวิเคราะห์ข้อมูลและผู้จัดการผลิตภัณฑ์ รวมถึงใครก็ตามที่กำลังมองหาการตัดสินใจโดยใช้ข้อมูลมากขึ้น ต้องแบกรับภาระหนักอึ้งกับงานที่ต้องแก้ให้ยุ่งเหยิงและทำความสะอาดข้อมูลหลังจากข้อเท็จจริง และไม่มีใคร—และเราหมายถึงไม่มีใคร—เพลิดเพลินกับการตัดต่อข้อมูล

ประเด็นปัญหานี้เป็นเรื่องยากโดยเฉพาะอย่างยิ่งสำหรับทีมข้อมูลส่วนใหญ่ที่จะเอาชนะได้ เนื่องจากมีเพียงไม่กี่คนในบัญชีรายชื่อข้อมูล (นอกเหนือจากวิศวกร) ที่มีทักษะทางเทคนิคในการตรวจสอบความถูกต้องของข้อมูลด้วยตนเอง การแยกองค์กรระหว่างผู้ผลิตข้อมูลและผู้บริโภคข้อมูลทำให้ประเด็นปัญหานี้ละเอียดอ่อนยิ่งขึ้น เพื่อลดปัญหานี้ ผู้นำด้านข้อมูลต้องส่งเสริมการทำงานร่วมกันระหว่างทีมเพื่อให้แน่ใจว่าข้อมูลสะอาด

ท้ายที่สุดแล้ว ข้อมูลคือกีฬาที่เล่นเป็นทีม และคุณจะไม่ชนะเกมใด ๆ หากผู้เล่นของคุณไม่สามารถพูดคุยกัน ฝึกด้วยกัน หรือระดมความคิดในการเล่นที่ดีขึ้นเพื่อผลลัพธ์ที่ดีขึ้น

เครื่องมือวัดและการตรวจสอบข้อมูลไม่แตกต่างกัน ผู้บริโภคข้อมูลของคุณจำเป็นต้องทำงานร่วมกับผู้ผลิตข้อมูลเพื่อวางและบังคับใช้แนวทางปฏิบัติในการจัดการข้อมูลที่ต้นทาง รวมถึงการทดสอบ ซึ่งจะตรวจหาปัญหาเกี่ยวกับข้อมูลในเชิงรุกก่อนที่ใครก็ตามจะมีหน้าที่ทำลายข้อมูลในขั้นสุดท้าย

สิ่งนี้นำเราไปสู่จุดต่อไปของเรา

ทีมข้อมูล (และองค์กรของพวกเขา) มักจะไม่ได้ตั้งค่ากระบวนการเกี่ยวกับการตรวจสอบข้อมูลสำหรับการวิเคราะห์

วิศวกรของคุณทราบดีว่าโค้ดการทดสอบมีความสำคัญ ทุกคนอาจไม่ชอบทำเสมอไป แต่ให้แน่ใจว่าแอปพลิเคชันของคุณทำงานตามที่คาดไว้เป็นส่วนสำคัญในการจัดส่งผลิตภัณฑ์ที่ยอดเยี่ยม

ปรากฎว่า การตรวจสอบให้แน่ใจว่าโค้ดการวิเคราะห์เป็นทั้งการรวบรวมและส่งข้อมูลเหตุการณ์ตามที่ตั้งใจไว้เป็นกุญแจสำคัญในการสร้างและทำซ้ำในผลิตภัณฑ์ที่ยอดเยี่ยม

ดังนั้นการเชื่อมต่ออยู่ที่ไหน แนวทางปฏิบัติในการทดสอบข้อมูลการวิเคราะห์ยังค่อนข้างใหม่สำหรับทีมวิศวกรรมและข้อมูล บ่อยครั้งที่โค้ดการวิเคราะห์ถูกมองว่าเป็นส่วนเสริมของคุณลักษณะ ไม่ใช่ฟังก์ชันหลัก เมื่อรวมกับแนวทางปฏิบัติในการกำกับดูแลข้อมูลที่ขาดความดแจ่มใส อาจหมายความว่ามีการใช้งานเป็นระยะๆ ทั่วกระดาน (หรือไม่ใช้เลย)

พูดง่ายๆ ก็คือ บ่อยครั้งเป็นเพราะคนที่อยู่นอกทีมข้อมูลยังไม่เข้าใจว่าข้อมูลเหตุการณ์มีค่าเพียงใดต่องานประจำวันของพวกเขา พวกเขาไม่รู้ว่าข้อมูลเหตุการณ์ที่สะอาดคือต้นไม้เงินในสวนหลังบ้านของพวกเขา และสิ่งที่พวกเขาต้องทำคือรดน้ำ (ตรวจสอบความถูกต้อง) อย่างสม่ำเสมอเพื่อสร้างธนาคาร

เพื่อให้ทุกคนเข้าใจว่าพวกเขาต้องดูแลแผนผังการเงินที่เป็นข้อมูลเหตุการณ์ ทีมข้อมูลจำเป็นต้องเผยแพร่ข้อมูลทุกวิถีทางเพื่อให้ข้อมูลที่ผ่านการตรวจสอบอย่างดีสามารถใช้ได้ทั่วทั้งองค์กร แม้ว่าทีมข้อมูลอาจถูกจำกัดและแยกจากกันภายในองค์กร แต่ท้ายที่สุดแล้ว แชมป์เปี้ยนข้อมูลเหล่านี้จะต้องทำงานเพื่อทลายกำแพงระหว่างพวกเขาและผู้มีส่วนได้ส่วนเสียอื่น ๆ เพื่อให้มั่นใจว่ามีกระบวนการและเครื่องมือที่เหมาะสมในการปรับปรุงคุณภาพข้อมูล

เพื่อเอาชนะการจัดการข้อมูลแบบตะวันตกและรับประกันการกำกับดูแลข้อมูลที่เหมาะสม ทีมข้อมูลต้องสร้างกระบวนการที่ระบุว่าควรทดสอบข้อมูลในเชิงรุกเมื่อใด ที่ไหน และอย่างไร อาจฟังดูน่ากลัว แต่ในความเป็นจริงแล้ว การทดสอบข้อมูลสามารถรวมเข้ากับ Software Development Life Cycle (SDLC) เครื่องมือ และไปป์ไลน์ CI/CD ที่มีอยู่ได้อย่างราบรื่น

กระบวนการและคำแนะนำที่ชัดเจนสำหรับทั้งทีมข้อมูลที่ออกแบบกลยุทธ์ข้อมูลและทีมวิศวกรที่ดำเนินการและทดสอบโค้ดจะช่วยให้ทุกคนเข้าใจผลลัพธ์และอินพุตที่พวกเขาควรคาดหวังที่จะเห็น

ทีมข้อมูลและวิศวกรใช้เทคนิคการทดสอบข้อมูลเชิงรับมากกว่าเชิงรุก

ในทุกส่วนของชีวิต จะดีกว่าที่จะเชิงรุกมากกว่าเชิงรับ สิ่งนี้ดังขึ้นสำหรับการตรวจสอบความถูกต้องของข้อมูลสำหรับการวิเคราะห์ด้วย

แต่ทีมข้อมูลและวิศวกรจำนวนมากรู้สึกว่าติดกับดักในเทคนิคการตรวจสอบข้อมูลเชิงโต้ตอบ หากปราศจากการกำกับดูแลข้อมูลที่มั่นคง เครื่องมือ และกระบวนการที่ทำให้การทดสอบเชิงรุกเป็นเรื่องง่าย การติดตามเหตุการณ์มักจะต้องดำเนินการและจัดส่งอย่างรวดเร็วเพื่อรวมไว้ในรุ่น (หรือเพิ่มย้อนหลังหลังจากเรือหนึ่งลำ) ข้อมูลเหล่านี้บังคับให้ผู้นำข้อมูลและทีมใช้เทคนิคต่างๆ เช่น การตรวจจับความผิดปกติหรือการแปลงข้อมูลหลังจากข้อเท็จจริง

วิธีนี้ไม่เพียงแต่ไม่สามารถแก้ไขปัญหารากเหง้าของข้อมูลที่ไม่ดีของคุณเท่านั้น แต่ยังทำให้วิศวกรข้อมูลต้องเสียเวลาหลายชั่วโมงในการกำจัดบั๊ก นอกจากนี้ยังทำให้นักวิเคราะห์เสียเวลาหลายชั่วโมงในการล้างข้อมูลที่ไม่ดี และต้นทุนที่ธุรกิจสูญเสียรายได้จากการปรับปรุงผลิตภัณฑ์ทั้งหมดที่อาจเกิดขึ้นหากข้อมูลดีขึ้น

แทนที่จะอยู่ในสถานะที่รับข้อมูลได้อย่างต่อเนื่อง ลีดข้อมูลต้องช่วยกำหนดรูปแบบกระบวนการจัดการข้อมูลซึ่งรวมถึงการทดสอบเชิงรุกตั้งแต่เนิ่นๆ และเครื่องมือที่มีเกราะป้องกัน เช่น ความปลอดภัยของประเภท เพื่อปรับปรุงคุณภาพข้อมูลและลดการทำงานซ้ำที่ปลายน้ำ

แล้วมาตรการตรวจสอบข้อมูลเชิงรุกคืออะไร? ลองมาดูกัน

วิธีการและเทคนิคการตรวจสอบข้อมูล

การตรวจสอบข้อมูลเชิงรุกหมายถึงการใช้เครื่องมือที่เหมาะสมและกระบวนการทดสอบในแต่ละขั้นตอนของดาต้าไปป์ไลน์:

  • ในไคลเอนต์ ด้วยเครื่องมือเช่น Amplitude เพื่อใช้ประโยชน์จากความปลอดภัยของประเภท การทดสอบหน่วย และการทดสอบ A/B
  • ในไปป์ไลน์ที่ มีเครื่องมือเช่น Amplitude, Segment Protocols และ Iglu schema repo แบบโอเพ่นซอร์สของ Snowplow สำหรับการตรวจสอบความถูกต้องของสคีมา ตลอดจนเครื่องมืออื่นๆ สำหรับการทดสอบการรวมและส่วนประกอบ การทดสอบความใหม่ และการทดสอบการกระจาย
  • ในคลังสินค้า พร้อมด้วยเครื่องมือต่างๆ เช่น dbt, Dataform และ Great Expectations เพื่อใช้ประโยชน์จากการจัดแผนผัง การทดสอบความปลอดภัย การทดสอบความสัมพันธ์ การทดสอบความใหม่และการกระจาย ตลอดจนการตรวจสอบช่วงและประเภท

เมื่อทีมข้อมูลรักษาและบังคับใช้มาตรการตรวจสอบข้อมูลเชิงรุกอย่างแข็งขัน พวกเขาสามารถมั่นใจได้ว่าข้อมูลที่รวบรวมนั้นมีประโยชน์ ชัดเจน และสะอาด และข้อมูลผู้ถือหุ้นทั้งหมดเข้าใจวิธีเก็บรักษาด้วยวิธีนั้น

นอกจากนี้ ความท้าทายเกี่ยวกับการเก็บรวบรวมข้อมูล กระบวนการ และเทคนิคการทดสอบอาจเป็นเรื่องยากที่จะเอาชนะด้วยตัวคนเดียว ดังนั้นจึงเป็นเรื่องสำคัญที่ผู้นำจะต้องทำลายไซโลขององค์กรระหว่างทีมข้อมูลและทีมวิศวกรรม

วิธีเปลี่ยนการตรวจสอบข้อมูลสำหรับการวิเคราะห์ให้ดีขึ้น

ขั้นตอนแรกสู่แนวทางปฏิบัติในการตรวจสอบข้อมูลตามหน้าที่สำหรับการวิเคราะห์คือการตระหนักว่า ข้อมูลคือกีฬาของทีม ที่ต้องมีการลงทุนจากผู้ถือข้อมูลในทุกระดับ ไม่ว่าจะเป็นคุณ ในฐานะผู้นำข้อมูล หรือวิศวกรส่วนบุคคลของคุณในการดำเนินการตามบรรทัดของโค้ดติดตาม

ทุกคนในองค์กรได้รับประโยชน์จากการรวบรวมข้อมูลและการตรวจสอบข้อมูลที่ดี ตั้งแต่ลูกค้าไปจนถึงคลังสินค้า

ในการขับเคลื่อนสิ่งนี้ คุณต้องมีสามสิ่ง:

  1. ทิศทางจากบนลงล่างจากผู้นำด้านข้อมูลและความเป็นผู้นำของบริษัท ที่กำหนดกระบวนการสำหรับการรักษาและการใช้ข้อมูลทั่วทั้งธุรกิจ
  2. การประกาศข้อมูลในทุกระดับของบริษัท เพื่อให้แต่ละทีมเข้าใจว่าข้อมูลช่วยให้พวกเขาทำงานได้ดีขึ้นได้อย่างไร และการทดสอบอย่างสม่ำเสมอสนับสนุนสิ่งนี้อย่างไร
  3. เวิร์กโฟลว์และเครื่องมือที่จะควบคุมข้อมูลของคุณได้ดี ไม่ว่าจะเป็นเครื่องมือภายใน การผสมผสานระหว่างเครื่องมือต่างๆ เช่น Segment Protocols หรือ Snowplow และ dbt หรือดียิ่งกว่านั้น สร้างขึ้นในแพลตฟอร์ม Analytics ของคุณ เช่น Amplitude ในแต่ละขั้นตอนเหล่านี้ สิ่งสำคัญคือลีดข้อมูลจะแบ่งปันชัยชนะและความคืบหน้าไปสู่ข้อมูลที่ยอดเยี่ยมตั้งแต่เนิ่นๆ และบ่อยครั้ง ความโปร่งใสนี้ไม่เพียงช่วยให้ผู้บริโภคข้อมูลเห็นว่าพวกเขาสามารถใช้ข้อมูลได้ดีขึ้นอย่างไร แต่ยังช่วยให้ผู้ผลิตข้อมูล (เช่น วิศวกรของคุณทำการทดสอบของคุณ) เห็นผลของการทำงานของพวกเขา มันเป็น win-win

เอาชนะปัญหาการตรวจสอบข้อมูลของคุณ

การตรวจสอบความถูกต้องของข้อมูลเป็นเรื่องยากสำหรับทีมข้อมูล เนื่องจากผู้ใช้ข้อมูลไม่สามารถควบคุมการใช้งาน ผู้ผลิตข้อมูลไม่เข้าใจว่าทำไมการนำไปใช้จึงมีความสำคัญ และเทคนิคการตรวจสอบทีละส่วนทำให้ทุกคนตอบสนองต่อข้อมูลที่ไม่ดีแทนที่จะป้องกัน แต่ไม่จำเป็นต้องเป็นอย่างนั้น

ทีมข้อมูล (และวิศวกรที่สนับสนุนพวกเขา) สามารถเอาชนะปัญหาด้านคุณภาพของข้อมูลได้ด้วยการทำงานร่วมกัน ใช้ประโยชน์จากข้อมูลที่ดีข้ามสายงาน และใช้เครื่องมือที่ยอดเยี่ยมที่ทำให้การจัดการและทดสอบข้อมูลง่ายขึ้น

เริ่มต้นด้วยแอมพลิจูด