조직 전체에서 데이터 위생을 개선하기 위한 결정적인 가이드
게시 됨: 2022-12-23편집자 주: 이 기사는 원래 2021년 3월 23일 Iteratively 블로그에 게시되었습니다.
데이터 커뮤니티에서 가장 자주 발생하는 문제는 부정확한 데이터입니다. 데이터가 정확하지 않으면 사용자는 데이터를 신뢰할 가능성이 낮아집니다. 즉, 아무도 데이터를 의사 결정에 사용하지 않습니다. 그러나 정확하지 않은 데이터는 정확히 어떤 모양입니까? 정보가 오래되었거나 중복되었거나 경우에 따라 존재하지 않는 오류를 포함하는 데이터입니다.
시간이 지남에 따라 조직 전체의 데이터 양이 증가하므로 조직 내에서 데이터 품질을 개선하려면 데이터 위생을 실천하는 것이 필수입니다. 이 가이드는 데이터 위생에 대한 이해를 높이고 조직 전체에서 데이터 위생을 구현할 때 따라야 할 몇 가지 모범 사례를 제공합니다.
데이터 위생이란 무엇입니까?
데이터 위생은 조직이 정확하고 완전한 데이터로 작업할 수 있도록 데이터를 유지 관리하고 정리하는 프로세스입니다.
"클린" 데이터는 무엇을 의미합니까? 우리는 대부분 오류가 없는 데이터를 언급하고 있습니다. 데이터 정리는 데이터베이스에서 중복 항목을 제거하고 데이터가 전반적으로 표준화된 형식인지 확인하는 것만큼 간단할 수 있습니다.
다양한 요인으로 인해 조직에서 오류가 포함된 데이터로 작업할 수 있습니다. 데이터 수명 주기의 모든 단계에서 데이터 품질 오류가 발생하는 것은 매우 흔한 일이므로 조직에서 데이터 품질을 개선하기 위해 데이터 위생을 유지 관리해야 합니다.
데이터 위생이 중요한 이유는 무엇입니까?
품질이 좋지 않은 데이터로 작업하는 것을 좋아하는 사람은 없습니다. 품질이 좋지 않은 데이터를 계속 사용하면 사용자가 데이터를 신뢰하지 않기 때문에 잘못된 의사 결정으로 이어집니다. 시간이 지남에 따라 품질이 좋지 않은 데이터는 조직의 시간과 비용을 소모합니다. 미국의 비즈니스 비용은 연간 3조 달러 이상이며 데이터 작업자는 소중한 시간의 51%를 데이터 수집, 레이블 지정 및 정리에 사용해야 합니다.
요즘에는 데이터가 대부분의 회사에서 가장 중요한 비즈니스 자산이며 경쟁업체와 차별화되기 때문에 90%만 정확한 데이터에 의존할 여유가 없습니다.
좋은 데이터 위생 관행은 종종 고품질 데이터 작업으로 이어집니다. 이제 조직에서 현재 구현할 수 있는 데이터 위생에 대한 몇 가지 모범 사례를 살펴보겠습니다.
조직에서 데이터 위생을 우선시하는 5가지 모범 사례
조직의 데이터 위생 구현은 회사의 규모, 데이터 팀이 사용할 수 있는 리소스, 데이터에 대한 회사의 문화에 따라 달라집니다. 그러나 아래 모범 사례는 규모나 산업에 관계없이 모든 회사에 적용됩니다.
1. 감사 수행
데이터 위생을 시작하기 전에 시스템 감사를 완료하는 것이 가장 좋습니다. 감사 중에는 회사에서 고객 정보를 처리할 때 사용하는 모든 시스템을 평가해야 합니다. 각 시스템을 평가할 때 비즈니스에 필요한 데이터 세트와 필요하지 않은 데이터 세트를 결정해야 합니다. 또한 변경 사항의 영향을 받는 시스템 다운스트림을 알 수 있도록 데이터 종속성을 매핑하는 것이 좋습니다.
불필요한 데이터를 줄이려면 입력 필드를 평가하여 비즈니스 관련 정보 수집으로 연결되는지 확인해야 합니다.
2. 비즈니스에 대한 가치를 기준으로 데이터의 우선 순위 지정
데이터 세트 정리는 특히 다양한 소스에서 유입되는 대량의 데이터로 작업할 때 시간이 오래 걸리는 프로세스일 수 있습니다. 대부분의 조직이 데이터 정리를 처음 시작할 때 특히 때때로 약간 압도적으로 느껴질 수 있기 때문에 어디서부터 시작해야 할지 확신이 서지 않습니다.
데이터를 정리할 때는 비즈니스에 가장 중요한 데이터부터 시작하는 것이 가장 좋습니다. 예를 들어 전자 상거래 업계의 회사는 고객 이메일 목록을 정리하고 중복을 제거하고 이메일 주소가 진짜인지 가짜인지 확인하는 작업부터 시작할 수 있습니다. 일반적으로 데이터 세트가 조직에 더 가치가 있을수록 데이터 정리를 시작할 때 더 높은 우선 순위를 지정해야 합니다.
3. 데이터 위생이 최우선인 문화 조성
데이터 위생은 데이터를 다룰 때 있으면 좋은 것이 아니라 필수입니다. 고객은 고객과 함께 작업할 때 업데이트된 정보와 개인화된 경험을 기대합니다. 그렇기 때문에 데이터 위생은 공동 작업이며 조직 내 모든 사람의 의견이 필요합니다. 고객에 대한 데이터를 수집하는 영업 사원부터 최고 재무 책임자에 이르기까지 모든 사람이 참여하여 데이터를 최신 상태로 유지해야 합니다.
데이터 위생 문화를 조성하려면 조직의 누군가에게 데이터 청결보다 우선 순위를 지정하는 것이 가장 좋습니다. 이렇게 하면 누군가가 데이터 위생을 담당하고 조직의 데이터 품질 계획을 개발하는 데 도움을 줄 수 있습니다.
4. 데이터 입력을 위한 통일된 템플릿 만들기
데이터가 고객 관계 관리(CRM) 시스템에 입력되는 지점은 일반적으로 오류가 포함된 데이터의 첫 번째 원인입니다. CRM에 입력되는 데이터의 품질을 높이려면 클라이언트 측에서 데이터를 확인하여 모든 정보가 소비 가능한 형식으로 표준화되어 있는지 확인하는 것이 좋습니다.
데이터 입력을 위한 통일된 템플릿을 만들 때 표준 운영 절차를 만들어야 합니다. 이렇게 하면 팀이 데이터를 정리할 때 일관성을 확립하고 시간이 지남에 따라 소스에서 데이터 품질 문제를 포착하여 이러한 오류가 생산에 들어가는 것을 방지하는 데 도움이 됩니다.
5. 행동 데이터의 정확성 검증
데이터의 정확성을 확인하면 조직에서 데이터의 정확성과 완전성을 확인하는 데 도움이 됩니다. 그러나 일부 데이터 팀은 도구 및 프로세스의 부족으로 인해 종종 데이터 유효성 검사의 우선 순위가 떨어지거나 구현하기 쉽지 않기 때문에 데이터 유효성 검사에 어려움을 겪고 있습니다.
데이터 위생 프로세스를 지원하려면 데이터 유효성 검사에 대한 사전 예방적 접근 방식을 취하고 데이터 파이프라인의 각 단계에서 이러한 데이터 유효성 검사 기술을 따르는 것이 좋습니다.
데이터를 사전에 검증하면 행동 데이터가 조직 전체에서 정확하고 완전하며 유용하고 깨끗하며 이해될 수 있습니다.
데이터 품질 문제
시간이 지남에 따라 우수한 데이터 위생 관행을 통해 팀이 전략적 비즈니스 결정을 내리는 데 의존할 수 있는 고품질 데이터가 생성됩니다.
이러한 모범 사례를 따르면 이해 관계자에게 고객에 대한 유용하고 정확한 통찰력을 제공할 수 있습니다.
Amplitude는 데이터 품질을 개선하기 위한 회사의 여정을 지원하는 역할을 할 수 있습니다. Amplitude의 데이터 관리 기능을 시험해보고 싶다면 지금 무료 계정을 만들거나 당사 팀과 함께 데모를 예약하여 자세한 내용을 알아보십시오.