데이터가 나빠질 때: 데이터 품질을 개선하는 방법은 무엇입니까?

게시 됨: 2022-08-01

데이터 품질과 의사 결정 간의 상관 관계는 분명합니다. 쓰레기 인, 쓰레기 아웃, 기억하십니까? 조직이 데이터 품질(DQ)에 관심이 없을 때 조직에 잔혹한 속임수를 쓸 수 있습니다. 잘못된 데이터로 인한 문제를 처리하는 데 연간 수익의 15%에서 25%까지 비용이 소요될 수 있습니다. 열악한 데이터 품질이 조직의 디지털 혁신 노력을 방해한다는 것은 말할 것도 없습니다.

데이터 웨어하우스는 쓰레기통이 아닙니다. 비즈니스에 가치가 있는 의미 있는 데이터만 포함해야 합니다. 데이터 웨어하우스에서 덤프를 만들면 비즈니스를 향상시키는 데 활용할 수 없는 사중 데이터를 저장하는 데 돈을 낭비하게 됩니다.

이 손실을 이익으로 전환하고 데이터 품질을 경쟁 우위로 활용하여 경쟁자 간의 위치를 ​​재편하는 방법은 무엇입니까? 데이터를 처리하는 동안 직면할 수 있는 일반적인 문제를 나열하고 데이터 품질을 개선하는 방법을 설명했습니다.

데이터 품질을 개선하는 과정에서 직면할 수 있는 6가지 문제

데이터에는 완전성, 유효성, 고유성, 일관성, 적시성 및 정확성과 같은 특정 품질 특성이 있습니다. 그들과 관련된 여러 가지 문제가 있습니다. 잘못된 DQ 결과:

  • 데이터 사일로 . McKinsey에 따르면 공통 데이터 모델이 없는 여러 데이터 레이크 및 웨어하우스는 엔터프라이즈 수준에서 가장 큰 문제 중 하나입니다. 웨어하우스가 하나만 있더라도 데이터가 여러 엔터프라이즈 시스템에 분산되어 있으면 분석을 실행하는 것이 번거로워집니다.
  • 인적 오류 . 고객이나 직원이 수동으로 정보를 입력할 때 "미네소타" 대신 "미네소타"로 쓰는 등의 오타를 하면 현실을 나타내지 않는 데이터가 나옵니다.
  • 중복 데이터 . 한 직원이 고객 데이터를 CRM에 입력하고 다른 직원이 동일한 고객 데이터를 다른 시스템에 기록하면 결국 중복됩니다. 그것들이 완전히 동일하지 않다면 문제가 있습니다. 어느 것이 신뢰할 수 있습니까?
  • 잘못된 데이터 입니다. 필요한 데이터 대신 아무 데이터나 얻으면 분석이 의미가 없습니다. 이 오류의 예는 이름 필드가 성으로 채워진 경우입니다. 단골 중 어떤 사람이 개인 할인을 받을 자격이 있는지 결정해야 할 때 Smiths의 전체 테이블을 가지고 있다고 상상해 보십시오.
  • 누락된 값 누락된 데이터는 통계 절차에 허용되지 않습니다. 일부 필수 필드가 채워지지 않으면 데이터를 분석하고 조치를 취할 수 없습니다. 예를 들어 고객 만족도 조사에서 구매자의 연령과 성별에 대한 데이터를 수집하는 경우 "여성" 및 "남성" 옵션만 제공되는 경우 일부 구매자는 성별을 공개하지 않을 수 있습니다. 이것은 자신을 논바이너리, 퀴어 등으로 식별하는 젊은이와 관련이 있을 수 있습니다.
  • 일관성 없는 데이터 형식 . 유럽과 미국 스타일로 입력된 날짜를 처리해야 하는 경우 지옥을 겪고 있는 것처럼 느낄 수 있습니다.

고품질 데이터는 데이터 거버넌스를 더 쉽게 만듭니다. 그리고 데이터를 자신 있게 관리할 수 있다면 회사 전체를 자신 있게 관리할 수 있습니다. 그렇기 때문에 91%의 조직에서 DQ를 높이는 것이 향후 6-12개월 동안 최우선 순위 중 하나입니다. DQ 수정을 얼마나 빨리 시작해야 하는지 아직 결정하지 못했다면 이는 내일까지 미루지 말라는 신호입니다.

데이터 품질 문제를 완화하는 방법: 최첨단 기술 수용

데이터 품질을 개선하는 방법에 대한 질문에 답하기 전에 먼저 데이터 관리를 개선하는 방법을 파악해야 합니다. 새로운 기술의 채택에 관심과 예산을 집중하십시오. 데이터 품질 향상 여정을 촉진할 수 있는 방법은 최소한 두 가지입니다.

  • 자동화활용 하여 인적 오류를 제거 하십시오. 예를 들어, 로봇 프로세스 자동화(RPA)를 채택하면 직원이 단조롭고 반복적인 작업에서 벗어나 인적 오류 가능성을 없애고 데이터 처리 비용을 최대 80%까지 절감할 수 있습니다. 예를 들어, RPA를 사용하면 모든 날짜를 하나의 형식으로 쉽게 변환하고 데이터의 유무, 실제 여부 등을 확인할 수 있습니다. 이러한 모든 작업은 봇이 수행하는 명확한 알고리즘으로 축소될 수 있기 때문입니다. 또한 의료와 같이 규제가 엄격한 산업에서 자동화는 수많은 프로토콜(HIPAA, PSQIA, GDPR 등)에 대한 규정 준수를 개선하여 더 나은 환자 경험을 제공하는 데 도움이 됩니다.
  • BI( 비즈니스 인텔리전스 )를 활용 하여 데이터 품질을 종합적으로 파악할 수 있습니다 . 정보가 여전히 신뢰할 수 있는지 확인하려면 데이터를 정기적으로 평가해야 합니다.

숙련된 BI 분석가와의 협력이 핵심입니다. 어떤 질문에 대답해야 하는지, 데이터로 어떤 이야기를 하고 싶은지 파악하고 해당 정보를 기반으로 맞춤형 대시보드를 만드는 데 도움이 됩니다.

— Ivan Dubouski, 비즈니스 인텔리전스 팀 리더, *instinctools


일반 대시보드는 데이터가 데이터 품질 요구 사항을 충족하는 정도를 표시할 수 있습니다. Gartner에 따르면 데이터 품질 지표를 추적하면 이를 60% 개선하는 데 도움이 됩니다.

또한 데이터 과학자와 엔지니어에게 주요 데이터 품질 문제의 근간이 되는 문제에 대한 스토리를 시각화하는 보다 세분화된 대시보드를 제공할 수 있습니다.

BI 컨설팅 서비스를 사용하여 데이터 품질 개선 여정을 시작할 위치를 결정하고 그 과정에서 도움이 될 적절한 기술을 식별하십시오.

강력한 데이터 품질 개선 전략을 개발하는 방법

일회성 계획과 임시 조치는 질병이 아니라 증상을 치료합니다. 모든 조직 수준에서 직원에게 고급 분석 기능을 제공하려면 장기적인 전략적 조정이 필요합니다. 그렇기 때문에 DQ 이니셔티브에 뛰어들기 전에 데이터 품질 전략(DQS)을 만드십시오. 우리는 그것의 6가지 중요한 요소를 나열했습니다.

1. 데이터 목록을 작성하고 문제를 설명합니다.

서로 다른 부서의 직원을 위한 데이터 품질에 대한 공통의 비전을 개발하는 것이 필수적입니다. 이를 달성하려면 다음과 같은 기본적인 질문에 답하십시오. 얼마나 많은 데이터가 있습니까? 어떤 유형의 데이터를 수집하고 저장합니까? 데이터에 얼마나 많은 오류가 있습니까? 어떤 종류의 오류입니까?

2. 요구 사항 및 목표 개발

이 단계에서 향후 데이터 품질 개선 프로세스의 이해 관계자를 식별해야 합니다. 다양한 관점에서 데이터를 평가할 수 있는 전문가가 많을수록 조직의 DQ 요구 사항과 열망, 데이터 품질 개선 방법을 보다 정확하게 정의할 수 있습니다.

회사에는 핵심 매개변수인 데이터 관리자에 따라 데이터 품질을 평가할 전담 직원이 필요할 수 있습니다. 그들은 조직에 보관하는 데이터에 대한 책임이 있으며 데이터 사용 방법에 대한 내부 규칙을 시행하고 회사 내부의 데이터 이동을 추적합니다. 데이터 관리자의 임무는 DQS에서 발생하는 모든 프로세스와 결정을 조정하는 것입니다.

조직의 규모에 따라 데이터 품질 개선 계획을 구현하기 위한 대략적인 일정을 설정하는 것을 잊지 마십시오.

3. 다양한 데이터 세트에 대한 우선 순위 설정

고객 데이터의 품질과 회사 내부 데이터의 품질을 동시에 작업하는 것은 훌륭합니다. 그러나 예산이 제한되어 있는 경우 비즈니스 성공과 성장을 위해 우선 순위가 높은 데이터 개선을 선택해야 합니다. 고객의 개인정보와 관련된 데이터의 품질을 향상시켜 고객의 경험을 개인화하고 고객 만족도를 높일 수 있습니다. 그러나 조직의 내부 데이터를 수정하면 그만큼의 이점을 얻을 수 있습니다. 직원에 대한 고품질 데이터가 있으면 직원의 잠재력과 재능을 완전히 드러내고 회사 내 프로세스를 최적화하는 방법을 알아낼 수 있습니다.

4. 데이터 품질 향상을 위한 기술 및 도구 선택

시장에 나와 있는 제품의 수를 감안할 때 기능, 라이선스 비용, 지불 옵션 등을 비교하는 것은 시간이 많이 걸리고 까다롭습니다. 오래된 소프트웨어로 인해 부담이 된다면 작업이 점점 더 복잡해집니다. 현대화해야 할 수도 있습니다.

새로운 기술 및 도구를 채택하려면 처음에 예상했던 것보다 더 많은 내부 지식이 필요할 수 있으므로 데이터 문제를 처리하는 데 오랜 경험을 가진 기술 파트너를 선택하십시오.

5. 이해관계자의 역할과 책임 파악

이 단계에서 데이터 스튜어드, 데이터 엔지니어, 비즈니스 분석가, 임원 등에게 할당된 작업을 결정합니다. 데이터 품질 개선 전략의 보트가 원활하게 항해하기 위해서는 같은 방향으로 노를 젓는 많은 손이 필요합니다. 데이터 관리자는 조직 전체와 특정 프로젝트의 데이터 품질 표준을 추적할 수 있고, 비즈니스 분석가는 비즈니스 이점의 관점에서 작업의 우선 순위를 지정하고, C-suite 구성원은 취해야 할 조치에 대한 최종 결정을 내립니다.

6. 진행 상황을 평가하기 위한 KPI 설정

6개월, 1년에 어느 정도의 데이터 품질을 달성하고 싶습니까? 직원들이 다양한 유형의 오류를 수정하는 데 얼마나 시간이 걸릴 수 있습니까? 얼마나 줄일 것으로 예상하십니까? 숙련된 비즈니스 분석가가 조직에 대한 현실적인 KPI를 결정하는 데 도움을 줄 수 있습니다.

벤치마크로 지정한 기간이 지나면 달성된 결과를 분석하고 데이터 품질 개선 전략을 검토하고 필요한 경우 수정합니다.

데이터 품질 개선 계획의 초안은 다음과 같을 수 있습니다.

정확한 데이터 분석과 진정한 통찰력을 위한 길을 닦다

처리하는 데이터의 품질에 따라 통찰력의 가치가 결정됩니다. 어떤 면에서는 고급 분석이 없다면 조직은 적어도 하나의 밝고 번영하는 미래를 박탈당하게 됩니다.

최신 기술을 채택하여 레코딩 데이터 품질 문제를 부분적으로 또는 일시적으로 해결할 수 있습니다. 그러나 그것은 건물 전체가 불길에 휩싸일 때 한 방에 불을 끄는 것과 같습니다. 데이터 품질 개선 계획을 만드는 것은 데이터 품질을 향상시키기 위해 무엇 을 해야 하는지, 어떻게 해야 하는지, 프로세스를 담당하는 사람 을 정확히 파악하고 진행 상황을 추적하여 예상 결과를 달성할 수 있는 시점 을 분석하는 확실한 방법입니다.


이 기사는 원래 여기에 게시되었습니다.