NLU 엔진 벤치마킹: AI 시장 리더를 위한 데이터 중심 접근 방식

게시 됨: 2022-09-09

자연어 이해(NLU) 엔진은 엄청난 고객 감정 동인입니다. AI와 NLU는 너무 발전하여 Google 직원 이 회사의 챗봇 LaMDA가 자의식을 가진 인간이라고 주장하여 전 세계의 주목을 받았습니다.

하지만 걱정하지 마세요. 우리는 AI 봇이 전 세계를 장악했다는 이야기나 고객 서비스를 겁주러 온 것이 아닙니다.

미국 소비자의 약 71%는 여전히 고객 서비스 대화에서 인간적인 터치를 선호하며, 이것이 바로 벤치마크 NLU 엔진이 그림에 들어가는 부분입니다.

NLU는 고객 상호 작용에 지식, 컨텍스트 및 감정의 계층을 추가하여 상담원이 고객을 더 잘 이해하고 서비스하도록 도울 수 있습니다. 벤치마크 NLU 엔진으로 구동되는 대화형 AI를 통해 브랜드는 보다 지능적이고 공감하며 숨겨진 고객 신호를 찾아내어 고객 서비스를 보다 개인적이고 덜 기계적으로 만들 수 있습니다.

그러나 AI 기능을 평가하기 위해 NLU 엔진을 어떻게 벤치마킹합니까? 거기에 도달하려면 먼저 주요 기술 용어를 이해해야 합니다.

NLU 엔진 벤치마킹 용어집

  • 대화형 AI
    대화형 AI 는 컴퓨터와 디지털 애플리케이션이 인간 대화의 기본이 되는 감정, 긴급성 및 컨텍스트를 인식하여 공감으로 고객의 참여를 유도할 수 있도록 하는 NLU 기반 기능입니다.

  • 데이터 세트
    데이터 세트는 컴퓨터가 단일 정보 세트로 처리할 수 있는 관련 정보 세트의 모음입니다.


  • 발화는 텍스트, 오디오 또는 비디오를 통해 수신되는 사용자 연설의 구 또는 문장입니다. NLU 엔진은 발화를 사용하여 사용자 의도를 훈련, 테스트 및 해석합니다.

  • 의지
    의도는 행동, 이벤트 또는 진술 뒤에 있는 사용자의 목표를 나타냅니다. 예를 들어, 사용자 행동은 상품 문의, 불만, 환불 요청 등으로 분류될 수 있습니다.

  • 정확성
    정확도는 NLU 엔진에서 올바른 의도와 일치하는 테스트 문장의 비율입니다.

  • F1 매크로
    각 의도에 대한 정밀도 및 재현율의 매크로 평균의 조화 평균을 F1 매크로라고 합니다.

    정밀도 = 의도에 대한 진정한 긍정적 결과의 수/의도에 대한 모든 긍정적 결과.
    재현율 = 의도에 대한 참 긍정적인 결과의 수/의도에 대해 긍정적인 것으로 식별된 결과의 수.

NLU 엔진 벤치마킹: 프로세스 이해

NLU 엔진을 비교하는 것은 지루한 과정일 수 있습니다. NLU 지원 솔루션 세트를 선정하고 고객에게서 관찰된 공통 의도를 테스트하는 드릴을 진행하는 데 시간이 많이 걸릴 수 있습니다. 연구를 기반으로 하는 구조화된 접근 방식이 편향 없는 접근 방식으로 NLU 엔진과 AI 직관 능력을 평가하는 데 유용합니다.

대화형 에이전트 구축을 위한 자연어 이해 서비스 벤치마킹

이 NLU 벤치마킹 방법 은 다양한 교육 및 테스트 데이터 크기에 대한 기계 학습 정확도를 평가하기 위해 소형 및 대형 데이터 세트로 분류된 홈 자동화 봇용 데이터 세트의 NLU 엔진을 비교합니다.

NLU 벤치마킹 방법에 사용된 방법론

작은 데이터 세트

  • 64개의 다른 의도가 무작위로 선택됩니다.

  • NLU 엔진을 훈련하기 위해 각 인텐트에 10개의 예시 문장이 사용됩니다.

  • 1,076개의 예제 문장(훈련 세트의 일부가 아님)이 테스트됩니다.

대용량 데이터 세트

  • 위에서 언급한 것과 동일한 64개의 인텐트가 대규모 데이터 세트에 대해 선택됩니다.

  • NLU 엔진을 학습시키기 위한 각 인텐트에 대해 약 30개의 예시 문장이 사용됩니다.

  • 5,518개의 예제 문장(훈련 세트의 일부가 아님)이 테스트됩니다.

NLU 엔진 벤치마크 보고서: 결과

NLU 벤치마킹 방법은 리콜 및 F1 매크로 덕분에 Sprinklr의 NLP 정확도가 Google Cloud, Azure Language Studio 및 AWS Comprehend와 같은 동시대 제품보다 훨씬 뛰어남을 보여줍니다. 벤치마킹 데이터 및 결과는 여기 에서 찾을 수 있습니다.

NLU 엔진 벤치마킹을 크고 작은 데이터 세트로 나누면 Sprinklr NLU 엔진이 여전히 확실한 승자입니다.

참고 : 더 큰 데이터 세트는 더 높은 정확도를 위해 의도를 테스트하고 훈련하는 가장 좋은 방법입니다. 그러나 Sprinklr의 NLU 엔진의 정확도 편차는 3% 미만입니다.

작은 데이터 세트

매개변수:

  • 640개의 훈련 문장 = 인텐트당 10개의 문장

  • 1,076개의 테스트 문장

자산 67@4x자산 68@4x

대용량 데이터 세트


매개변수:

  • 1,908개의 학습 문장 ≈ 인텐트당 30개의 문장

  • 5,518개의 테스트 문장

자산 69@4x자산 70@4x

Sprinklr는 NLU 엔진 벤치마킹에서 확실한 승자로 떠오릅니다.

Sprinklr의 NLU 엔진은 테스트 입력과 교육 입력 간의 더 나은 매핑을 통해 쿼리 의도를 결정할 때 일관되고 정확합니다.

예 1: 작은 데이터 세트

쿼리: 내가 알아야 할 사항이 있습니까?
정답: calendar_query

자산 71@4x-100

예 2: 대용량 데이터 세트

쿼리: 유럽 연합에 속한 국가 수
기본 진실: qa_factoid

자산 72@4x-100

NLU 엔진 벤치마킹의 한계

  • 데이터 세트의 크기 : 잘 연구된 많은 데이터 세트가 사용되었기 때문에 NLU 엔진은 일반적으로 발견되는 구조화된 원시 데이터의 경우보다 테스트 발화에서 더 빨리 학습했을 수 있습니다.

  • 사용된 언어: 다양한 사례와 의도를 테스트하기 위해 영어만 사용되었습니다.

  • 테스트 데이터의 특성 : 사용자의 발화는 문법 오류가 더 많고 대화 간격이 있을 수 있는 일반 고객처럼 들리지 않을 수 있습니다.

가장 일반적인 NLU 엔진 해석 문제

일반적인 NLU 엔진에는 특히 고객 상호 작용을 해석하는 동안 특정 제한 사항이 있습니다. 다음은 가장 일반적인 NLU 엔진 해석 실수와 이를 피하기 위한 전략입니다.

풍자

NLU 엔진은 냉소적이거나 ​​수동적이며 공격적인 고객 의견을 감지하는 데 어려움을 겪을 수 있습니다.

자산 76@4x

해결 방법: 이를 극복하는 한 가지 방법은 자동화된 NLU 엔진 응답을 승인하기 전에 에이전트를 지나칠 "고맙습니다, 와우, 무엇이든"과 같은 키워드를 추가하는 것입니다.

모호

때때로 인간은 문장의 단어가 명사, 동사 또는 형용사로 사용되는지 구별하기 위해 고심합니다. "hang on" 또는 "put out"과 같은 구동사도 NLU 엔진의 인식에 영향을 줄 수 있습니다.

수정 방법: 모호성을 줄이는 가장 좋은 방법은 모호한 문장과 구문에 대해 NLU 엔진을 계속 훈련하는 것입니다. 시간이 지남에 따라 엔진은 테스트 입력을 실제 사용자 상호 작용과 비교하여 학습을 시작합니다.

NLU 엔진 및 AI 챗봇의 모호성을 줄이는 다른 방법:

  • 더 나은 NLU 교육을 위해 기계 학습 모델 활용 : BERT(Bidirectional Encoder Representations from Transformers) 및 ELMo(Embeddings from Language Model)와 같은 상황에 맞는 기계 학습 모델을 사용하여 NLU 엔진을 학습합니다. 이러한 AI 모델 은 단어와 문장의 모든 다양한 표현을 고려하고 추가 텍스트를 사용하여 모호한 사용자 항목을 채웁니다.

  • 언어 불확실성을 재확인하기 위한 적절한 프롬프트 생성 : NLU 엔진을 활성화하여 사용자가 둘 이상의 가능성에서 올바른 버전의 텍스트를 선택하도록 프롬프트하는 "명확성" 응답을 제공합니다. 이것은 검색어의 가능한 변형을 포함하는 Google의 "Did you mean..." 프롬프트와 매우 유사합니다.

  • 더 많은 훈련 및 훈련 : NLU 엔진을 엄격하게 훈련하여 신호와 노이즈를 분리하십시오. 다양하고 고유한 데이터 세트로 NLU 엔진을 훈련시키는 것보다 더 나은 의도 감지에 대한 지름길은 없습니다. 사용자 요청에는 NLU 엔진의 의도 태깅 기능에 영향을 미치는 단어 및 문장 구성이 포함될 수 있습니다.

자산 77@4x

언어 오류

맞춤법 오류 및 부적절한 문장 구성으로 인해 NLU 엔진이 사용자 의도를 정확하게 식별하지 못할 수 있습니다. 문법 검사는 기본적인 오류를 해결할 수 있지만 속어와 구어체는 특히 텍스트 음성 변환 및 음성 분석에서 해석하기 어렵습니다.

해결 방법: 다시 한 번 이 문제를 극복하는 열쇠는 오류와 잘못된 언어로 가득 찬 부정확한 모의 발언을 NLU 엔진에 공급하는 것입니다.

도메인 변형

Domain-Speak는 산업마다 다른 또 다른 영역입니다. 의료의 "문서화"는 기술의 "문서화" 워크플로와 다를 수 있습니다.

해결 방법: 의도 계층 구조를 명확하게 정의하면 NLU 엔진이 고객 응답 또는 발언과 관련된 산업 또는 도메인을 결정하는 데 도움이 될 수 있습니다.

최고 성능의 NLU 엔진을 특징짓는 특성

NLU 엔진의 인지 능력은 회사를 위해 평가할 때 고려해야 할 요소 중 하나일 뿐입니다. 대규모 사용자 의도를 이해하는 데 방해가 되는 지루한 수동 작업을 극복하는 데 도움이 됩니다.

또한 NLU 엔진에서 주의해야 할 몇 가지 중요한 특성이 있습니다.

1. 속도

대화형 AI는 신속하고 정확하게 응답하려는 고객의 의도를 이해하는 것이기 때문에 NLU 엔진은 신속하게 결과를 제공해야 합니다. 고객 상호 작용 처리 속도가 NLU 엔진의 의도 감지 정확도를 감소시키지 않아야 합니다.

2. 수직화

NLU 엔진은 기술, 소매, 전자 상거래, 물류 및 숙박과 같은 산업에 걸쳐 다양한 사용 사례를 가지고 있습니다. 대화형 AI 기능은 이러한 산업을 구분하고 고유한 접근 방식으로 모든 솔루션 영역에 적응할 수 있어야 합니다.

3. 사용 용이성

비기술적 직원 프로필이 포함된 NLU 엔진을 찾으십시오. 데이터 세트를 테스트하고 훈련하는 방법을 이해하는 것은 품질 보증 엔지니어와 개발자에게만 국한되어서는 안 됩니다. 비기술적 배경을 가진 사업주가 스스로 할 수 있는 일입니다. 코드가 없는 NLU 엔진으로 구동되는 대화형 AI는 채택 및 사용성을 개선하는 방법입니다.

4. 확장성

NLU 엔진이 수집하는 데이터 입력이 점점 더 많아짐에 따라 다양한 지역적 의미, 언어적 변형 및 사용자 표현의 다양한 엔터티에서 스스로를 훈련해야 합니다. 여러 언어를 처리하고 대화형 AI 챗봇을 미래에 대비할 수 있는 NLU 프레임워크를 구축하십시오.

Sprinklr의 NLU 엔진이 대화형 AI의 시장 리더가 된 이유는 무엇입니까?

Sprinklr의 AI 엔진은 고객 경험 관리의 전체 스펙트럼을 이해하고 맥락화하기 위해 특별히 제작되었습니다. 다음은 Sprinklr AI를 기존의 대화형 AI 플랫폼과 차별화하는 7가지 차별화 요소입니다.

1. 정확한 메시지 분류

고객 메시지를 자동으로 읽고, 해독하고, 분석하고, 의도로 분류하고, 정확한 사례 할당을 위해 내부 팀을 정의합니다.

2. 부지런한 위기 감지

부정적인 브랜드 언급 및 키워드와 같은 미리 결정된 매개변수 또는 감정 감지와 같은 AI 식별 고통 징후를 사용하여 고객 상호 작용이 손을 댈 수 없을 때 경고를 트리거합니다.

3. 상황 인식 가상 지원

사용 가능한 고객 데이터, 지식 기반 및 채널 전반의 상호 작용 기록을 기반으로 고객에 대한 자동화된 응답을 생성하거나 상담원에게 AI 지원을 제공합니다.

4. 미래에 대비한 예측 분석

고객 서비스뿐만 아니라 인기 있는 주제, 거시 경제, 소비자 심리, PR 위기 및 변화하는 업계 벤치마크와 같은 시장 동향을 예측하여 제품 및 마케팅 로드맵을 재정렬하십시오. Sprinklr의 AI는 상황별 데이터 분석을 통해 디지털 채널, 고객 인구 통계 등의 패턴을 인식할 수 있습니다.

자산 78@4x

5. 스마트한 시각적 해석

브랜드 및 고객 상호 작용과 관련된 시각적 데이터를 처리하여 사람의 에이전트 없이 이미지와 비디오를 정확하게 정의합니다.

6. 엔드 투 엔드 AI 스튜디오

더 나은 사회적 경청, 메시지 분류, 대화형 AI 및 챗봇, 응답 자동화, 셀프 서비스 커뮤니티를 위해 Sprinklr 내에서 AI 모델을 훈련, 테스트 및 배포합니다.

7. 브랜드 상호작용 중재

모든 상담원-고객 상호 작용을 모니터링하여 내부 브랜드 지침을 준수하도록 하고 보고서를 생성하여 고객 만족도(CSAT)를 높이고 최고 접촉 동인을 줄이기 위한 개선 영역을 식별합니다.

제로터치 개인화 및 운영 효율성으로 고객 지원을 확장하고 싶으십니까? Sprinklr의 NLU 엔진은 수백만 개의 AI 예측, 데이터 포인트 및 수백 개의 즉시 배포 가능한 AI 모델과 함께 제공되는 필요한 다리가 될 수 있습니다.

Modern Care Lite 무료 평가판 시작

기본 AI를 사용하여 기업이 13개 이상의 채널에서 프리미엄 경험을 제공하여 고객 경험 전반에 걸쳐 청취, 라우팅, 해결 및 측정할 수 있도록 Sprinklr가 어떻게 도움이 되는지 알아보십시오.