Benchmarking do mecanismo NLU: uma abordagem orientada por dados para líderes de mercado de IA

Publicados: 2022-09-09

Os mecanismos de compreensão de linguagem natural (NLU) são grandes impulsionadores do sentimento do cliente. AI e NLU evoluíram tanto que um funcionário do Google chamou a atenção global quando afirmou que o chatbot LaMDA da empresa era um ser humano autoconsciente.

Mas não se preocupe. Não estamos aqui para assustá-lo com histórias de bots de IA dominando o mundo ou atendimento ao cliente.

Cerca de 71% dos consumidores americanos ainda preferem um toque humano em suas conversas de atendimento ao cliente, e é aí que os motores NLU de referência entram em cena.

A NLU pode ajudar os agentes a entender e atender melhor os clientes, adicionando camadas de conhecimento, contexto e sentimento às interações com os clientes. Alimentada por mecanismos NLU de referência, a IA conversacional permite que as marcas sejam mais inteligentes e empáticas e identifiquem dicas ocultas do cliente para tornar o atendimento ao cliente mais pessoal e menos mecânico.

Mas como você compara os mecanismos NLU para avaliar seus recursos de IA? Para chegar lá, vamos primeiro entender os principais termos técnicos.

Glossário de benchmarking do motor NLU

IA conversacional
A IA de conversação é um recurso alimentado por NLU que permite que computadores e aplicativos digitais envolvam os clientes com empatia, reconhecendo a emoção, a urgência e o contexto subjacente às conversas humanas.
Conjunto de dados
Um conjunto de dados é uma coleção de conjuntos relacionados de informações que os computadores podem processar como um único conjunto de informações.
Enunciado
Enunciado é uma frase ou sentença da fala do usuário recebida por meio de texto, áudio ou vídeo. Os mecanismos NLU usam enunciados para treinar, testar e interpretar as intenções do usuário.
Intenção
A intenção indica o objetivo de um usuário por trás de ações, eventos ou declarações. Por exemplo, uma ação do usuário pode ser categorizada como uma consulta de produto, reclamação, solicitação de reembolso etc.
Precisão
Precisão é a porcentagem de sentenças de teste combinadas com a intenção correta pelo mecanismo NLU.
Macro F1
A média harmônica das médias macro de precisão e rechamada para cada intenção é chamada de Macro F1.

Precisão = número de resultados positivos verdadeiros em relação a uma intenção/todos os resultados positivos em relação a uma intenção.
Recall = número de resultados positivos verdadeiros em relação a uma intenção/número de resultados identificados como positivos em relação a uma intenção.

Benchmarking do motor NLU: entenda o processo

Comparar mecanismos NLU pode ser um processo tedioso. Pode ser demorado selecionar um conjunto de soluções habilitadas para NLU e passar pelo exercício de testar as intenções comuns observadas em seus clientes. É aí que uma abordagem estruturada apoiada por pesquisas é útil para avaliar os mecanismos NLU e sua capacidade de intuição de IA com uma abordagem livre de preconceitos.

Benchmarking de serviços de compreensão de linguagem natural para a construção de agentes de conversação

Esse método de benchmarking NLU compara os mecanismos NLU no conjunto de dados de um bot de automação residencial dividido em conjuntos de dados pequenos e grandes para avaliar a precisão do aprendizado de máquina em diferentes tamanhos de dados de treinamento e teste.

Metodologia usada no método de benchmarking NLU

Conjunto de dados pequeno

64 intents diferentes são escolhidos aleatoriamente
10 frases de exemplo são usadas para cada intenção de treinar o mecanismo NLU
1.076 frases de exemplo (que não fazem parte do conjunto de treinamento) são testadas

Grande conjunto de dados

As mesmas 64 intenções mencionadas acima são escolhidas para o grande conjunto de dados
Cerca de 30 frases de exemplo são usadas para cada intenção de treinar o mecanismo NLU
5.518 frases de exemplo (que não fazem parte do conjunto de treinamento) são testadas

Relatório de benchmark do motor NLU: o resultado

O método de benchmarking NLU mostra que a precisão de NLP do Sprinklr em virtude de recall e macros F1 está bem acima de seus contemporâneos — Google Cloud, Azure Language Studio e AWS Comprehend. Os dados e resultados do benchmarking podem ser encontrados aqui .

Se dividirmos o benchmarking do mecanismo NLU em conjuntos de dados pequenos e grandes, o mecanismo Sprinklr NLU ainda é um vencedor claro.

Observação : conjuntos de dados maiores são a melhor maneira de testar e treinar intents para obter maior precisão. Mas a variação na precisão com o mecanismo NLU da Sprinklr é de apenas ≤ 3%.

Conjunto de dados pequeno

Parâmetros:

640 frases de treinamento = 10 frases por intent
1.076 frases de teste

Grande conjunto de dados

Parâmetros:

1.908 frases de treinamento ≈ 30 frases por intent
5.518 frases de teste

Sprinklr surge como um claro vencedor no benchmarking de motores NLU

O mecanismo NLU da Sprinklr permanece consistente e preciso na determinação da intenção das consultas, com melhor mapeamento entre entradas de teste e entradas de treinamento.

Exemplo 1: conjunto de dados pequeno

Pergunta: há alguma coisa que eu preciso estar ciente
Verdade do terreno: calendar_query

Exemplo 2: grande conjunto de dados

Pergunta: quantos países estão na União Europeia
Verdade do terreno: qa_factoid

Limitações do benchmarking do motor NLU

Tamanho do conjunto de dados : como um grande número de conjuntos de dados bem pesquisados foi usado, os mecanismos NLU podem ter aprendido com os enunciados de teste mais rapidamente do que no caso de dados brutos e estruturados encontrados normalmente.
Idiomas usados: Apenas o inglês foi usado para testar diferentes instâncias e intenções.
Natureza dos dados de teste : as declarações do usuário podem não soar como clientes típicos, que podem cometer mais erros gramaticais e ter falhas na conversa.

Os desafios mais comuns de interpretação do mecanismo NLU

Os mecanismos NLU típicos vêm com certas limitações, especialmente ao interpretar as interações com o cliente. Aqui estão os erros mais comuns de interpretação do mecanismo NLU e as estratégias para evitá-los:

Sarcasmo

Os mecanismos NLU podem se esforçar para detectar comentários de clientes sarcasmo ou passivo-agressivos.

Como corrigir isso: uma maneira de superar isso é adicionar palavras-chave como “obrigado, uau, tanto faz” para serem executadas pelos agentes antes de aprovar a resposta automatizada do mecanismo NLU.

Ambiguidade

Às vezes, os humanos lutam para diferenciar se uma palavra em uma frase é usada como substantivo, verbo ou adjetivo. Phrasal verbs como “hang on” ou “put out” também podem afetar o conhecimento do mecanismo NLU.

Como corrigir: a melhor maneira de reduzir a ambiguidade é continuar treinando o mecanismo NLU para frases e frases ambíguas. Com o tempo, o mecanismo começa a aprender com as entradas de teste comparando-as com interações reais do usuário.

Outras maneiras de reduzir a ambiguidade em mecanismos NLU e chatbots de IA:

Aproveite os modelos de aprendizado de máquina para um melhor treinamento de NLU : use modelos de aprendizado de máquina sensíveis ao contexto, como Representações de codificador bidirecional de transformadores (BERT) e Embeddings de modelo de linguagem (ELMo) para treinar seu mecanismo de NLU. Esses modelos de IA consideram todas as diferentes representações de palavras e frases e usam texto adicional para preencher entradas ambíguas do usuário.
Crie prompts apropriados para verificar novamente as incertezas do idioma : Habilite seu mecanismo NLU para fornecer respostas de “desambiguação” que solicitem aos usuários que escolham a versão correta de seu texto em mais de uma possibilidade. Isso é bastante semelhante ao prompt “Você quis dizer…” do Google, que contém as possíveis variações do seu termo de pesquisa.
Treine e treine ainda mais : treine seus motores NLU rigorosamente para separar os sinais do ruído. Não há atalhos para uma melhor detecção de intenção do que treinar seu mecanismo NLU com conjuntos de dados variados e exclusivos. As solicitações do usuário podem conter palavras e formações de frases que afetam as habilidades de marcação de intenção do mecanismo NLU.

Erros de idioma

Erros de ortografia e formações de frases inadequadas podem impedir que o mecanismo NLU identifique a intenção do usuário com precisão. Embora as verificações gramaticais possam resolver erros básicos, gírias e linguagem coloquial são difíceis de interpretar, especialmente na conversão de texto em fala e na análise de fala.

Como corrigi-lo: mais uma vez, a chave para superar esse problema é alimentar o mecanismo NLU com vastos conjuntos de enunciados falsos imprecisos carregados de erros e linguagem defeituosa.

Variações de domínio

Domain-speak é outra área que difere de uma indústria para outra. A “documentação” na área da saúde pode variar do fluxo de trabalho da “documentação” na tecnologia.

Como corrigir: definir claramente as hierarquias de intenção pode ajudar seu mecanismo NLU a determinar o setor ou domínio ao qual uma resposta ou expressão do cliente está associada.

Qualidades que caracterizam os motores NLU de alto desempenho

As habilidades cognitivas dos motores NLU são apenas um dos fatores a serem considerados ao avaliá-los para sua empresa. Ele ajuda a superar o tedioso esforço manual que impede a compreensão da intenção do usuário em escala.

Além disso, aqui estão algumas qualidades mais importantes a serem observadas em um mecanismo NLU:

1. Velocidade

O mecanismo NLU precisa gerar resultados rapidamente, pois a IA conversacional trata de entender a intenção do cliente de responder com velocidade e precisão. A velocidade de processamento de uma interação com o cliente não deve diminuir a precisão da detecção de intenção do mecanismo NLU.

2. Verticalização

Os mecanismos NLU têm uma infinidade de casos de uso que abrangem setores como tecnologia, varejo, comércio eletrônico, logística e hospitalidade. A funcionalidade de IA conversacional deve ser capaz de distinguir entre esses setores e se adaptar a cada área de solução com uma abordagem única.

3. Facilidade de uso

Procure mecanismos de NLU que incluam perfis de funcionários não técnicos. A compreensão de como testar e treinar conjuntos de dados não deve se limitar a engenheiros e desenvolvedores de garantia de qualidade. É algo que os empresários com formação não técnica podem fazer sozinhos. A IA de conversação alimentada por mecanismos NLU sem código é a maneira de melhorar a adoção e a usabilidade.

4. Escalabilidade

Com cada vez mais entradas de dados que um mecanismo NLU reúne, ele precisa se treinar em várias semânticas regionais, variações linguísticas e diferentes entidades de expressão do usuário. Crie uma estrutura NLU que possa processar vários idiomas e preparar seus chatbots de IA conversacionais para o futuro .

O que torna o mecanismo NLU da Sprinklr um líder de mercado em IA conversacional?

O mecanismo de IA da Sprinklr foi desenvolvido especificamente para entender e contextualizar todo o espectro do gerenciamento da experiência do cliente. Aqui estão sete diferenciais que diferenciam a Sprinklr AI das plataformas convencionais de AI conversacional:

1. Classificação precisa da mensagem

Leia, decifre e analise automaticamente as mensagens do cliente, classifique-as como intenções e defina equipes internas para atribuição precisa de casos.

2. Detecção de crise diligente

Acione alertas quando as interações com o cliente saem do controle usando parâmetros predeterminados, como menções e palavras-chave negativas à marca ou sinais de angústia identificados por IA, como detecção de sentimentos.

3. Assistência virtual sensível ao contexto

Gere respostas automatizadas para clientes ou forneça assistência de IA a agentes com base em dados de clientes disponíveis, base de conhecimento e histórico de interações entre canais.

4. Análise preditiva pronta para o futuro

Preveja não apenas o atendimento ao cliente, mas também as tendências do mercado, como tópicos populares, macroeconomia, sentimento do consumidor, crises de relações públicas e mudanças nas referências do setor para realinhar seus roteiros de produto e marketing. A IA da Sprinklr pode reconhecer padrões em canais digitais, dados demográficos de clientes e muito mais com detalhamentos de dados contextuais.

5. Interpretações visuais inteligentes

Processe dados visuais envolvidos nas interações da marca e do cliente para definir imagens e vídeos com precisão sem um agente humano.

6. Estúdio de IA de ponta a ponta

Treine, teste e implante modelos de IA no Sprinklr para melhor escuta social, classificação de mensagens, IA conversacional e chatbots, automação de respostas e comunidades de autoatendimento .

7. Moderação de interação com a marca

Monitore cada interação agente-cliente para garantir a aderência às diretrizes internas da marca e gere relatórios para identificar áreas de melhoria para aumentar a satisfação do cliente (CSAT) e reduzir os principais fatores de contato.

Deseja dimensionar seu suporte ao cliente com personalização sem toque e eficiência operacional? O mecanismo NLU da Sprinklr pode ser a ponte que você precisa — ele vem com milhões de previsões de IA, pontos de dados e centenas de modelos de IA instantaneamente implantáveis.

Comece sua avaliação gratuita do Modern Care Lite

Descubra como a Sprinklr ajuda as empresas a oferecer uma experiência premium em mais de 13 canais, usando a IA fundamental para que você possa ouvir, encaminhar, resolver e medir — em toda a experiência do cliente.