Benchmarking silników NLU: podejście oparte na danych dla liderów rynku AI

Opublikowany: 2022-09-09

Mechanizmy zrozumienia języka naturalnego (NLU) są ogromnymi czynnikami wpływającymi na nastroje klientów. Sztuczna inteligencja i NLU ewoluowały tak bardzo, że pracownik Google zwrócił na siebie uwagę całego świata, gdy twierdził, że chatbot firmy LaMDA jest samoświadomym człowiekiem.

Ale nie martw się. Nie jesteśmy tutaj, aby straszyć Cię opowieściami o botach AI przejmujących świat lub obsłudze klienta.

Około 71% amerykańskich konsumentów nadal preferuje ludzki kontakt w rozmowach z obsługą klienta i właśnie tam wkraczają silniki wzorcowe NLU.

NLU może pomóc agentom lepiej zrozumieć i obsługiwać klientów, dodając warstwy wiedzy, kontekstu i sentymentu do interakcji z klientami. Oparta na wzorcowych silnikach NLU, konwersacyjna sztuczna inteligencja pozwala markom być bardziej inteligentnymi i empatycznymi oraz dostrzegać ukryte wskazówki dla klientów, aby obsługa klienta była bardziej osobista i mniej maszynowa.

Ale jak porównujesz silniki NLU, aby ocenić ich możliwości AI? Aby się tam dostać, najpierw zrozummy kluczowe terminy techniczne.

Słownik testów porównawczych silników NLU

  • Konwersacyjna sztuczna inteligencja
    Konwersacyjna sztuczna inteligencja to funkcja oparta na NLU, która umożliwia komputerom i aplikacjom cyfrowym angażowanie klientów z empatią poprzez rozpoznawanie emocji, pilności i kontekstu leżących u podstaw ludzkich rozmów.

  • Zbiór danych
    Zestaw danych to zbiór powiązanych zestawów informacji, które komputery mogą przetwarzać jako pojedynczy zestaw informacji.

  • Wypowiedź
    Wypowiedź to fraza lub zdanie wypowiedzi użytkownika otrzymane za pośrednictwem tekstu, dźwięku lub wideo. Silniki NLU wykorzystują wypowiedzi do trenowania, testowania i interpretowania intencji użytkownika.

  • Zamiar
    Intencja wskazuje cel użytkownika stojący za działaniami, zdarzeniami lub oświadczeniami. Na przykład działanie użytkownika można sklasyfikować jako zapytanie o produkt, skargę, prośbę o zwrot pieniędzy itp.

  • Precyzja
    Dokładność to procent zdań testowych dopasowanych do właściwej intencji przez silnik NLU.

  • F1 Makro
    Średnia harmoniczna makro średnich precyzji i przywoływania dla każdego zamiaru jest nazywana F1 Macro.

    Precyzja = liczba prawdziwie pozytywnych wyników w kierunku zamiaru/wszystkie pozytywne wyniki w kierunku zamiaru.
    Przypomnienie = liczba prawdziwie pozytywnych wyników w kierunku zamiaru/liczba wyników zidentyfikowanych jako pozytywne w kierunku zamiaru.

Benchmarking silników NLU: zrozum proces

Porównywanie silników NLU może być żmudnym procesem. Tworzenie krótkiej listy rozwiązań obsługujących NLU i przejście przez ćwiczenie testowania wspólnych intencji zaobserwowanych u klientów może być czasochłonne. W tym miejscu przydatne jest ustrukturyzowane podejście poparte badaniami do oceny silników NLU i ich zdolności intuicyjnej sztucznej inteligencji z podejściem wolnym od uprzedzeń.

Benchmarking usług rozumienia języka naturalnego na potrzeby budowania agentów konwersacyjnych

Ta metoda analizy porównawczej NLU porównuje silniki NLU w zestawie danych dla bota automatyki domowej z podziałem na małe i duże zestawy danych, aby ocenić dokładność uczenia maszynowego w różnych rozmiarach danych treningowych i testowych.

Metodologia stosowana w metodzie benchmarkingu NLU

Mały zestaw danych

  • 64 różne intencje są wybierane losowo

  • 10 przykładowych zdań jest używanych dla każdego zamiaru trenowania silnika NLU

  • Testowanych jest 1076 przykładowych zdań (nie wchodzących w skład zestawu szkoleniowego)

Duży zestaw danych

  • Te same 64 intencje wymienione powyżej są wybierane dla dużego zestawu danych

  • Około 30 przykładowych zdań jest używanych dla każdego zamiaru trenowania silnika NLU

  • Testowanych jest 5518 przykładowych zdań (które nie są częścią zestawu szkoleniowego)

Raport porównawczy silnika NLU: wynik

Metoda benchmarkingu NLU pokazuje, że dokładność NLP Sprinklr dzięki przywoływaniu i makrom F1 jest znacznie wyższa niż jej rówieśnicy — Google Cloud, Azure Language Studio i AWS Comprehend. Dane i wyniki benchmarkingu można znaleźć tutaj .

Jeśli podzielimy benchmark silnika NLU na małe i duże zestawy danych, silnik Sprinklr NLU nadal będzie wyraźnym zwycięzcą.

Uwaga : większe zestawy danych to najlepszy sposób na testowanie i trenowanie intencji w celu uzyskania większej dokładności. Jednak różnica w dokładności w przypadku silnika NLU firmy Sprinklr wynosi tylko ≤ 3%.

Mały zestaw danych

Parametry:

  • 640 zdań szkoleniowych = 10 zdań na intencję

  • 1076 zdań testowych

Zasób 67@4xZasób 68@4x

Duży zestaw danych


Parametry:

  • 1908 zdań szkoleniowych ≈ 30 zdań na intencję

  • 5518 zdań testowych

Zasób 69@4xZasób 70@4x

Sprinklr jawi się jako wyraźny zwycięzca w testach porównawczych silników NLU

Silnik NLU firmy Sprinklr pozostaje spójny i dokładny w określaniu celu zapytań, z lepszym mapowaniem między danymi wejściowymi testu a danymi wejściowymi uczącymi.

Przykład 1: Mały zestaw danych

Pytanie: czy jest coś, o czym muszę wiedzieć?
Podstawowa prawda: calendar_query

Zasób 71@4x-100

Przykład 2: Duży zestaw danych

Zapytanie: ile krajów jest w Unii Europejskiej
Podstawowa prawda: qa_factoid

Zasób 72@4x-100

Ograniczenia benchmarkingu silników NLU

  • Rozmiar zestawu danych : Ponieważ wykorzystano dużą liczbę dobrze zbadanych zestawów danych, silniki NLU mogły uczyć się z wypowiedzi testowych szybciej niż miało to miejsce w przypadku zwykle znajdowanych surowych, ustrukturyzowanych danych.

  • Użyte języki: Tylko angielski był używany do testowania różnych instancji i intencji.

  • Charakter danych testowych : wypowiedzi użytkowników mogą nie brzmieć jak typowi klienci, którzy mogą popełniać więcej błędów gramatycznych i mieć luki w rozmowie.

Najczęstsze wyzwania związane z interpretacją silnika NLU

Typowe silniki NLU mają pewne ograniczenia, zwłaszcza podczas interpretacji interakcji z klientami. Oto najczęstsze błędy interpretacji silników NLU i strategie ich unikania:

Sarkazm

Silniki NLU mogą mieć problemy z wykryciem sarkazmu lub pasywno-agresywnych komentarzy klientów.

Zasób 76@4x

Jak to naprawić: jednym ze sposobów na rozwiązanie tego problemu jest dodanie słów kluczowych, takich jak „dziękuję, wow, cokolwiek”, które mają być uruchamiane obok agentów przed zatwierdzeniem automatycznej odpowiedzi silnika NLU.

Niejasność

Czasami ludzie mają trudności z rozróżnieniem, czy słowo w zdaniu jest używane jako rzeczownik, czasownik lub przymiotnik. Czasowniki frazowe, takie jak „zawiesić się” lub „zgasić”, mogą również wpływać na rozpoznawanie silnika NLU.

Jak to naprawić: najlepszym sposobem na zmniejszenie niejednoznaczności jest ciągłe trenowanie silnika NLU pod kątem niejednoznacznych zdań i fraz. Z czasem silnik zaczyna uczyć się na podstawie danych wejściowych testowych, porównując je z rzeczywistymi interakcjami użytkownika.

Inne sposoby na zmniejszenie niejednoznaczności w silnikach NLU i chatbotach AI:

  • Wykorzystaj modele uczenia maszynowego w celu lepszego uczenia NLU : używaj kontekstowych modeli uczenia maszynowego, takich jak dwukierunkowe reprezentacje kodera z transformatorów (BERT) i osadzania z modelu językowego (ELMo), aby trenować swój silnik NLU. Te modele sztucznej inteligencji uwzględniają wszystkie różne reprezentacje słów i zdań i wykorzystują dodatkowy tekst do wypełniania niejednoznacznych wpisów użytkownika.

  • Twórz odpowiednie podpowiedzi, aby dwukrotnie sprawdzić niejasności językowe : Włącz silnik NLU, aby zapewniał odpowiedzi „ujednoznaczniające”, które zachęcają użytkowników do wybrania właściwej wersji tekstu z więcej niż jednej możliwości. Jest to bardzo podobne do monitu „Czy chodziło Ci o…” od Google, który zawiera możliwe odmiany wyszukiwanego hasła.

  • Trenuj i trenuj jeszcze więcej : Rygorystycznie trenuj swoje silniki NLU, aby oddzielić sygnały od hałasu. Nie ma skrótów do lepszego wykrywania zamiarów niż szkolenie silnika NLU za pomocą zróżnicowanych i unikalnych zestawów danych. Żądania użytkownika mogą zawierać słowa i układy zdań, które wpływają na możliwości tagowania intencji silnika NLU.

Zasób 77@4x

Błędy językowe

Błędy w pisowni i niewłaściwe formacje zdań mogą zniechęcić silnik NLU do dokładnego identyfikowania intencji użytkownika. Podczas gdy testy gramatyczne mogą rozwiązać podstawowe błędy, slang i język potoczny są trudne do zinterpretowania, zwłaszcza w przypadku analizy tekstu na mowę i mowy.

Jak to naprawić: po raz kolejny kluczem do przezwyciężenia tego problemu jest zasilenie silnika NLU ogromnymi zestawami niedokładnych fałszywych wypowiedzi, obarczonych błędami i błędnym językiem.

Odmiany domeny

Język domen to kolejny obszar, który różni się w zależności od branży. „Dokumentacja” w opiece zdrowotnej może różnić się od przepływu „dokumentacji” w technologii.

Jak to naprawić: jasne zdefiniowanie hierarchii intencji może pomóc Twojemu silnikowi NLU określić branżę lub domenę, z którą powiązana jest odpowiedź lub wypowiedź klienta.

Cechy charakteryzujące najlepiej działające silniki NLU

Zdolności poznawcze silników NLU to tylko jeden z czynników, które należy wziąć pod uwagę przy ocenie ich dla Twojej firmy. Pomaga przezwyciężyć żmudny wysiłek ręczny, który stoi na drodze do zrozumienia intencji użytkownika na dużą skalę.

Ponadto, oto kilka ważniejszych cech, na które należy zwrócić uwagę w silniku NLU:

1. Prędkość

Silnik NLU musi szybko przynosić wyniki, ponieważ konwersacyjna sztuczna inteligencja polega na zrozumieniu intencji klienta, aby reagować szybko i dokładnie. Szybkość przetwarzania interakcji z klientem nie powinna zmniejszać dokładności wykrywania intencji silnika NLU.

2. Pionizacja

Silniki NLU mają wiele zastosowań obejmujących branże, takie jak technologia, handel detaliczny, handel elektroniczny, logistyka i hotelarstwo. Funkcjonalność konwersacyjnej AI powinna być w stanie rozróżnić te branże i dostosować się do każdego obszaru rozwiązania z unikalnym podejściem.

3. Łatwość użytkowania

Zwróć uwagę na silniki NLU, które zawierają profile pracowników nietechnicznych. Zrozumienie, jak testować i szkolić zestawy danych, nie powinno ograniczać się do inżynierów i programistów ds. zapewnienia jakości. To coś, co właściciele firm, którzy nie mają doświadczenia w technologii, mogą sami zrobić. Konwersacyjna sztuczna inteligencja oparta na silnikach NLU bez kodu to sposób na poprawę adaptacji i użyteczności.

4. Skalowalność

Przy coraz większej liczbie danych wejściowych, które gromadzi silnik NLU, musi szkolić się w różnych regionalnych semantykach, odmianach językowych i różnych jednostkach wyrażenia użytkownika. Zbuduj strukturę NLU, która może przetwarzać wiele języków i zabezpieczyć na przyszłość Twoje konwersacyjne chatboty AI .

Co sprawia, że ​​silnik NLU firmy Sprinklr jest liderem na rynku konwersacyjnej sztucznej inteligencji?

Silnik AI firmy Sprinklr został zaprojektowany w celu zrozumienia i kontekstualizacji całego spektrum zarządzania doświadczeniami klientów. Oto siedem wyróżników, które odróżniają Sprinklr AI od konwencjonalnych konwersacyjnych platform AI:

1. Dokładna klasyfikacja wiadomości

Automatycznie czytaj, odszyfruj i analizuj wiadomości klientów, klasyfikuj je jako intencje i definiuj zespoły wewnętrzne w celu dokładnego przypisania spraw.

2. Staranne wykrywanie kryzysów

Uruchamiaj alerty, gdy interakcje z klientami wymykają się spod kontroli przy użyciu z góry określonych parametrów, takich jak negatywne wzmianki o marce i słowa kluczowe lub zidentyfikowane przez sztuczną inteligencję oznaki niepokoju, takie jak wykrywanie sentymentu.

3. Kontekstowa pomoc wirtualna

Generuj automatyczne odpowiedzi dla klientów lub udzielaj pomocy AI agentom na podstawie dostępnych danych klientów, bazy wiedzy i historii interakcji we wszystkich kanałach.

4. Analiza predykcyjna gotowa na przyszłość

Przewiduj nie tylko obsługę klienta, ale także trendy rynkowe, takie jak popularne tematy, makroekonomia, nastroje konsumentów, kryzysy PR i zmieniające się standardy branżowe, aby dostosować swoje plany produktowe i marketingowe. Sztuczna inteligencja firmy Sprinklr może rozpoznawać wzorce w kanałach cyfrowych, dane demograficzne klientów i nie tylko dzięki kontekstowym podziałom danych.

Zasób 78@4x

5. Inteligentne interpretacje wizualne

Przetwarzaj dane wizualne związane z interakcjami z marką i klientami, aby dokładnie zdefiniować obrazy i filmy bez udziału człowieka.

6. Kompleksowe studio AI

Trenuj, testuj i wdrażaj modele sztucznej inteligencji w firmie Sprinklr, aby zapewnić lepsze nasłuchiwanie w mediach społecznościowych, klasyfikację wiadomości, konwersacyjną sztuczną inteligencję i chatboty, automatyzację odpowiedzi i społeczności samoobsługowe .

7. Moderacja interakcji z marką

Monitoruj każdą interakcję między agentem a klientem, aby zapewnić zgodność z wewnętrznymi wytycznymi marki i generuj raporty w celu zidentyfikowania obszarów poprawy w celu zwiększenia satysfakcji klienta (CSAT) i zmniejszenia liczby najważniejszych czynników kontaktowych.

Czy chcesz skalować obsługę klienta dzięki bezdotykowej personalizacji i wydajności operacyjnej? Silnik NLU firmy Sprinklr może być mostem, którego potrzebujesz — zawiera miliony prognoz AI, punktów danych i setki modeli AI, które można natychmiast wdrożyć.

Rozpocznij bezpłatny okres próbny Modern Care Lite

Dowiedz się, jak Sprinklr pomaga firmom zapewniać najwyższej jakości obsługę w ponad 13 kanałach, wykorzystując podstawową sztuczną inteligencję, dzięki czemu możesz słuchać, kierować, rozwiązywać i mierzyć — w ramach obsługi klienta.