NLU-Engine-Benchmarking: ein datengesteuerter Ansatz für KI-Marktführer

Veröffentlicht: 2022-09-09

Natural Language Understanding (NLU)-Engines sind massive Treiber für die Kundenstimmung. KI und NLU haben sich so stark weiterentwickelt, dass ein Google-Mitarbeiter weltweite Aufmerksamkeit erregte, als er behauptete, der Chatbot des Unternehmens, LaMDA, sei ein selbstbewusster Mensch.

Aber keine Sorge. Wir sind nicht hier, um Sie mit Geschichten über KI-Bots zu erschrecken, die die Welt erobern, oder mit Kundenservice.

Ungefähr 71 % der amerikanischen Verbraucher bevorzugen immer noch eine menschliche Note in ihren Kundendienstgesprächen, und hier kommen Benchmark-NLU-Engines ins Bild.

NLU kann Agenten dabei helfen, Kunden besser zu verstehen und zu betreuen, indem sie den Kundeninteraktionen Ebenen von Wissen, Kontext und Stimmung hinzufügen. Angetrieben von Benchmark-NLU-Engines ermöglicht Conversational AI Marken, intelligenter und einfühlsamer zu sein und versteckte Kundenhinweise zu erkennen, um den Kundenservice persönlicher und weniger maschinenähnlich zu gestalten.

Aber wie bewertet man NLU-Engines, um ihre KI-Fähigkeiten zu bewerten? Um dorthin zu gelangen, wollen wir zunächst die wichtigsten Fachbegriffe verstehen.

NLU-Engine-Benchmarking-Glossar

Konversations-KI
Conversational AI ist eine NLU-basierte Funktion, die es Computern und digitalen Anwendungen ermöglicht, Kunden mit Empathie anzusprechen, indem sie Emotionen, Dringlichkeit und Kontext erkennen, die menschlichen Gesprächen zugrunde liegen.
Datensatz
Ein Datensatz ist eine Sammlung verwandter Informationssätze, die Computer als einen einzigen Informationssatz verarbeiten können.
Äußerung
Die Äußerung ist eine Phrase oder ein Satz der Benutzersprache, die über Text, Audio oder Video empfangen wird. NLU-Engines verwenden Äußerungen, um Benutzerabsichten zu trainieren, zu testen und zu interpretieren.
Absicht
Die Absicht gibt das Ziel eines Benutzers hinter Aktionen, Ereignissen oder Aussagen an. Beispielsweise kann eine Benutzeraktion als Produktanfrage, Beschwerde, Rückerstattungsanforderung usw. kategorisiert werden.
Genauigkeit
Die Genauigkeit ist der Prozentsatz der Testsätze, die von der NLU-Engine mit der richtigen Absicht abgeglichen wurden.
F1-Makro
Das harmonische Mittel der Makro-Durchschnittswerte von Precision und Recall für jede Absicht wird als F1-Makro bezeichnet.

Präzision = Anzahl der richtig positiven Ergebnisse in Bezug auf eine Absicht/alle positiven Ergebnisse in Bezug auf eine Absicht.
Recall = Anzahl der richtig positiven Ergebnisse in Bezug auf eine Absicht/Anzahl der Ergebnisse, die als positiv in Bezug auf eine Absicht identifiziert wurden.

NLU-Engine-Benchmarking: Den Prozess verstehen

Der Vergleich von NLU-Engines kann ein langwieriger Prozess sein. Es kann zeitaufwändig sein, eine Reihe von NLU-fähigen Lösungen in die engere Wahl zu ziehen und die bei Ihren Kunden beobachteten gemeinsamen Absichten zu testen. Hier ist ein strukturierter Ansatz, der durch Forschung unterstützt wird, praktisch, um NLU-Engines und ihre KI-Intuitionsfähigkeit mit einem vorurteilsfreien Ansatz zu bewerten.

Benchmarking von Diensten zum Verstehen natürlicher Sprache zum Aufbau von Konversationsagenten

Diese NLU-Benchmarking- Methode vergleicht NLU-Engines mit dem Datensatz für einen Heimautomatisierungs-Bot, der in kleine und große Datensätze unterteilt ist, um die Genauigkeit des maschinellen Lernens über verschiedene Trainings- und Testdatengrößen hinweg zu bewerten.

In der NLU-Benchmarking-Methode verwendete Methodik

Kleiner Datensatz

64 verschiedene Absichten werden zufällig ausgewählt
10 Beispielsätze werden für jede Absicht verwendet, um die NLU-Engine zu trainieren
1.076 Beispielsätze (die nicht Teil des Trainingssatzes sind) werden getestet

Großer Datensatz

Dieselben 64 oben erwähnten Absichten werden für den großen Datensatz ausgewählt
Etwa 30 Beispielsätze werden für jede Absicht verwendet, um die NLU-Engine zu trainieren
5.518 Beispielsätze (die nicht Teil des Trainingssatzes sind) werden getestet

NLU-Engine-Benchmark-Bericht: das Ergebnis

Die NLU-Benchmarking-Methode zeigt, dass die NLP-Genauigkeit von Sprinklr aufgrund von Abruf- und F1-Makros weit über seinen Zeitgenossen liegt – Google Cloud, Azure Language Studio und AWS Comprehend. Die Benchmarking-Daten und -Ergebnisse finden Sie hier .

Wenn wir das NLU-Engine-Benchmarking auf kleine und große Datensätze herunterbrechen, ist die Sprinklr-NLU-Engine immer noch ein klarer Gewinner.

Hinweis : Größere Datensätze sind der beste Weg, Absichten für eine höhere Genauigkeit zu testen und zu trainieren. Aber die Abweichung in der Genauigkeit mit der NLU-Engine von Sprinklr beträgt nur ≤ 3 %.

Kleiner Datensatz

Parameter:

640 Trainingssätze = 10 Sätze pro Intent
1.076 Testsätze

Großer Datensatz

Parameter:

1.908 Trainingssätze ≈ 30 Sätze pro Intent
5.518 Testsätze

Sprinklr geht als klarer Gewinner im NLU-Engine-Benchmarking hervor

Die NLU-Engine von Sprinklr bleibt konsistent und genau bei der Bestimmung der Absicht von Abfragen, mit einer besseren Zuordnung zwischen Testeingaben und Trainingseingaben.

Beispiel 1: Kleiner Datensatz

Frage: Muss ich irgendetwas beachten?
Grundwahrheit: Kalender_Abfrage

Beispiel 2: Großer Datensatz

Frage: Wie viele Länder gehören zur Europäischen Union?
Grundwahrheit: qa_factoid

Einschränkungen des NLU-Engine-Benchmarkings

Größe des Datensatzes : Da eine große Anzahl gut recherchierter Datensätze verwendet wurde, haben NLU-Engines möglicherweise schneller aus den Testäußerungen gelernt, als dies bei den typischerweise gefundenen rohen, strukturierten Daten der Fall war.
Verwendete Sprachen: Es wurde nur Englisch verwendet, um verschiedene Instanzen und Absichten zu testen.
Art der Testdaten : Die Äußerungen der Benutzer klingen möglicherweise nicht wie typische Kunden, die mehr Grammatikfehler machen und Gesprächslücken haben könnten.

Die häufigsten Herausforderungen bei der Interpretation von NLU-Engines

Typische NLU-Engines weisen bestimmte Einschränkungen auf, insbesondere bei der Interpretation von Kundeninteraktionen. Hier sind die häufigsten Fehler bei der Interpretation von NLU-Engines und die Strategien zu ihrer Vermeidung:

Sarkasmus

NLU-Engines können Schwierigkeiten haben, Sarkasmus oder passiv-aggressive Kundenkommentare zu erkennen.

So beheben Sie das Problem: Eine Möglichkeit, dies zu umgehen, besteht darin, Schlüsselwörter wie „Danke, wow, was auch immer“ hinzuzufügen, die an Agenten vorbeigeführt werden, bevor die automatische NLU-Engine-Antwort genehmigt wird.

Mehrdeutigkeit

Manchmal fällt es Menschen schwer, zu unterscheiden, ob ein Wort in einem Satz als Substantiv, Verb oder Adjektiv verwendet wird. Phrasal Verbs wie „hang on“ oder „put out“ können sich ebenfalls auf die Wahrnehmung der NLU-Engine auswirken.

So beheben Sie das Problem: Der beste Weg, Mehrdeutigkeiten zu reduzieren, besteht darin, die NLU-Engine weiterhin auf mehrdeutige Sätze und Phrasen zu trainieren. Im Laufe der Zeit lernt die Engine aus den Testeingaben, indem sie sie mit echten Benutzerinteraktionen vergleicht.

Andere Möglichkeiten, Mehrdeutigkeiten in NLU-Engines und KI-Chatbots zu reduzieren:

Nutzen Sie Machine-Learning-Modelle für ein besseres NLU-Training : Verwenden Sie kontextsensitive Machine-Learning-Modelle wie Bidirectional Encoder Representations from Transformers (BERT) und Embeddings from Language Model (ELMo), um Ihre NLU-Engine zu trainieren. Diese KI-Modelle berücksichtigen alle unterschiedlichen Darstellungen von Wörtern und Sätzen und verwenden zusätzlichen Text, um mehrdeutige Benutzereingaben auszufüllen.
Erstellen Sie geeignete Eingabeaufforderungen, um Sprachunsicherheiten zu überprüfen: Aktivieren Sie Ihre NLU-Engine, um „Begriffsklärungs“-Antworten bereitzustellen, die Benutzer auffordern, die richtige Version ihres Textes aus mehr als einer Möglichkeit auszuwählen. Dies ist ganz ähnlich wie die „Meinten Sie…“-Aufforderung von Google, die die möglichen Variationen Ihres Suchbegriffs enthält.
Trainiere und trainiere noch mehr : Trainiere deine NLU-Engines rigoros, um Signale von Rauschen zu trennen. Es gibt keine Abkürzungen für eine bessere Absichtserkennung, als Ihre NLU-Engine mit unterschiedlichen und einzigartigen Datensätzen zu trainieren. Benutzeranfragen können Wörter und Satzformationen enthalten, die sich auf die Tagging-Fähigkeiten der NLU-Engine auswirken.

Sprachfehler

Rechtschreibfehler und falsche Satzbildungen können die NLU-Engine davon abhalten, die Benutzerabsicht genau zu identifizieren. Während Grammatikprüfungen einfache Fehler beheben können, sind Umgangssprache und Umgangssprache schwer zu interpretieren, insbesondere bei Text-to-Speech und Sprachanalyse.

Wie man es behebt: Auch hier besteht der Schlüssel zur Überwindung dieses Problems darin, die NLU-Engine mit riesigen Mengen ungenauer Scheinäußerungen zu füttern, die mit Fehlern und fehlerhafter Sprache beladen sind.

Domain-Variationen

Domänensprache ist ein weiterer Bereich, der sich von Branche zu Branche unterscheidet. Die „Dokumentation“ im Gesundheitswesen kann sich vom „Dokumentations“-Workflow in der Technologie unterscheiden.

So beheben Sie das Problem: Die klare Definition der Absichtshierarchien kann Ihrer NLU-Engine dabei helfen, die Branche oder Domäne zu bestimmen, mit der eine Kundenantwort oder -äußerung verknüpft ist.

Eigenschaften, die leistungsstarke NLU-Engines auszeichnen

Die kognitiven Fähigkeiten von NLU-Engines sind nur einer der Faktoren, die Sie bei der Bewertung für Ihr Unternehmen berücksichtigen sollten. Es hilft, den mühsamen manuellen Aufwand zu überwinden, der dem umfassenden Verständnis der Benutzerabsicht im Wege steht.

Darüber hinaus sind hier einige weitere wichtige Eigenschaften, auf die Sie bei einer NLU-Engine achten sollten:

1. Geschwindigkeit

Die NLU-Engine muss schnell Ergebnisse liefern, da es bei der Konversations-KI darum geht, die Absicht des Kunden zu verstehen, schnell und genau zu reagieren. Die Geschwindigkeit der Verarbeitung einer Kundeninteraktion sollte die Genauigkeit der Absichtserkennung der NLU-Engine nicht beeinträchtigen.

2. Vertikalisierung

NLU-Engines haben eine Vielzahl von Anwendungsfällen, die sich über Branchen wie Technologie, Einzelhandel, E-Commerce, Logistik und Gastgewerbe erstrecken. Die Conversational AI-Funktionalität sollte in der Lage sein, zwischen diesen Branchen zu unterscheiden und sich mit einem einzigartigen Ansatz an jeden Lösungsbereich anzupassen.

3. Benutzerfreundlichkeit

Halten Sie Ausschau nach NLU-Engines, die nicht-technische Mitarbeiterprofile enthalten. Das Verständnis, wie Datensätze getestet und trainiert werden, sollte nicht auf Qualitätssicherungsingenieure und Entwickler beschränkt sein. Es ist etwas, was Geschäftsinhaber ohne technischen Hintergrund selbst tun können. Konversations-KI, die von No-Code-NLU-Engines unterstützt wird, ist der Weg, um die Akzeptanz und Benutzerfreundlichkeit zu verbessern.

4. Skalierbarkeit

Mit immer mehr Dateneingaben, die eine NLU-Engine sammelt, muss sie sich selbst in verschiedenen regionalen Semantiken, sprachlichen Variationen und verschiedenen Einheiten des Benutzerausdrucks trainieren. Erstellen Sie ein NLU-Framework, das mehrere Sprachen verarbeiten kann, und machen Sie Ihre Konversations-KI-Chatbots zukunftssicher .

Was macht die NLU-Engine von Sprinklr zu einem Marktführer im Bereich Conversational AI?

Die KI-Engine von Sprinklr wurde speziell entwickelt, um das gesamte Spektrum des Kundenerlebnismanagements zu verstehen und zu kontextualisieren. Hier sind sieben Unterscheidungsmerkmale, die Sprinklr AI von herkömmlichen Konversations-KI-Plattformen unterscheiden:

1. Genaue Nachrichtenklassifizierung

Lesen, entschlüsseln und analysieren Sie automatisch Kundennachrichten, klassifizieren Sie sie als Absichten und definieren Sie interne Teams für eine genaue Fallzuweisung.

2. Sorgfältige Krisenerkennung

Lösen Sie Warnungen aus, wenn Kundeninteraktionen außer Kontrolle geraten, indem Sie vordefinierte Parameter wie negative Markenerwähnungen und Schlüsselwörter oder KI-identifizierte Anzeichen von Stress wie Stimmungserkennung verwenden.

3. Kontextbewusste virtuelle Unterstützung

Generieren Sie automatisierte Antworten für Kunden oder bieten Sie Agenten KI-Unterstützung auf der Grundlage verfügbarer Kundendaten, Wissensdatenbanken und des Verlaufs von Interaktionen über alle Kanäle hinweg.

4. Zukunftsfähige Vorhersageanalyse

Sehen Sie nicht nur den Kundenservice, sondern auch Markttrends wie beliebte Themen, Makroökonomie, Verbraucherstimmung, PR-Krisen und sich ändernde Branchenbenchmarks voraus, um Ihre Produkt- und Marketing-Roadmaps neu auszurichten. Die KI von Sprinklr kann Muster über digitale Kanäle, Kundendemografien und mehr mit kontextbezogenen Datenaufschlüsselungen erkennen.

5. Intelligente visuelle Interpretationen

Verarbeiten Sie visuelle Daten, die an Marken- und Kundeninteraktionen beteiligt sind, um Bilder und Videos ohne einen menschlichen Agenten genau zu definieren.

6. End-to-End-KI-Studio

Trainieren, testen und implementieren Sie KI-Modelle in Sprinklr für besseres Social Listening, Nachrichtenklassifizierung, Konversations-KI und Chatbots, Antwortautomatisierung und Self-Service-Communities .

7. Moderation von Markeninteraktionen

Überwachen Sie jede Agent-Kunden-Interaktion, um die Einhaltung interner Markenrichtlinien sicherzustellen, und erstellen Sie Berichte, um Verbesserungsbereiche zur Steigerung der Kundenzufriedenheit (CSAT) und zur Reduzierung der wichtigsten Kontakttreiber zu identifizieren.

Möchten Sie Ihren Kundensupport mit Zero-Touch-Personalisierung und betrieblicher Effizienz skalieren? Die NLU-Engine von Sprinklr kann die Brücke sein, die Sie brauchen – sie enthält Millionen von KI-Vorhersagen, Datenpunkte und Hunderte von sofort einsetzbaren KI-Modellen.

Starten Sie Ihre kostenlose Testversion von Modern Care Lite

Finden Sie heraus, wie Sprinklr Unternehmen dabei hilft, ein erstklassiges Erlebnis auf über 13 Kanälen bereitzustellen, indem es grundlegende KI verwendet, damit Sie zuhören, weiterleiten, lösen und messen können – über das gesamte Kundenerlebnis hinweg.