Tolok ukur mesin NLU: pendekatan berbasis data untuk pemimpin pasar AI
Diterbitkan: 2022-09-09Mesin Natural Language Understanding (NLU) adalah pendorong sentimen pelanggan yang sangat besar. AI dan NLU berkembang sedemikian rupa sehingga seorang karyawan Google menarik perhatian global ketika dia mengklaim bahwa chatbot perusahaan LaMDA adalah manusia yang sadar diri.
Tapi jangan khawatir. Kami di sini bukan untuk menakuti Anda dengan cerita tentang bot AI yang mengambil alih dunia, atau layanan pelanggan.
Sekitar 71% konsumen Amerika masih lebih suka sentuhan manusiawi dalam percakapan layanan pelanggan mereka, dan di situlah mesin benchmark NLU masuk ke dalam gambar.
NLU dapat membantu agen memahami dan melayani pelanggan dengan lebih baik dengan menambahkan lapisan pengetahuan, konteks, dan sentimen ke interaksi pelanggan. Didukung oleh mesin NLU benchmark, AI percakapan memungkinkan merek menjadi lebih cerdas dan berempati dan menemukan isyarat pelanggan yang tersembunyi untuk membuat layanan pelanggan lebih pribadi dan tidak seperti mesin.
Tetapi bagaimana Anda membandingkan mesin NLU untuk mengevaluasi kemampuan AI mereka? Untuk sampai ke sana, pertama-tama mari kita pahami istilah teknis utama.
Glosarium pembandingan mesin NLU
AI percakapan
AI Percakapan adalah kemampuan bertenaga NLU yang memungkinkan komputer dan aplikasi digital untuk melibatkan pelanggan dengan empati dengan mengenali emosi, urgensi, dan konteks yang mendasari percakapan manusia.Himpunan data
Kumpulan data adalah kumpulan kumpulan informasi terkait yang dapat diproses oleh komputer sebagai kumpulan informasi tunggal.Ucapan
Tuturan adalah frasa atau kalimat ucapan pengguna yang diterima melalui teks, audio, atau video. Mesin NLU menggunakan ucapan untuk melatih, menguji, dan menginterpretasikan maksud pengguna.Maksud
Intent menunjukkan tujuan pengguna di balik tindakan, peristiwa, atau pernyataan. Misalnya, tindakan pengguna dapat dikategorikan sebagai pertanyaan produk, keluhan, permintaan pengembalian dana, dll.Ketepatan
Akurasi adalah persentase kalimat uji yang cocok dengan maksud yang benar oleh mesin NLU.F1 Makro
Rata-rata harmonik dari rata-rata makro presisi dan ingatan untuk setiap maksud disebut F1 Makro.
Precision = jumlah hasil positif sejati terhadap suatu maksud/semua hasil positif terhadap suatu maksud.
Recall = jumlah hasil positif sejati terhadap suatu maksud/jumlah hasil yang diidentifikasi sebagai positif terhadap suatu maksud.
Pembandingan mesin NLU: pahami prosesnya
Membandingkan mesin NLU bisa menjadi proses yang membosankan. Mungkin memakan waktu untuk memilih serangkaian solusi berkemampuan NLU dan melalui latihan pengujian maksud umum yang diamati pada pelanggan Anda. Di situlah pendekatan terstruktur yang didukung oleh penelitian berguna untuk mengevaluasi mesin NLU dan kemampuan intuisi AI mereka dengan pendekatan bebas bias.
Benchmarking layanan pemahaman bahasa alami untuk membangun agen percakapan
Metode pembandingan NLU ini membandingkan mesin NLU pada kumpulan data untuk bot otomatisasi rumah yang dipecah menjadi kumpulan data kecil dan besar untuk mengevaluasi akurasi pembelajaran mesin pada ukuran data pelatihan dan pengujian yang berbeda.
Metodologi yang digunakan dalam metode benchmarking NLU
Kumpulan data kecil
64 maksud berbeda dipilih secara acak
10 contoh kalimat digunakan untuk setiap maksud untuk melatih mesin NLU
1.076 contoh kalimat (yang bukan merupakan bagian dari rangkaian pelatihan) diuji
Kumpulan data besar
64 maksud yang sama yang disebutkan di atas dipilih untuk kumpulan data besar
Sekitar 30 contoh kalimat digunakan untuk setiap maksud untuk melatih mesin NLU
5.518 contoh kalimat (yang bukan bagian dari rangkaian pelatihan) diuji
Laporan benchmark mesin NLU: hasilnya
Metode pembandingan NLU menunjukkan akurasi NLP Sprinklr berdasarkan ingatan dan makro F1 berada jauh di atas rekan-rekannya — Google Cloud, Azure Language Studio, dan AWS Comprehend. Data dan hasil benchmarking dapat ditemukan di sini .
Jika kita memecah benchmark mesin NLU menjadi kumpulan data kecil dan besar, mesin NLU Sprinklr masih merupakan pemenang yang jelas.
Catatan : Kumpulan data yang lebih besar adalah cara terbaik untuk menguji dan melatih maksud untuk akurasi yang lebih tinggi. Namun variasi akurasi dengan mesin NLU Sprinklr hanya 3%.
Kumpulan data kecil
Parameter:
640 kalimat pelatihan = 10 kalimat per Intent
1.076 kalimat percobaan
Kumpulan data besar
Parameter:
1.908 kalimat pelatihan 30 kalimat per Intent
5.518 kalimat percobaan
Sprinklr muncul sebagai pemenang yang jelas dalam benchmarking mesin NLU
Mesin NLU Sprinklr tetap konsisten dan akurat dalam menentukan maksud kueri, dengan pemetaan yang lebih baik antara input pengujian dan input pelatihan.
Contoh 1: Kumpulan data kecil
Pertanyaan: apakah ada yang perlu saya ketahui?
Kebenaran dasar: calendar_query
Contoh 2: Kumpulan data besar
Pertanyaan: berapa banyak negara di Uni Eropa
Kebenaran dasar: qa_factoid
Keterbatasan benchmarking mesin NLU
Ukuran kumpulan data : Karena sejumlah besar kumpulan data yang diteliti dengan baik digunakan, mesin NLU mungkin telah belajar dari ucapan uji lebih cepat daripada kasus dengan data mentah dan terstruktur yang biasanya ditemukan.
Bahasa yang digunakan: Hanya bahasa Inggris yang digunakan untuk menguji berbagai contoh dan maksud.
Sifat data pengujian : Ucapan pengguna mungkin tidak terdengar seperti pelanggan biasa, yang dapat membuat lebih banyak kesalahan tata bahasa dan memiliki celah percakapan.
Tantangan interpretasi mesin NLU yang paling umum
Mesin NLU khas datang dengan batasan tertentu, terutama saat menafsirkan interaksi pelanggan. Berikut adalah kesalahan interpretasi mesin NLU yang paling umum dan strategi untuk menghindarinya:
Sarkasme
Mesin NLU dapat berjuang untuk mendeteksi sarkasme atau komentar pelanggan pasif-agresif.
Cara memperbaikinya: salah satu cara untuk mengatasinya adalah dengan menambahkan kata kunci seperti “terima kasih, wow, apa pun” untuk dijalankan melewati agen sebelum menyetujui respons mesin NLU otomatis.
Kemenduaan
Terkadang, manusia kesulitan membedakan apakah sebuah kata dalam sebuah kalimat digunakan sebagai kata benda, kata kerja, atau kata sifat. Kata kerja phrasal seperti "bertahan" atau "padam" juga dapat mempengaruhi kesadaran mesin NLU.
Cara memperbaikinya: cara terbaik untuk mengurangi ambiguitas adalah dengan terus melatih mesin NLU untuk kalimat dan frasa yang ambigu. Seiring waktu, mesin mulai belajar dari input pengujian dengan membandingkannya dengan interaksi pengguna nyata.
Cara lain untuk mengurangi ambiguitas di mesin NLU dan chatbot AI:
Manfaatkan model pembelajaran mesin untuk pelatihan NLU yang lebih baik : Gunakan model pembelajaran mesin peka konteks seperti Bidirectional Encoder Representations from Transformers (BERT) dan Embeddings from Language Model (ELMo) untuk melatih mesin NLU Anda. Model AI ini mempertimbangkan semua representasi kata dan kalimat yang berbeda dan menggunakan teks tambahan untuk mengisi entri pengguna yang ambigu.
Buat petunjuk yang sesuai untuk memeriksa ulang ketidakpastian bahasa : Aktifkan mesin NLU Anda untuk memberikan tanggapan "disambiguasi" yang mendorong pengguna untuk memilih versi teks yang tepat dari lebih dari satu kemungkinan. Ini sangat mirip dengan permintaan "Apakah maksud Anda ..." dari Google, yang berisi kemungkinan variasi istilah pencarian Anda.
Latih dan latih lebih banyak lagi : Latih mesin NLU Anda dengan ketat untuk memisahkan sinyal dari kebisingan. Tidak ada jalan pintas untuk deteksi niat yang lebih baik daripada melatih mesin NLU Anda dengan kumpulan data yang bervariasi dan unik. Permintaan pengguna mungkin berisi formasi kata dan kalimat yang memengaruhi kemampuan penandaan maksud mesin NLU.
Kesalahan bahasa
Kesalahan ejaan dan formasi kalimat yang tidak tepat dapat menghalangi mesin NLU untuk mengidentifikasi maksud pengguna secara akurat. Sementara pemeriksaan tata bahasa dapat memecahkan kesalahan dasar, bahasa gaul dan bahasa sehari-hari sulit untuk ditafsirkan, terutama dalam analisis teks-ke-ucapan dan ucapan.
Cara memperbaikinya: sekali lagi, kunci untuk mengatasi masalah ini adalah memberi makan mesin NLU dengan kumpulan ucapan tiruan yang tidak akurat yang sarat dengan kesalahan dan bahasa yang salah.
Variasi domain
Domain-speak adalah area lain yang berbeda dari satu industri ke industri lainnya. "Dokumentasi" dalam perawatan kesehatan dapat bervariasi dari alur kerja "dokumentasi" dalam teknologi.
Cara memperbaikinya: mendefinisikan hierarki maksud dengan jelas dapat membantu mesin NLU Anda menentukan industri atau domain yang terkait dengan respons atau ucapan pelanggan.
Kualitas yang menjadi ciri mesin NLU berkinerja terbaik
Kemampuan kognitif mesin NLU hanyalah salah satu faktor yang perlu dipertimbangkan saat mengevaluasinya untuk perusahaan Anda. Ini membantu mengatasi upaya manual yang membosankan yang menghalangi pemahaman maksud pengguna dalam skala besar.
Selain itu, berikut adalah beberapa kualitas yang lebih penting untuk diperhatikan dalam mesin NLU:
1. Kecepatan
Mesin NLU harus memberikan hasil dengan cepat, karena AI percakapan adalah tentang memahami niat pelanggan untuk merespons dengan cepat dan akurat. Kecepatan pemrosesan interaksi pelanggan seharusnya tidak mengurangi akurasi deteksi maksud dari mesin NLU.
2. Vertikalisasi
Mesin NLU memiliki banyak kasus penggunaan yang mencakup industri seperti teknologi, ritel, e-commerce, logistik, dan perhotelan. Fungsionalitas AI percakapan harus dapat membedakan antara industri ini dan beradaptasi dengan setiap area solusi dengan pendekatan yang unik.
3. Kemudahan penggunaan
Carilah mesin NLU yang menyertakan profil karyawan non-teknis. Memahami cara menguji dan melatih kumpulan data tidak boleh terbatas pada insinyur dan pengembang jaminan kualitas. Ini adalah sesuatu yang dapat dilakukan sendiri oleh pemilik bisnis dengan latar belakang non-teknologi. AI percakapan yang didukung oleh mesin NLU tanpa kode adalah cara untuk meningkatkan adopsi dan kegunaan.
4. Skalabilitas
Dengan semakin banyak input data yang dikumpulkan oleh mesin NLU, ia harus melatih dirinya sendiri dalam berbagai semantik regional, variasi linguistik, dan entitas ekspresi pengguna yang berbeda. Bangun kerangka kerja NLU yang dapat memproses berbagai bahasa dan chatbot AI percakapan Anda di masa depan .
Apa yang membuat mesin NLU Sprinklr menjadi pemimpin pasar dalam AI percakapan?
Mesin AI Sprinklr dibuat khusus untuk memahami dan mengontekstualisasikan seluruh spektrum manajemen pengalaman pelanggan. Berikut adalah tujuh pembeda yang membedakan Sprinklr AI dari platform AI percakapan konvensional:
1. Klasifikasi pesan yang akurat
Membaca, menguraikan, dan menganalisis pesan pelanggan secara otomatis, mengklasifikasikannya sebagai maksud, dan menentukan tim internal untuk penugasan kasus yang akurat.
2. Deteksi krisis yang rajin
Memicu peringatan ketika interaksi pelanggan tidak terkendali menggunakan parameter yang telah ditentukan seperti penyebutan merek negatif dan kata kunci atau tanda-tanda kesulitan yang diidentifikasi oleh AI seperti deteksi sentimen.
3. Bantuan virtual yang sadar konteks
Hasilkan respons otomatis kepada pelanggan atau berikan bantuan AI kepada agen berdasarkan data pelanggan yang tersedia, basis pengetahuan , dan riwayat interaksi di seluruh saluran.
4. Analisis prediksi masa depan
Meramalkan tidak hanya layanan pelanggan tetapi juga tren pasar seperti topik populer, makroekonomi, sentimen konsumen, krisis PR, dan mengubah tolok ukur industri untuk menyelaraskan kembali peta jalan produk dan pemasaran Anda. AI Sprinklr dapat mengenali pola di seluruh saluran digital, demografi pelanggan, dan lainnya dengan perincian data kontekstual.
5. Interpretasi visual yang cerdas
Memproses data visual yang terlibat dalam interaksi merek dan pelanggan untuk menentukan gambar dan video secara akurat tanpa agen manusia.
6. Studio AI ujung ke ujung
Latih, uji, dan terapkan model AI dalam Sprinklr untuk mendengarkan sosial yang lebih baik, klasifikasi pesan, AI percakapan dan chatbot, otomatisasi respons, dan komunitas swalayan .
7. Moderasi interaksi merek
Pantau setiap interaksi agen-pelanggan untuk memastikan kepatuhan terhadap pedoman merek internal dan buat laporan untuk mengidentifikasi area peningkatan untuk meningkatkan kepuasan pelanggan (CSAT) dan mengurangi driver kontak teratas.
Apakah Anda ingin meningkatkan dukungan pelanggan Anda dengan personalisasi tanpa sentuhan dan efisiensi operasional? Mesin NLU Sprinklr dapat menjadi jembatan yang Anda butuhkan — ia hadir dengan jutaan prediksi AI, titik data, dan ratusan model AI yang dapat diterapkan secara instan.
Mulai uji coba gratis Modern Care Lite
Cari tahu bagaimana Sprinklr membantu bisnis memberikan pengalaman premium di 13+ saluran, menggunakan AI dasar sehingga Anda dapat mendengarkan, mengarahkan, menyelesaikan, dan mengukur — di seluruh pengalaman pelanggan.