Multimodal AI และการประยุกต์ใช้ในธุรกิจ | AI ในธุรกิจ #21
เผยแพร่แล้ว: 2022-10-11แบบจำลองปัญญาประดิษฐ์ในปัจจุบันที่มีให้สำหรับธุรกิจนั้นแตกต่างจากปัญญามนุษย์เป็นหลัก โดยส่วนใหญ่แล้วจะไม่เป็นรูปแบบเดียวกัน ซึ่งหมายความว่าพวกเขารับข้อมูลประเภทเดียวเท่านั้น ขั้นตอนต่อไปบนเส้นทางสู่ AI ที่มีความสามารถอย่างสมบูรณ์นั้นเกี่ยวข้องกับโมเดลต่อเนื่องหลายรูปแบบ พวกเขารวมข้อมูลประเภทต่างๆ ในลักษณะเดียวกัน มนุษย์ได้พัฒนาประสาทสัมผัสที่หลากหลายเพื่อสำรวจโลกที่พวกเขาอาศัยอยู่ แต่ AI หลายรูปแบบมีการใช้งานอะไรบ้างในธุรกิจ
Multimodal AI – สารบัญ:
- บทนำ
- Multimodal AI วันนี้
- Gato กับอนาคตของ AI หลายรูปแบบในธุรกิจ
- สรุป
บทนำ
โมเดลปัญญาประดิษฐ์ในปัจจุบันส่วนใหญ่ฝึกกับข้อมูลประเภทหนึ่ง สิ่งเหล่านี้อาจรวมถึง:
- ข้อความ – เช่นเดียวกับการประมวลผลภาษาธรรมชาติ (NLP)
- ภาพ – เช่นเดียวกับกรณีของเทคโนโลยีการจดจำภาพ (Computer Vision) ทำให้สามารถระบุใบหน้า รูปร่าง ลายนิ้วมือ ฯลฯ
- ข้อมูลตัวเลข – สำหรับการวิเคราะห์ข้อมูลธุรกิจ
แบบจำลองเดียวดังกล่าวประมวลผลข้อมูลจำนวนมากได้อย่างรวดเร็วและระบุรูปแบบ ได้ดีกว่ามนุษย์มาก อย่างไรก็ตาม พวกเขามีข้อจำกัดที่ร้ายแรง พวกเขาไม่อ่อนไหวต่อบริบทและไม่ค่อยเชี่ยวชาญในการจัดการกับสถานการณ์ที่ผิดปกติและคลุมเครือ
งานที่ยากที่สุดสำหรับปัญญาประดิษฐ์เหล่านี้จัดการได้ดีกว่ามากด้วยแบบจำลองต่อเนื่องหลายรูปแบบ พวกเขาสามารถสำรวจโลกด้วย "ความรู้สึก" ที่แตกต่างกันเช่นเดียวกับมนุษย์และเรียนรู้จากแหล่งต่างๆ การทำเช่นนี้จะเชื่อมโยงข้อเท็จจริงที่อยู่ห่างไกลและรวมข้อมูลที่หลากหลายเข้าด้วยกัน
ในบริบททางธุรกิจ AI หลายรูปแบบที่มุ่งเน้นอนาคตสามารถจัดการได้ เช่น การปรับกระบวนการทางธุรกิจของบริษัทให้เหมาะสม การวิเคราะห์โพสต์บนโซเชียลมีเดีย การจัดระบบลอจิสติกส์ หรือแม้แต่ตำแหน่งทางกายภาพของสินค้าในคลังสินค้า ด้วยการเข้าถึงข้อมูลประเภทต่างๆ ทำให้สามารถจัดการบริษัทแบบรวมศูนย์ ในขณะที่มีความรู้อย่างละเอียดถี่ถ้วนในทุกแง่มุมของการดำเนินธุรกิจที่วัดผลได้
Multimodal AI วันนี้
โมเดลปัญญาประดิษฐ์รูปแบบหนึ่งที่ใช้ประโยชน์จากความหลากหลายหลายรูปแบบคือ DALL-E 2 ผู้เขียนภาพที่น่าประหลาดใจซึ่งสร้างขึ้นจากข้อความที่เป็นข้อความ อย่างไรก็ตาม ความสามารถของปัญญาประดิษฐ์ "หลายประสาทสัมผัส" ในปัจจุบันมีมากกว่าแค่การแต่งภาพ แบบจำลองที่พัฒนาในปัจจุบันรวมคู่กิริยาเช่น:
- ข้อความและรูปภาพ
- ข้อความและเสียง
- ข้อความและวิดีโอ
- ภาพและแบบจำลองสามมิติ
หนึ่งในเครื่องมือที่น่าตื่นเต้นที่สุดที่ได้รับการยอมรับแล้วคือ Synthesia แพลตฟอร์มที่ใช้เบราว์เซอร์นี้สำหรับการสร้างวิดีโอตามข้อความที่ป้อน นำเสนอการนำเสนอด้วยภาพพร้อมด้วยอวาตาร์อาจารย์ Synthesia มีคุณสมบัติมากมายสำหรับผู้ผลิต:
- การนำเสนอสินค้า
- คู่มือซอฟต์แวร์และอุปกรณ์ทางเทคนิค
- เอกสารการฝึกอบรม
ตอนนี้ แทนที่จะจ้างนักแสดง พากย์เสียง และผู้ออกแบบการนำเสนอ เพียงแค่ใช้บริการของ AI หลายรูปแบบสำหรับธุรกิจ และ สร้างฟุตเทจตามข้อความที่เขียนอย่างดีในเวลาไม่กี่นาที เมื่อใช้โมดูลการแปล คุณจะเตรียมสื่อในเวอร์ชันต่างๆ ได้หลายภาษา
Gato กับอนาคตของ AI หลายรูปแบบในธุรกิจ
แบบจำลองต่อเนื่องหลายรูปแบบที่ทันสมัยที่สุดคือ Gato โครงข่ายประสาทเทียมระดับลึกที่พัฒนาโดย Deep Mind นี้รับข้อมูลจากแหล่งต่างๆ พร้อมกัน ทำให้เรียนรู้ได้เร็วและมีประสิทธิภาพมากกว่าแบบจำลองเดียว ความสามารถบางอย่างรวมถึง:
- อธิบายภาพ – แปลงข้อมูลภาพเป็นข้อมูลข้อความ
- การจัดการวัตถุในพื้นที่ทางกายภาพ - โดยแขนหุ่นยนต์ที่ติดตั้งเซ็นเซอร์สัมผัสและภาพจากกล้องจะทำหน้าที่ที่เกี่ยวข้องกับการจัดเรียงวัตถุใหม่
- ใช้งานแชทบอทแบบข้อความ – เช่น ทำงานแชทบอท
- ความเข้าใจกฎกติกา และการตัดสินใจในเกม
ทุกวันนี้ ฟังก์ชันมากมายเหล่านี้มีอยู่แล้วใน ระบบที่ซับซ้อน เช่น รถยนต์อัตโนมัติ หรือเมืองอัจฉริยะ อย่างไรก็ตาม แอปพลิเคชันของพวกเขายังไม่ได้รับการขยายขนาดในโดเมนธุรกิจขนาดเล็ก
ถึงกระนั้น เราอาจจินตนาการถึงฟังก์ชันต่อเนื่องหลายรูปแบบที่ส่งไปยังธุรกิจต่างๆ โดยการอธิบายภาพจากกล้องวงจรปิด มันสามารถแคตตาล็อกสินค้าในสินค้าคงคลังหรือระบุสินค้าที่ขาดหายไปบนชั้นวางของในร้าน การจัดการวัตถุจะเปิดใช้งานการเติมสินค้าที่ขาดหายไปที่ระบุล่วงหน้าโดยอัตโนมัติโดยไม่ต้องให้มนุษย์เข้าไปเกี่ยวข้อง
สรุป
ปัญญาประดิษฐ์ต่อเนื่องหลายรูปแบบได้ให้ความหวังสูง จากมุมมองของเรา ส่วนใหญ่แล้วจะเป็นการ ประกาศการเปลี่ยนแปลงครั้งใหญ่ในวิธีที่ AI ทำงานเพื่อธุรกิจ แทนที่จะกระจาย ชี้วิธีแก้ปัญหาเพื่อทำงานที่เรียบง่ายและซ้ำซากโดยอัตโนมัติ การเกิดขึ้นของเครื่องมืออันทรงพลังเพื่อรวบรวมข้อมูลจากแหล่งต่างๆ และสรุปผลจากปริมาณข้อมูลที่เกินความสามารถในการรับรู้ของมนุษย์กำลังปรากฏอยู่บนขอบฟ้า
บางทีในอนาคต AI จะสร้างบริษัทอิสระด้วยซ้ำ ในไม่ช้าก็จะผลิตสื่อภาพและเสียงแบบเรียลไทม์ที่ตอบสนองโดยตรงกับการสอบถามเกี่ยวกับผลิตภัณฑ์ที่ลูกค้าทำ
หากคุณชอบเนื้อหาของเรา เข้าร่วมชุมชนผึ้งที่วุ่นวายบน Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok
AI ในธุรกิจ:
- ปัญญาประดิษฐ์ในธุรกิจ - บทนำ
- ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 1)
- ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 2)
- แอปพลิเคชั่น AI ในธุรกิจ - ภาพรวม
- NLP คืออะไรหรือการประมวลผลภาษาธรรมชาติในธุรกิจ
- การประมวลผลเอกสารอัตโนมัติ
- AI และโซเชียลมีเดีย – พวกเขาพูดถึงเราว่าอย่างไร?
- นักแปลอัตโนมัติ การแปลผลิตภัณฑ์ดิจิทัลอย่างชาญฉลาด
- แชทบอทข้อความที่ใช้ AI
- การใช้งานและธุรกิจของวอยซ์บอท
- เทคโนโลยีผู้ช่วยเสมือนหรือวิธีการพูดคุยกับ AI?
- ธุรกิจ NLP วันนี้และพรุ่งนี้
- ปัญญาประดิษฐ์สามารถช่วย BPM ได้อย่างไร
- ปัญญาประดิษฐ์จะเข้ามาแทนที่นักวิเคราะห์ธุรกิจหรือไม่?
- บทบาทของ AI ในการตัดสินใจทางธุรกิจ
- ข่าวกรองธุรกิจคืออะไร?
- กำหนดการโพสต์โซเชียลมีเดีย AI จะช่วยได้อย่างไร?
- โพสต์โซเชียลมีเดียอัตโนมัติ
- ปัญญาประดิษฐ์ในการจัดการเนื้อหา
- AI สร้างสรรค์ของวันนี้และพรุ่งนี้
- Multimodal AI และการประยุกต์ใช้ในธุรกิจ
- ปฏิสัมพันธ์ใหม่ AI เปลี่ยนแปลงวิธีการใช้งานอุปกรณ์อย่างไร?
- RPA และ API ในบริษัทดิจิทัล
- บริการและผลิตภัณฑ์ใหม่ที่ทำงานด้วย AI
- ตลาดงานในอนาคตและอาชีพที่จะเกิดขึ้น
- AI สีเขียวและ AI สำหรับโลก
- เอ็ดเทค ปัญญาประดิษฐ์ในการศึกษา