Multimodal AI และการประยุกต์ใช้ในธุรกิจ | AI ในธุรกิจ #21

เผยแพร่แล้ว: 2022-10-11

แบบจำลองปัญญาประดิษฐ์ในปัจจุบันที่มีให้สำหรับธุรกิจนั้นแตกต่างจากปัญญามนุษย์เป็นหลัก โดยส่วนใหญ่แล้วจะไม่เป็นรูปแบบเดียวกัน ซึ่งหมายความว่าพวกเขารับข้อมูลประเภทเดียวเท่านั้น ขั้นตอนต่อไปบนเส้นทางสู่ AI ที่มีความสามารถอย่างสมบูรณ์นั้นเกี่ยวข้องกับโมเดลต่อเนื่องหลายรูปแบบ พวกเขารวมข้อมูลประเภทต่างๆ ในลักษณะเดียวกัน มนุษย์ได้พัฒนาประสาทสัมผัสที่หลากหลายเพื่อสำรวจโลกที่พวกเขาอาศัยอยู่ แต่ AI หลายรูปแบบมีการใช้งานอะไรบ้างในธุรกิจ

Multimodal AI – สารบัญ:

  1. บทนำ
  2. Multimodal AI วันนี้
  3. Gato กับอนาคตของ AI หลายรูปแบบในธุรกิจ
  4. สรุป

บทนำ

โมเดลปัญญาประดิษฐ์ในปัจจุบันส่วนใหญ่ฝึกกับข้อมูลประเภทหนึ่ง สิ่งเหล่านี้อาจรวมถึง:

  • ข้อความ – เช่นเดียวกับการประมวลผลภาษาธรรมชาติ (NLP)
  • ภาพ – เช่นเดียวกับกรณีของเทคโนโลยีการจดจำภาพ (Computer Vision) ทำให้สามารถระบุใบหน้า รูปร่าง ลายนิ้วมือ ฯลฯ
  • ข้อมูลตัวเลข – สำหรับการวิเคราะห์ข้อมูลธุรกิจ

แบบจำลองเดียวดังกล่าวประมวลผลข้อมูลจำนวนมากได้อย่างรวดเร็วและระบุรูปแบบ ได้ดีกว่ามนุษย์มาก อย่างไรก็ตาม พวกเขามีข้อจำกัดที่ร้ายแรง พวกเขาไม่อ่อนไหวต่อบริบทและไม่ค่อยเชี่ยวชาญในการจัดการกับสถานการณ์ที่ผิดปกติและคลุมเครือ

งานที่ยากที่สุดสำหรับปัญญาประดิษฐ์เหล่านี้จัดการได้ดีกว่ามากด้วยแบบจำลองต่อเนื่องหลายรูปแบบ พวกเขาสามารถสำรวจโลกด้วย "ความรู้สึก" ที่แตกต่างกันเช่นเดียวกับมนุษย์และเรียนรู้จากแหล่งต่างๆ การทำเช่นนี้จะเชื่อมโยงข้อเท็จจริงที่อยู่ห่างไกลและรวมข้อมูลที่หลากหลายเข้าด้วยกัน

ในบริบททางธุรกิจ AI หลายรูปแบบที่มุ่งเน้นอนาคตสามารถจัดการได้ เช่น การปรับกระบวนการทางธุรกิจของบริษัทให้เหมาะสม การวิเคราะห์โพสต์บนโซเชียลมีเดีย การจัดระบบลอจิสติกส์ หรือแม้แต่ตำแหน่งทางกายภาพของสินค้าในคลังสินค้า ด้วยการเข้าถึงข้อมูลประเภทต่างๆ ทำให้สามารถจัดการบริษัทแบบรวมศูนย์ ในขณะที่มีความรู้อย่างละเอียดถี่ถ้วนในทุกแง่มุมของการดำเนินธุรกิจที่วัดผลได้

Multimodal AI วันนี้

โมเดลปัญญาประดิษฐ์รูปแบบหนึ่งที่ใช้ประโยชน์จากความหลากหลายหลายรูปแบบคือ DALL-E 2 ผู้เขียนภาพที่น่าประหลาดใจซึ่งสร้างขึ้นจากข้อความที่เป็นข้อความ อย่างไรก็ตาม ความสามารถของปัญญาประดิษฐ์ "หลายประสาทสัมผัส" ในปัจจุบันมีมากกว่าแค่การแต่งภาพ แบบจำลองที่พัฒนาในปัจจุบันรวมคู่กิริยาเช่น:

  • ข้อความและรูปภาพ
  • ข้อความและเสียง
  • ข้อความและวิดีโอ
  • ภาพและแบบจำลองสามมิติ

หนึ่งในเครื่องมือที่น่าตื่นเต้นที่สุดที่ได้รับการยอมรับแล้วคือ Synthesia แพลตฟอร์มที่ใช้เบราว์เซอร์นี้สำหรับการสร้างวิดีโอตามข้อความที่ป้อน นำเสนอการนำเสนอด้วยภาพพร้อมด้วยอวาตาร์อาจารย์ Synthesia มีคุณสมบัติมากมายสำหรับผู้ผลิต:

  • การนำเสนอสินค้า
  • คู่มือซอฟต์แวร์และอุปกรณ์ทางเทคนิค
  • เอกสารการฝึกอบรม

ตอนนี้ แทนที่จะจ้างนักแสดง พากย์เสียง และผู้ออกแบบการนำเสนอ เพียงแค่ใช้บริการของ AI หลายรูปแบบสำหรับธุรกิจ และ สร้างฟุตเทจตามข้อความที่เขียนอย่างดีในเวลาไม่กี่นาที เมื่อใช้โมดูลการแปล คุณจะเตรียมสื่อในเวอร์ชันต่างๆ ได้หลายภาษา

Gato กับอนาคตของ AI หลายรูปแบบในธุรกิจ

แบบจำลองต่อเนื่องหลายรูปแบบที่ทันสมัยที่สุดคือ Gato โครงข่ายประสาทเทียมระดับลึกที่พัฒนาโดย Deep Mind นี้รับข้อมูลจากแหล่งต่างๆ พร้อมกัน ทำให้เรียนรู้ได้เร็วและมีประสิทธิภาพมากกว่าแบบจำลองเดียว ความสามารถบางอย่างรวมถึง:

  • อธิบายภาพ – แปลงข้อมูลภาพเป็นข้อมูลข้อความ
  • การจัดการวัตถุในพื้นที่ทางกายภาพ - โดยแขนหุ่นยนต์ที่ติดตั้งเซ็นเซอร์สัมผัสและภาพจากกล้องจะทำหน้าที่ที่เกี่ยวข้องกับการจัดเรียงวัตถุใหม่
  • ใช้งานแชทบอทแบบข้อความ – เช่น ทำงานแชทบอท
  • ความเข้าใจกฎกติกา และการตัดสินใจในเกม

ทุกวันนี้ ฟังก์ชันมากมายเหล่านี้มีอยู่แล้วใน ระบบที่ซับซ้อน เช่น รถยนต์อัตโนมัติ หรือเมืองอัจฉริยะ อย่างไรก็ตาม แอปพลิเคชันของพวกเขายังไม่ได้รับการขยายขนาดในโดเมนธุรกิจขนาดเล็ก

ถึงกระนั้น เราอาจจินตนาการถึงฟังก์ชันต่อเนื่องหลายรูปแบบที่ส่งไปยังธุรกิจต่างๆ โดยการอธิบายภาพจากกล้องวงจรปิด มันสามารถแคตตาล็อกสินค้าในสินค้าคงคลังหรือระบุสินค้าที่ขาดหายไปบนชั้นวางของในร้าน การจัดการวัตถุจะเปิดใช้งานการเติมสินค้าที่ขาดหายไปที่ระบุล่วงหน้าโดยอัตโนมัติโดยไม่ต้องให้มนุษย์เข้าไปเกี่ยวข้อง

Multimodal AI and its applications in business

สรุป

ปัญญาประดิษฐ์ต่อเนื่องหลายรูปแบบได้ให้ความหวังสูง จากมุมมองของเรา ส่วนใหญ่แล้วจะเป็นการ ประกาศการเปลี่ยนแปลงครั้งใหญ่ในวิธีที่ AI ทำงานเพื่อธุรกิจ แทนที่จะกระจาย ชี้วิธีแก้ปัญหาเพื่อทำงานที่เรียบง่ายและซ้ำซากโดยอัตโนมัติ การเกิดขึ้นของเครื่องมืออันทรงพลังเพื่อรวบรวมข้อมูลจากแหล่งต่างๆ และสรุปผลจากปริมาณข้อมูลที่เกินความสามารถในการรับรู้ของมนุษย์กำลังปรากฏอยู่บนขอบฟ้า

บางทีในอนาคต AI จะสร้างบริษัทอิสระด้วยซ้ำ ในไม่ช้าก็จะผลิตสื่อภาพและเสียงแบบเรียลไทม์ที่ตอบสนองโดยตรงกับการสอบถามเกี่ยวกับผลิตภัณฑ์ที่ลูกค้าทำ

หากคุณชอบเนื้อหาของเรา เข้าร่วมชุมชนผึ้งที่วุ่นวายบน Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok

Multimodal AI and its applications in business | AI in business #21 robert whitney avatar 1background

ผู้เขียน: โรเบิร์ต วิทนีย์

ผู้เชี่ยวชาญ JavaScript และผู้สอนที่โค้ชแผนกไอที เป้าหมายหลักของเขาคือการยกระดับประสิทธิภาพการทำงานของทีมโดยการสอนผู้อื่นถึงวิธีการร่วมมืออย่างมีประสิทธิภาพขณะเขียนโค้ด

AI ในธุรกิจ:

  1. ปัญญาประดิษฐ์ในธุรกิจ - บทนำ
  2. ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 1)
  3. ภัยคุกคามและโอกาสของ AI ในธุรกิจ (ตอนที่ 2)
  4. แอปพลิเคชั่น AI ในธุรกิจ - ภาพรวม
  5. NLP คืออะไรหรือการประมวลผลภาษาธรรมชาติในธุรกิจ
  6. การประมวลผลเอกสารอัตโนมัติ
  7. AI และโซเชียลมีเดีย – พวกเขาพูดถึงเราว่าอย่างไร?
  8. นักแปลอัตโนมัติ การแปลผลิตภัณฑ์ดิจิทัลอย่างชาญฉลาด
  9. แชทบอทข้อความที่ใช้ AI
  10. การใช้งานและธุรกิจของวอยซ์บอท
  11. เทคโนโลยีผู้ช่วยเสมือนหรือวิธีการพูดคุยกับ AI?
  12. ธุรกิจ NLP วันนี้และพรุ่งนี้
  13. ปัญญาประดิษฐ์สามารถช่วย BPM ได้อย่างไร
  14. ปัญญาประดิษฐ์จะเข้ามาแทนที่นักวิเคราะห์ธุรกิจหรือไม่?
  15. บทบาทของ AI ในการตัดสินใจทางธุรกิจ
  16. ข่าวกรองธุรกิจคืออะไร?
  17. กำหนดการโพสต์โซเชียลมีเดีย AI จะช่วยได้อย่างไร?
  18. โพสต์โซเชียลมีเดียอัตโนมัติ
  19. ปัญญาประดิษฐ์ในการจัดการเนื้อหา
  20. AI สร้างสรรค์ของวันนี้และพรุ่งนี้
  21. Multimodal AI และการประยุกต์ใช้ในธุรกิจ
  22. ปฏิสัมพันธ์ใหม่ AI เปลี่ยนแปลงวิธีการใช้งานอุปกรณ์อย่างไร?
  23. RPA และ API ในบริษัทดิจิทัล
  24. บริการและผลิตภัณฑ์ใหม่ที่ทำงานด้วย AI
  25. ตลาดงานในอนาคตและอาชีพที่จะเกิดขึ้น
  26. AI สีเขียวและ AI สำหรับโลก
  27. เอ็ดเทค ปัญญาประดิษฐ์ในการศึกษา