マルチモーダル AI とそのビジネスへの応用 | ビジネスにおける AI #21

公開: 2022-10-11

ビジネスで利用できる今日の人工知能モデルは、主にほとんど単峰性であるという点で人間の知能とは異なります。 これは、1 種類の情報のみを取り込むことを意味します。 完全に有能な AI への道の次のステップは、マルチモーダル モデルに関するものです。人間が住んでいる世界を探索するために複数の感覚を発達させたのと同じように、マルチモーダル AI はさまざまな種類のデータを組み込みます。

マルチモーダル AI – 目次:

  1. 序章
  2. 今日のマルチモーダル AI
  3. Gato とビジネスにおけるマルチモーダル AI の未来
  4. 概要

序章

今日の人工知能モデルのほとんどは、1 種類のデータでトレーニングされます。 これらには次のものが含まれます。

  • テキスト– 自然言語処理 (NLP) のように
  • 画像- 顔、形、指紋などの識別を可能にする画像認識技術 (コンピューター ビジョン) の場合と同様です。
  • 数値データ– ビジネスデータ分析用

このようなユニモーダル モデルは、大量の情報を迅速に処理し、人間よりもはるかに優れたパターンを見つけます。 ただし、これらには重大な制限があります。 彼女らは文脈に鈍感で、異常で曖昧な状況に対処するのが得意ではありません。

これらの人工知能にとって最も困難なタスクは、マルチモーダル モデルによってより適切に処理されます。 人間と同じように、さまざまな「感覚」で世界を探索し、さまざまな情報源から学ぶことができます。 そうすることで、遠く離れた事実を結び付けたり、さまざまなデータを組み合わせたりします。

ビジネス コンテキストでは、未来志向のマルチモーダル AI の 1 つが、たとえば、企業のビジネス プロセスの最適化、ソーシャル メディアの投稿の分析、ロジスティクスの編成、または倉庫内の商品の物理的な配置などを処理できます。 さまざまな種類のデータにアクセスできるため、事業運営の測定可能なあらゆる側面について広範かつ詳細な知識を持ちながら、会社を一元的に管理できます。

今日のマルチモーダル AI

マルチモダリティを利用する人工知能モデルの 1 つは DALL-E 2 です。DALL-E 2 は、テキストの手がかりから作成された驚くべき画像の作成者です。 しかし、今日の「多感覚」人工知能の機能は、ビジュアルの作成をはるかに超えています。 現在開発されているモデルは、次のようなモダリティ ペアを組み合わせています。

  • テキストと画像
  • テキストと音声
  • テキストとビデオ
  • 画像と三次元モデル

すでに認知されている最もエキサイティングなツールの 1 つがSynthesia です。 入力されたテキストに基づいてビデオを作成するためのこのブラウザベースのプラットフォームは、アバター講師を伴う視覚的なプレゼンテーションを提供します。 Synthesia は、次のメーカー向けに幅広い機能を備えています。

  • 製品プレゼンテーション
  • ソフトウェアおよび技術機器のマニュアル
  • トレーニング教材

今では、俳優、ナレーション、プレゼンテーション デザイナーを雇う代わりに、ビジネス用のマルチモーダル AI のサービスを利用して、よく書かれたテキストに基づいた映像を数分で作成できます。 翻訳モジュールを使用することで、多言語バージョンの資料も準備できます。

Gato とビジネスにおけるマルチモーダル AI の未来

最新のマルチモーダル モデルの中で最も優れているのは Gato です。 Deep Mind が開発したこのディープ ニューラル ネットワークは、さまざまなソースから情報を同時に取得し、単峰モデルよりも高速かつ効率的に学習します。 その機能の一部は次のとおりです。

  • 画像の説明– ビジュアル データをテキスト データに変換する
  • 物理空間でのオブジェクトの操作– 触覚センサーとカメラ画像を備えたロボット アームによって、オブジェクトの再配置に関連するタスクを実行します
  • テキストベースのチャットボットの実行 – つまり、チャットボット タスクの実行
  • ゲームでのルールの理解と意思決定

今日、これらの機能の多くは、自動運転車やスマート シティなどの複雑なシステムにすでに存在しています。 ただし、彼らのアプリケーションは、小規模ビジネス ドメインではまだ拡張されていません。

それでも、さまざまなビジネスにマルチモーダルな機能が提供されることを想像するかもしれません。 CCTV カメラからの画像を説明することで、在庫商品をカタログ化したり、店舗の棚にない商品を特定したりできます。 オブジェクトを操作することで、事前に特定された欠品を人間の関与なしに自動的に補充できます。

Multimodal AI and its applications in business

概要

マルチモーダル人工知能は大きな期待を寄せています。 私たちの観点からは、これは主にAI がビジネスで機能する方法に革命的な変化をもたらすものです。 単純で反復的なタスクを自動化する分散型のポイント ソリューションの代わりに、さまざまなソースからデータを収集し、人間の知覚能力を超えた大量のデータから結論を導き出す強力なツールの出現が間近に迫っています。

おそらく将来的には、AI によって自律的な企業が生まれることさえあります。 しかし近いうちに、顧客からの製品に関する問い合わせに直接対応するリアルタイムの視聴覚資料を作成する予定です。

私たちのコンテンツが気に入ったら、Facebook、Twitter、LinkedIn、Instagram、YouTube、Pinterest、TikTok の忙しいミツバチ コミュニティに参加してください。

Multimodal AI and its applications in business | AI in business #21 robert whitney avatar 1background

著者: ロバート・ホイットニー

JavaScript のエキスパートであり、IT 部門を指導するインストラクター。 彼の主な目標は、コーディング中に効果的に協力する方法を他の人に教えることで、チームの生産性を向上させることです。

ビジネスにおける AI:

  1. ビジネスにおける人工知能 - はじめに
  2. ビジネスにおける AI の脅威と機会 (パート 1)
  3. ビジネスにおける AI の脅威と機会 (パート 2)
  4. ビジネスにおける AI アプリケーション - 概要
  5. NLP、またはビジネスにおける自然言語処理とは
  6. 自動文書処理
  7. AI とソーシャル メディア – 彼らは私たちについて何と言っていますか?
  8. 自動翻訳機。 デジタル製品のインテリジェントなローカリゼーション
  9. AI 支援テキスト チャットボット
  10. ボイスボットの運用と業務応用
  11. 仮想アシスタント技術、または AI と話す方法は?
  12. ビジネスNLPの今日と明日
  13. 人工知能は BPM にどのように役立つのでしょうか?
  14. 人工知能はビジネス アナリストに取って代わるでしょうか?
  15. ビジネスの意思決定における AI の役割
  16. ビジネスインテリジェンスとは?
  17. ソーシャル メディアへの投稿のスケジュール設定。 AI はどのように役立つのでしょうか?
  18. 自動化されたソーシャル メディア投稿
  19. コンテンツ管理における人工知能
  20. 今日と明日のクリエイティブ AI
  21. マルチモーダル AI とそのビジネスへの応用
  22. 新しい相互作用。 AI はデバイスの操作方法をどのように変えていますか?
  23. デジタル企業における RPA と API
  24. AIを活用した新サービス・新製品
  25. 将来の雇用市場と将来の職業
  26. グリーンAIと地球のためのAI
  27. エドテック。 教育における人工知能