Google Genie — 一種生成式人工智慧模型,可從圖像創建完全互動的世界 | 商業人工智慧#123

已發表: 2024-05-23

想像一個未來場景,先進的人工智慧系統使任何圖像、照片甚至手寫草圖都栩栩如生,將其轉變為完全可玩的互動式虛擬實境。 太棒了,對吧? 然而這項技術已經存在。 它被稱為 Google Genie,它是一個突破性的人工智慧模型,可以改變遊戲產業、人工智慧系統訓練甚至機器人技術的面貌。 想了解這項轟動創新的細節嗎? 請繼續閱讀。

Google Genie – 目錄

  1. 什麼是谷歌精靈?
  2. Genie 為何具有創新性?
  3. Google Genie 的潛在應用
  4. 概括

什麼是谷歌精靈?

Google Genie (https://sites.google.com/view/genie-2024/) 是 DeepMind 開發的基礎世界模型。 它是一個生成式 AI 模型,經過超過 30,000 小時的公開 2D 平台遊戲視訊訓練。 其主要功能是能夠直接從單一影像、照片甚至手繪草圖產生完全互動式、可玩的環境。

Google Genie

資料來源:Genie:產生互動環境 (https://arxiv.org/abs/2402.15391)

這怎麼可能? Genie 在獲得僅基於視訊片段精確控制環境的能力的過程中使用了無監督學習技術。 不需要人類動作標記。 它使用特殊的動作編碼模組,捕捉連續視訊幀之間的細微變化,並將它們映射到運動的內部表示,例如跳躍或向左轉。 然後,動態模型根據編碼的動作產生序列中的下一幀。

因此,Genie 可以根據任何視覺數據創建完全可控的互動式遊戲環境。 每個玩家的動作都會即時產生一個新的、獨特的幀,從而創建一個流暢、可玩的會話。 這是一項非常大的創新,它使我們能夠從圖像或文字創建整個互動世界。

Genie 為何具有創新性?

Genie 的創新在於將多個關鍵元素組合在一個模型中:

  • 產生視訊模型,例如 Phenaki (https://phenaki.video/)、TECO (https://wilson1yan.github.io/teco/) 或 maskvit (https://arxiv.org/abs/2206.11894),其中可以根據輸入幀和文字預測序列的未來幀,但不提供主動控制功能,
  • 世界模型專注於根據智能體的行為預測未來的環境狀態,但需要人類提供的數據,
  • 無監督學習,使 Genie 能夠僅從原始視訊資料中學習環境動態和動作空間,而無需人類動作標籤。

儘管之前已經探索過這些領域,但 Genie 是第一個將它們結合起來直接從影片片段中學習可控環境的模型。 這種前所未有的無需人工監督的教學模式是 Genie 的關鍵創新。 它為使用互聯網上的大量影片作為人工智慧模型的訓練來源打開了大門,並打破了與標記資料的有限可用性相關的障礙。

將生成視訊模型、世界模型和無監督學習結合在一個解決方案中代表了人工智慧發展的根本性進步。 Genie 展示了先進的人工智慧系統可以直接從非結構化資料中學習複雜的行為和環境,而無需手動標記。 這是實現真正的通用人工智慧(AGI)道路上的關鍵一步。

Google Genie

資料來源:Google精靈 (https://sites.google.com/view/genie-2024/)

Google Genie 的潛在應用

Google Genie 的功能遠遠超出了生成視訊遊戲的範圍。 這種開創性的人工智慧模型可以在許多領域找到應用:

  • 動畫師工具- 只需上傳圖像、草圖或簡短的文字描述,Genie 就會產生一致的動畫,
  • 為人工智慧代理提供無限的培訓資源——憑藉其泛化到全新領域的能力,Genie 為未來的人工智慧系統提供了無限的學習挑戰。 迄今為止,缺乏多樣化的訓練環境一直是通用人工智慧代理發展的主要障礙之一,
  • 機器人物理模擬—研究表明,Genie不僅能夠控制虛擬機器人,還能實現可變形物體的物理特性。 這可能會對機器人和物理模擬的發展產生巨大影響,
  • 創意產業中的應用-Genie 可以促進互動藝術裝置、虛擬展覽或電影的創作。 只需上傳草圖,模型就會產生一個完全可控的 3D 世界,可供探索。

然而,這項技術的潛在挑戰和限制不容忽視。 在目前的發展階段,Genie 在 2D 平台遊戲等狹窄領域表現最佳。 擴展到更複雜的 3D 環境將需要額外的研究和最佳化。 此外,該技術還存在被濫用來創建有害或危險內容的風險。 因此,制定健全的道德和法律框架來管理此類人工智慧模型的開發和使用至關重要。

Google Genie

資料來源:Google精靈 (https://sites.google.com/view/genie-2024/)

概括

透過直接從視覺數據創建完全互動的環境,無需手動標記動作,Google Genie 代表了生成人工智慧的真正突破。 這種基本的世界模型能夠以可玩的虛擬實境的形式表達影像,可以由人類或人工智慧代理探索和控制。

Genie 的潛力是巨大的——從遊戲開發者的工具,到人工智慧的無限訓練資料來源,再到機器人的物理模擬。 這也是邁向AGI道路上的重要一步。 隨著像 Genie 這樣的模型不斷發展,現實世界和虛擬世界之間的界線變得更加模糊。

Google Genie

如果您喜歡我們的內容,請在 Facebook、Twitter、LinkedIn、Instagram、YouTube、Pinterest、TikTok 上加入我們的忙碌蜜蜂社群。

Google Genie — a generative AI model that creates fully interactive worlds from images | AI in business #123 robert whitney avatar 1background

作者:羅伯特‧惠特尼

JavaScript 專家和 IT 部門的講師。 他的主要目標是透過教導其他人如何在編碼時有效合作來提高團隊生產力。

商業人工智慧:

  1. 人工智慧在商業中的威脅與機會(第 1 部分)
  2. 人工智慧在商業中的威脅與機會(第 2 部分)
  3. 人工智慧在商業中的應用 - 概述
  4. 人工智慧輔助文字聊天機器人
  5. 商業 NLP 的今天和明天
  6. 人工智慧在商業決策中的作用
  7. 安排社交媒體貼文。 人工智慧有何幫助?
  8. 自動社交媒體貼文
  9. 利用人工智慧運作的新服務和產品
  10. 我的經營理念有哪些弱點? ChatGPT 的腦力激盪會議
  11. 在商業中使用 ChatGPT
  12. 合成演員。 排名前 3 的 AI 影片產生器
  13. 3 個有用的 AI 圖形設計工具。 商業中的生成式人工智慧
  14. 今天你必須嘗試的 3 位出色的人工智慧作家
  15. 探索人工智慧在音樂創作中的力量
  16. 使用 ChatGPT-4 探索新的商機
  17. 經理的人工智慧工具
  18. 6 個很棒的 ChatGTP 插件,讓您的生活更輕鬆
  19. 3 繪圖人工智慧。 商業情報總局
  20. 麥肯錫全球研究院認為人工智慧的未來是什麼?
  21. 商業人工智慧 - 簡介
  22. 什麼是 NLP,即商業中的自然語言處理
  23. 自動文件處理
  24. 谷歌翻譯 vs DeepL。 機器翻譯的 5 個商業應用
  25. 語音機器人的營運與商業應用
  26. 虛擬助理技術,或者說如何與AI對話?
  27. 什麼是商業智慧?
  28. 人工智慧會取代商業分析師嗎?
  29. 人工智慧如何幫助 BPM?
  30. 人工智慧和社群媒體——它們對我們有何評價?
  31. 內容管理中的人工智慧
  32. 今天和明天的創意人工智慧
  33. 多模態人工智慧及其在商業上的應用
  34. 新的互動。 人工智慧如何改變我們操作設備的方式?
  35. 數位公司中的 RPA 和 API
  36. 未來的就業市場和即將到來的職業
  37. 教育科技中的人工智慧。 利用人工智慧潛力的 3 個公司範例
  38. 人工智慧與環境。 3 個人工智慧解決方案可協助您建立永續發展的業務
  39. AI 內容偵測器。 他們值得嗎?
  40. ChatGPT vs Bard vs Bing。 哪個人工智慧聊天機器人在這場競賽中處於領先地位?
  41. 聊天機器人人工智慧是谷歌搜尋的競爭對手嗎?
  42. 有效的 ChatGPT 人力資源和招募提示
  43. 及時工程。 即時工程師做什麼的?
  44. AI 模型產生器。 四大工具
  45. 人工智慧還有什麼? 2024 年商業頂級技術趨勢
  46. 人工智慧和商業道德。 為什麼您應該投資道德解決方案
  47. 元人工智慧。 關於 Facebook 和 Instagram 的人工智慧支援功能,您應該了解哪些?
  48. 人工智慧監管。 身為企業家你需要了解什麼?
  49. 人工智慧在商業中的 5 個新用途
  50. 人工智慧產品和專案—它們與其他產品和專案有何不同?
  51. 人工智慧輔助流程自動化。 從哪裡開始?
  52. 如何將人工智慧解決方案與業務問題相匹配?
  53. 人工智慧作為您團隊中的專家
  54. AI團隊與角色分工
  55. 人工智慧職業領域如何選擇?
  56. 在產品開發過程中添加人工智慧是否總是值得的?
  57. 人力資源中的人工智慧:招募自動化如何影響人力資源和團隊發展
  58. 2023 年 6 個最有趣的人工智慧工具
  59. 人工智慧造成的六大商業災難
  60. 公司的人工智慧成熟度分析是怎樣的?
  61. 用於 B2B 個性化的 AI
  62. ChatGPT 用例。 2024 年如何利用 ChatGPT 改善業務的 18 個範例
  63. 微學習。 獲得新技能的快速方法
  64. 2024 年公司中最有趣的人工智慧實施
  65. 人工智慧專家做什麼的?
  66. AI專案帶來了哪些挑戰?
  67. 2024 年 8 款最適合商業的人工智慧工具
  68. CRM 中的人工智慧。 人工智慧為 CRM 工具帶來了哪些改變?
  69. UE 人工智慧法案。 歐洲如何監管人工智慧的使用
  70. 索拉。 OpenAI 的真實影片將如何改變業務?
  71. 七大人工智慧網站建置者
  72. 無程式碼工具和人工智慧創新
  73. 使用人工智慧可以在多大程度上提高您團隊的生產力?
  74. 如何使用ChatGTP進行市場研究?
  75. 如何擴大人工智慧行銷活動的影響範圍?
  76. “我們都是開發者”。 公民開發者如何幫助您的公司?
  77. 運輸和物流中的人工智慧
  78. AI可以解決哪些業務痛點?
  79. 媒體中的人工智慧
  80. 銀行和金融領域的人工智慧。 Stripe、Monzo 和 Grab
  81. 人工智慧在旅遊業的應用
  82. 人工智慧如何促進新科技的誕生
  83. 社群媒體中的人工智慧革命
  84. 電子商務中的人工智慧。 全球領導者概覽
  85. 四大人工智慧影像創作工具
  86. 用於數據分析的 5 大人工智慧工具
  87. 貴公司的人工智慧策略—如何制定?
  88. 最佳人工智慧課程 – 6 個精彩推薦
  89. 使用人工智慧工具優化社群媒體聆聽
  90. 物聯網+人工智慧,或如何降低公司的能源成本
  91. 物流中的人工智慧。 5 個最佳工具
  92. GPT 商店 – 最有趣的商業 GPT 概述
  93. LLM、GPT、RAG...AI 縮寫是什麼意思?
  94. 人工智慧機器人—商業的未來還是現在?
  95. 在公司實施人工智慧的成本是多少?
  96. 人工智慧如何幫助自由工作者的職業生涯?
  97. 自動化工作並提高生產力。 自由工作者人工智慧指南
  98. 新創公司的人工智慧—最佳工具
  99. 用人工智慧建立網站
  100. OpenAI、中途、人擇、擁抱臉。 AI世界裡誰是誰?
  101. 十一個實驗室還有什麼? 最有前途的人工智慧新創公司
  102. 綜合數據及其對業務發展的重要性
  103. 頂級人工智慧搜尋引擎。 去哪裡尋找人工智慧工具?
  104. 視訊人工智慧。 最新的AI視訊產生器
  105. 面向管理者的人工智慧。 人工智慧如何讓您的工作變得更輕鬆
  106. Google Gemini 有什麼新功能? 你需要知道的一切
  107. 波蘭的人工智慧。 公司、會議和大會
  108. 人工智慧日曆。 如何優化自己在公司的時間?
  109. 人工智慧和工作的未來。 如何為您的企業做好變革準備?
  110. 商業人工智慧語音克隆。 如何利用人工智慧創建個人化語音訊息?
  111. 事實查核與人工智慧幻覺
  112. 人工智慧在招募中—逐步開發招募材料
  113. 中途 v6. AI影像生成的創新
  114. 中小企業中的人工智慧。 中小企業如何利用人工智慧與巨頭競爭?
  115. 人工智慧如何改變影響者行銷?
  116. 人工智慧真的對開發者構成威脅嗎? Devin 和 Microsoft AutoDev
  117. 用於電子商務的人工智慧聊天機器人。 實例探究
  118. 適用於電子商務的最佳人工智慧聊天機器人。 平台
  119. 如何掌握人工智慧世界的動態?
  120. 馴服人工智慧。 如何踏出將人工智慧應用到您的業務的第一步?
  121. Perplexity、Bing Copilot 還是 You.com? 比較人工智慧搜尋引擎
  122. 領域。 Apple 的突破性語言模型?
  123. 波蘭的人工智慧專家
  124. Google Genie — 一種生成式 AI 模型,可從圖像創建完全互動的世界