Google Genie — 一种生成式人工智能模型,可从图像创建完全交互式的世界 | 商业人工智能#123

已发表: 2024-05-23

想象一个未来场景,先进的人工智能系统使任何图像、照片甚至手写草图都栩栩如生,将其转变为完全可玩的交互式虚拟现实。 太棒了,对吧? 然而这项技术已经存在。 它被称为 Google Genie,它是一个突破性的人工智能模型,可以改变游戏行业、人工智能系统训练甚至机器人技术的面貌。 想了解这一轰动创新的细节吗? 请继续阅读。

Google Genie – 目录

  1. 什么是谷歌精灵?
  2. Genie 为何具有创新性?
  3. Google Genie 的潜在应用
  4. 概括

什么是谷歌精灵?

Google Genie (https://sites.google.com/view/genie-2024/) 是 DeepMind 开发的基础世界模型。 它是一个生成式 AI 模型,经过超过 30,000 小时的公开 2D 平台游戏视频训练。 其主要功能是能够直接从单个图像、照片甚至手绘草图生成完全交互式、可玩的环境。

Google Genie

资料来源:Genie:生成交互环境 (https://arxiv.org/abs/2402.15391)

这怎么可能? Genie 在获得仅基于视频片段精确控制环境的能力的过程中使用了无监督学习技术。 不需要人类动作标记。 它使用特殊的动作编码模块,捕获连续视频帧之间的细微变化,并将它们映射到运动的内部表示,例如跳跃或向左转。 然后,动态模型根据编码的动作生成序列中的下一帧。

因此,Genie 可以根据任何视觉数据创建完全可控的交互式游戏环境。 每个玩家的动作都会实时生成一个新的、独特的帧,从而创建一个流畅、可玩的会话。 这是一项非常大的创新,它使我们能够从图像或文本创建整个交互式世界。

Genie 为何具有创新性?

Genie 的创新在于将多个关键元素组合在一个模型中:

  • 生成视频模型,例如 Phenaki (https://phenaki.video/)、TECO (https://wilson1yan.github.io/teco/) 或 maskvit (https://arxiv.org/abs/2206.11894),其中可以根据输入帧和文本预测序列的未来帧,但不提供主动控制功能,
  • 世界模型专注于根据智能体的行为预测未来的环境状态,但需要人类提供的数据,
  • 无监督学习,使 Genie 能够仅从原始视频数据中学习环境动态和动作空间,而无需人类动作标签。

尽管之前已经探索过这些领域,但 Genie 是第一个将它们结合起来直接从视频片段中学习可控环境的模型。 这种前所未有的无需人工监督的教学模式是 Genie 的一项关键创新。 它为使用互联网上的大量视频作为人工智能模型的训练源打开了大门,并打破了与标记数据的有限可用性相关的障碍。

将生成视频模型、世界模型和无监督学习结合在一个解决方案中代表了人工智能发展的根本性进步。 Genie 展示了先进的人工智能系统可以直接从非结构化数据中学习复杂的行为和环境,而无需手动标记。 这是实现真正的通用人工智能(AGI)道路上的关键一步。

Google Genie

来源:谷歌精灵 (https://sites.google.com/view/genie-2024/)

Google Genie 的潜在应用

Google Genie 的功能远远超出了生成视频游戏的范围。 这种开创性的人工智能模型可以在许多领域找到应用:

  • 动画师工具- 只需上传图像、草图或简短的文本描述,Genie 就会生成一致的动画,
  • 为人工智能代理提供无限的培训资源——凭借其泛化到全新领域的能力,Genie 为未来的人工智能系统提供了无限的学习挑战。 迄今为止,缺乏多样化的训练环境一直是通用人工智能代理发展的主要障碍之一,
  • 机器人物理模拟——研究表明,Genie不仅能够控制虚拟机器人,还能实现可变形物体的物理特性。 这可能会对机器人和物理模拟的发展产生巨大影响,
  • 创意产业中的应用——Genie 可以促进互动艺术装置、虚拟展览或电影的创作。 只需上传草图,模型就会生成一个完全可控的 3D 世界,可供探索。

然而,这项技术的潜在挑战和局限性不容忽视。 在目前的发展阶段,Genie 在 2D 平台游戏等狭窄领域表现最好。 扩展到更复杂的 3D 环境将需要额外的研究和优化。 此外,该技术还存在被滥用来创建有害或危险内容的风险。 因此,制定健全的道德和法律框架来管理此类人工智能模型的开发和使用至关重要。

Google Genie

来源:谷歌精灵 (https://sites.google.com/view/genie-2024/)

概括

通过直接从视觉数据创建完全交互的环境,无需手动标记动作,Google Genie 代表了生成人工智能的真正突破。 这种基本的世界模型能够以可玩的虚拟现实的形式表达图像,可以由人类或人工智能代理探索和控制。

Genie 的潜力是巨大的——从游戏开发者的工具,到人工智能的无限训练数据源,再到机器人的物理模拟。 这也是迈向AGI道路上的重要一步。 随着像 Genie 这样的模型不断发展,现实世界和虚拟世界之间的界限变得更加模糊。

Google Genie

如果您喜欢我们的内容,请在 Facebook、Twitter、LinkedIn、Instagram、YouTube、Pinterest、TikTok 上加入我们的忙碌蜜蜂社区。

Google Genie — a generative AI model that creates fully interactive worlds from images | AI in business #123 robert whitney avatar 1background

作者:罗伯特·惠特尼

JavaScript 专家和 IT 部门的讲师。 他的主要目标是通过教其他人如何在编码时有效合作来提高团队生产力。

商业人工智能:

  1. 人工智能在商业中的威胁和机遇(第 1 部分)
  2. 人工智能在商业中的威胁和机遇(第 2 部分)
  3. 人工智能在商业中的应用 - 概述
  4. 人工智能辅助文本聊天机器人
  5. 商业 NLP 的今天和明天
  6. 人工智能在商业决策中的作用
  7. 安排社交媒体帖子。 人工智能有何帮助?
  8. 自动社交媒体帖子
  9. 利用人工智能运行的新服务和产品
  10. 我的经营理念有哪些弱点? ChatGPT 的头脑风暴会议
  11. 在商业中使用 ChatGPT
  12. 合成演员。 排名前 3 的 AI 视频生成器
  13. 3 个有用的 AI 图形设计工具。 商业中的生成式人工智能
  14. 今天你必须尝试的 3 位出色的人工智能作家
  15. 探索人工智能在音乐创作中的力量
  16. 使用 ChatGPT-4 探索新的商机
  17. 经理的人工智能工具
  18. 6 个很棒的 ChatGTP 插件,让您的生活更轻松
  19. 3 绘图人工智能。 商业情报总局
  20. 麦肯锡全球研究院认为人工智能的未来是什么?
  21. 商业人工智能 - 简介
  22. 什么是 NLP,即商业中的自然语言处理
  23. 自动文档处理
  24. 谷歌翻译 vs DeepL。 机器翻译的 5 个商业应用
  25. 语音机器人的运营和商业应用
  26. 虚拟助理技术,或者说如何与AI对话?
  27. 什么是商业智能?
  28. 人工智能会取代商业分析师吗?
  29. 人工智能如何帮助 BPM?
  30. 人工智能和社交媒体——它们对我们有何评价?
  31. 内容管理中的人工智能
  32. 今天和明天的创意人工智能
  33. 多模态人工智能及其在商业中的应用
  34. 新的互动。 人工智能如何改变我们操作设备的方式?
  35. 数字公司中的 RPA 和 API
  36. 未来的就业市场和即将到来的职业
  37. 教育科技中的人工智能。 利用人工智能潜力的 3 个公司示例
  38. 人工智能与环境。 3 个人工智能解决方案可帮助您建立可持续发展的业务
  39. AI 内容检测器。 他们值得吗?
  40. ChatGPT vs Bard vs Bing。 哪个人工智能聊天机器人在这场竞赛中处于领先地位?
  41. 聊天机器人人工智能是谷歌搜索的竞争对手吗?
  42. 有效的 ChatGPT 人力资源和招聘提示
  43. 及时工程。 即时工程师做什么的?
  44. AI 模型生成器。 四大工具
  45. 人工智能还有什么? 2024 年商业顶级技术趋势
  46. 人工智能和商业道德。 为什么您应该投资道德解决方案
  47. 元人工智能。 关于 Facebook 和 Instagram 的人工智能支持功能,您应该了解哪些?
  48. 人工智能监管。 作为一名企业家你需要了解什么?
  49. 人工智能在商业中的 5 个新用途
  50. 人工智能产品和项目——它们与其他产品和项目有何不同?
  51. 人工智能辅助流程自动化。 从哪儿开始?
  52. 如何将人工智能解决方案与业务问题相匹配?
  53. 人工智能作为您团队中的专家
  54. AI团队与角色分工
  55. 人工智能职业领域如何选择?
  56. 在产品开发过程中添加人工智能是否总是值得的?
  57. 人力资源中的人工智能:招聘自动化如何影响人力资源和团队发展
  58. 2023 年 6 个最有趣的人工智能工具
  59. 人工智能造成的六大商业灾难
  60. 公司的人工智能成熟度分析是怎样的?
  61. 用于 B2B 个性化的 AI
  62. ChatGPT 用例。 2024 年如何利用 ChatGPT 改善业务的 18 个示例
  63. 微学习。 获得新技能的快速方法
  64. 2024 年公司中最有趣的人工智能实施
  65. 人工智能专家做什么的?
  66. AI项目带来了哪些挑战?
  67. 2024 年 8 款最适合商业的人工智能工具
  68. CRM 中的人工智能。 人工智能给 CRM 工具带来了哪些改变?
  69. UE 人工智能法案。 欧洲如何监管人工智能的使用
  70. 索拉。 OpenAI 的真实视频将如何改变业务?
  71. 七大人工智能网站建设者
  72. 无代码工具和人工智能创新
  73. 使用人工智能可以在多大程度上提高您团队的生产力?
  74. 如何使用ChatGTP进行市场研究?
  75. 如何扩大人工智能营销活动的影响范围?
  76. “我们都是开发者”。 公民开发者如何帮助您的公司?
  77. 运输和物流中的人工智能
  78. AI可以解决哪些业务痛点?
  79. 媒体中的人工智能
  80. 银行和金融领域的人工智能。 Stripe、Monzo 和 Grab
  81. 人工智能在旅游行业的应用
  82. 人工智能如何促进新技术的诞生
  83. 社交媒体中的人工智能革命
  84. 电子商务中的人工智能。 全球领导者概览
  85. 四大人工智能图像创作工具
  86. 用于数据分析的 5 大人工智能工具
  87. 贵公司的人工智能战略——如何制定?
  88. 最佳人工智能课程 – 6 条精彩推荐
  89. 使用人工智能工具优化社交媒体聆听
  90. 物联网+人工智能,或者如何降低公司的能源成本
  91. 物流中的人工智能。 5 个最佳工具
  92. GPT 商店 – 最有趣的商业 GPT 概述
  93. LLM、GPT、RAG...AI 缩写词是什么意思?
  94. 人工智能机器人——商业的未来还是现在?
  95. 在公司实施人工智能的成本是多少?
  96. 人工智能如何帮助自由职业者的职业生涯?
  97. 自动化工作并提高生产力。 自由职业者人工智能指南
  98. 初创公司的人工智能——最佳工具
  99. 用人工智能建立网站
  100. OpenAI、中途、人择、拥抱脸。 AI世界里谁是谁?
  101. 十一个实验室还有什么? 最有前途的人工智能初创公司
  102. 综合数据及其对业务发展的重要性
  103. 顶级人工智能搜索引擎。 去哪里寻找人工智能工具?
  104. 视频人工智能。 最新的AI视频生成器
  105. 面向管理者的人工智能。 人工智能如何让您的工作变得更轻松
  106. Google Gemini 有什么新功能? 你需要知道的一切
  107. 波兰的人工智能。 公司、会议和大会
  108. 人工智能日历。 如何优化自己在公司的时间?
  109. 人工智能和工作的未来。 如何为您的企业做好变革准备?
  110. 商业人工智能语音克隆。 如何利用人工智能创建个性化语音消息?
  111. 事实核查和人工智能幻觉
  112. 人工智能在招聘中——逐步开发招聘材料
  113. 中途 v6. AI图像生成的创新
  114. 中小企业中的人工智能。 中小企业如何利用人工智能与巨头竞争?
  115. 人工智能如何改变影响者营销?
  116. 人工智能真的对开发者构成威胁吗? Devin 和 Microsoft AutoDev
  117. 用于电子商务的人工智能聊天机器人。 实例探究
  118. 适用于电子商务的最佳人工智能聊天机器人。 平台
  119. 如何掌握人工智能世界的动态?
  120. 驯服人工智能。 如何迈出将人工智能应用到您的业务中的第一步?
  121. Perplexity、Bing Copilot 还是 You.com? 比较人工智能搜索引擎
  122. 领域。 Apple 的突破性语言模型?
  123. 波兰的人工智能专家
  124. Google Genie — 一种生成式 AI 模型,可从图像创建完全交互式的世界