谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

博客文章放出大量由未蒸馏的基础模型生成的视频示例,来展示Genie 2在行动控制生成反设事实长视界记忆长视频生成多样环境3D结构物体交互复杂角色动画NPC物理烟雾光影快速原型设计方面的效果与优势。蒸馏版本支持实时交互,但运行时的视觉质量会降低些。

输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

一、超强空间记忆能力,模拟真实世界环境

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法。Genie 2则进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界。

以下是与Genie 2互动的一些示例视频。模型会使用文生图模型Imagen 3生成的单个图像,按照提示词生成一个可交互的3D世界。人或agent进行键鼠操作,进入这个新创建的世界并与之互动。Genie 2可以生成长达1分钟的一致世界,大多数示例持续10-20秒(本文将部分视频示例转成gif动图并只截取片段,完整视频请到原博客文章查看)。

1、智能响应键盘按键操作

Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色。比如下图中的几个示例,模型必须能弄清楚方向按键对应要移动的是机器人,而不是画面中的树、云等其他物体。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

14、反射

Genie 2模拟反射、喷雾减光和彩色灯光。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

二、理解物理世界差异,可将概念图转化成交互式环境

Genie 2模型可快速创建各种交互体验的原型。例如用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞飞行的视频。可以看到Genie 2生成的视频能够理解并模拟出它们飞行的差异。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

概念艺术和绘图也可以被Genie 2转化成完全交互式环境,以便艺术家、设计师能快速制作研究环境概念的原型。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

三、AI agent也能玩,为具身智能提供绝佳训练场

Genie 2可快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。

例如,Google DeepMind与游戏开发商合作开发了SIMA agent。SIMA agent被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,因此可以在Genie 2合成的、未见过的环境执行指令。

输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。

也可以使用SIMA来帮助评估Genie 2的功能。通过指示SIMA环顾四周、探索房屋后面等,测试Genie 2生成一致环境的能力。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

再比如根据下面这张图来生成视频。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

输入不同提示词“上楼”、“去有植物的地方”、“走中间门”,Genie 2会生成对应的不同视频画面。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

虽然这项研究仍处于早期阶段,agent和环境生成能力都还有很大的改进空间,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。

结语:世界模型,AI领域的下一件大事

游戏是安全测试和推进AI能力的理想环境。训练更通用具身agent的传统瓶颈在于缺乏足够丰富和多样化的训练环境。

Google DeepMind正将越来越多资源投入于世界模型研究。Genie 2展示了基础世界模型在创建多样化3D环境、定制交互式游戏场景、加速agent研究等方面的潜力,可让未来的Agent在无限的新世界中接受训练和评估。

该研究方向尚处于早期阶段,Google DeepMind计划在通用性和一致性方面继续改进Genie的世界生成能力。

与SIMA一样,其研究致力于构建更通用的AI系统和agent,使其能够理解和安全地执行各种任务,从而帮助在线和现实世界中的人们。

Google DeepMind还放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个鬼魂出现在花园,在雪场的人物角色相比滑雪更爱跑酷、一个魔法球把周遭炸成灰。

谷歌发布世界模型Genie 2!一键生成3D游戏,人和AI都能玩,时长多达1分钟

来源:Google DeepMind