刚步入2024年的最后一个月,生成式AI领域就在短短几天内迎来了两个重磅进展(果然都想在圣诞季之前把工作搞定)。
两天前,李飞飞的Worlds Lab刚刚发布了仅靠一张图就能生成可互动3D空间的新模型,结果今天DeepMind也发布了类似的成果,表现甚至更胜一筹。
当地时间12月4日,谷歌DeepMind官宣了其最新一代大规模基础世界模型Genie 2。
它能够将一张图像转化为可交互的3D游戏世界,通过鼠标和键盘控制,用户可以在其中自由探索长达1分钟之久。
Genie 2 的开发团队相信,它能够为具身智能解锁更多能力,开启AI生成虚拟世界的新篇章。或许未来的游戏开发,尤其是开放世界创作即将迎来一场技术革命。
话不多说,我们先来看看DeepMind放出的视频:
有滑雪滑到一半突然想跑酷的人:
还有手搓火球(但疑似撞墙穿模)的人:
Genie 2源于DeepMind长期以来在游戏领域的深厚积淀。游戏不仅能提供引人入胜的体验,更重要的是它们为AI研究提供了独特的挑战环境和可衡量的进展指标,使其成为安全测试和推进AI能力的理想平台。
从最初对雅达利游戏的研究,到围棋AlphaGo和《星际争霸2》AlphaStar等里程碑式的突破,游戏一直是DeepMind研究工作中的核心。
与2024年2月发布的第一代Genie相比(当时发布了一篇预印本论文),Genie 2在功能和性能上都实现了质的飞跃。它能够生成720p分辨率的高质量3D世界,用户可以通过键盘和鼠标在第一人称或第三人称视角下进行操控。
更令人惊叹的是,这个系统不仅能模拟重力、碰撞和水体运动等基础物理现象,还能处理复杂的光照、反射和烟雾效果,并生成可以互动的NPC,让生成的虚拟世界更加真实。
例如模拟水面:
烟雾:
重力:
光线:
在同一场景下创造NPC(智能体):
这种真实感和交互性,使得Genie 2生成的环境具有前所未有的沉浸感。
Genie 2的一个重要突破在于其空间记忆能力。当用户在虚拟环境中移动时,即使某些区域暂时不在视野范围内,系统也能保持这些区域的一致性。
这意味着当玩家重新回到之前访问过的位置时,环境会保持原样,而不是重新生成,这解决了早期3D空间生成器的局限性,极大地提升了用户体验,使虚拟世界更具可信度。值得一提的是,李飞飞的World Labs也表示已经实现了这一点。
在实际应用中,Genie 2展现出了惊人的多样性。用户只需提供一张图片(由Imagen 3生成)和文字描述(比如“森林中的可爱机器人”),系统就能生成一个可交互的实时场景。这些场景最长可以持续一分钟,大多数能稳定运行10到20秒,供用户交互和探索。
图 | 通过左边的静态图生成右边的3D世界
DeepMind还进行了一系列创新性的测试,将Genie 2与其SIMA AI智能体结合使用,后者旨在遵循自然语言指令来完成一系列 3D 游戏世界中的任务。SIMA 通过键盘和鼠标输入控制化身,而 Genie 2 生成游戏帧。
在测试中,SIMA能够成功在Genie 2生成的房间中导航,并执行“打开蓝色的门”、“去有植物的地方”等自然语言指令。这种组合不仅展示了AI系统在数字和物理空间执行复杂任务的潜力,还为未来AI代理的训练提供了无限可能。
研究团队发现,通过Genie 2快速创建丰富多样的环境,他们可以生成全新的评估任务,这些任务是智能体在训练过程中从未遇到过的。
这意味着,以后针对AI智能体和具身智能的训练,我们或许拥有了取之不尽、用之不竭的训练数据。
在系统架构方面,Genie 2采用了自回归潜变量扩散模型设计。它首先通过自动编码器处理输入图像,然后利用解码器基于用户操作创建3D环境。
在推理时,Genie 2 可以以自回归的方式进行采样,逐帧获取单个动作和先前的潜变量帧。它还使用了无分类器指导(classifier-free guidance)来提高动作的可控性。
这种架构允许系统在保持环境连贯性的同时,实现流畅的实时交互。虽然目前展示的示例来自未经蒸馏的基础模型,但DeepMind已经开发出了可实时运行的蒸馏版本,但输出质量会有所降低。
然而,这项技术的发展也引发了一些争议和担忧。由于DeepMind作为谷歌的子公司可以无限制地访问YouTube视频数据,且谷歌此前暗示其服务条款允许使用YouTube视频进行模型训练,这引发了知识产权方面的担忧。
同时,生成的模拟场景看起来与一些3A游戏场景很相似,这可能涉及到未经授权复制游戏的法律问题。这些问题需要在技术继续发展的同时得到妥善解决。
对游戏开发者而言,Genie 2既是机遇也是挑战。DeepMind指出,它可以帮助开发者快速将概念草图或照片转化为具有完整物理和光照系统的3D空间,极大提升原型设计效率。
然而,随着游戏公司逐渐拥抱AI来提高生产效率,这导致了大量员工被裁。这种技术进步带来的就业市场变革,需要整个行业认真思考和应对。
展望未来,尽管这项研究仍处于早期阶段,在智能体与环境生成的能力和质量方面都有很大的提升空间,但DeepMind认为,Genie 2的发布不仅为解决具身智能的安全训练问题提供了可能性,也为实现真正的通用人工智能(AGI)铺平了道路。
DeepMind还强调,他们将继续致力于提升Genie的世界生成能力,在通用性和一致性方面不断突破,最终目标是开发出更安全、更有益于人类的AI系统,希望彻底改变我们与虚拟世界互动的方式。
参考资料:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
https://techcrunch.com/2024/12/04/deepminds-genie-2-can-generate-interactive-worlds-that-look-like-video-games/