12月5日消息,美国当地时间周三,谷歌旗下人工智能研究机构DeepMind推出了一款新模型,能够创造出“无穷无尽”且各具特色的3D世界。
这款模型名为Genie 2,是DeepMind在今年早些时候推出的Genie模型的升级版。仅凭一张图片和一段文字描述,例如“一个可爱的机器人置身于茂密的森林中”,Genie 2就能构建出一个交互式的实时场景。在这方面,它与李飞飞创立的World Labs以及以色列新兴企业Decart所开发的模型有着异曲同工之妙。
DeepMind宣称,Genie 2能够生成“丰富多样的3D世界”,用户可通过鼠标或键盘在这些世界中自由跳跃、游泳等。经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”(非玩家角色)的行为。
Genie 2所创造的许多模拟场景,其视觉效果堪比AAA级视频游戏,这很可能是因为该模型的训练数据中融入了众多热门游戏的体验。然而,与众多人工智能实验室一样,DeepMind出于竞争压力或其他考量,并未过多透露其数据来源及训练方法的细节。
这项技术对知识产权的影响引发关注。作为谷歌的子公司,DeepMind无疑能不受限制地访问YouTube。而谷歌此前曾暗示,其协议允许使用YouTube视频进行模型训练。但问题是,Genie 2在制作过程中,是否无意间制作了它所“观看”的视频游戏未经授权的复制品,恐怕只有法院才能给出最终裁决。
DeepMind透露,Genie 2具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,尽管多数情况下维持在10到20秒之间。
DeepMind团队在博客文章中表示:“Genie 2能够智能地根据键盘操作作出反应,准确识别角色并相应移动它。举例来说,我们的模型能够判断方向键应控制机器人的移动,而非树木或云朵。”
众多类似Genie 2的模型虽能模拟游戏及3D环境,却常面临人造感、连贯性缺失及幻觉相关的挑战。例如,Decart的《我的世界》模拟器Oasis便存在分辨率低、迅速“遗忘”关卡布局的问题。
相比之下,Genie 2能够记忆模拟场景中未直接呈现的部分,并在它们重现时精准渲染,这一能力同样体现在李飞飞World Labs的模型中。
然而,目前利用Genie 2制作的游戏尚缺乏足够的趣味性,因为它们每分钟都会清除玩家的进度。因此,DeepMind将Genie 2定位为一种研究与创新工具,专门用于“互动体验”的原型制作及AI智能体的评估。
DeepMind在博客中写道:“得益于Genie 2卓越的泛化能力,概念艺术和图纸得以轻松转化为完全互动的环境。借助Genie 2,我们的研究人员能够快速构建出丰富多样的环境供AI智能体使用,进而生成训练期间未遭遇过的评估任务,以检验智能体的应对能力。”
对于创意工作者,尤其是电子游戏行业的从业者而言,这种技术可能让他们喜忧参半。近期,《连线》杂志的一项调查显示,诸如动视暴雪等大公司正借助人工智能技术来缩减成本、提升效率,并应对员工流失的问题。事实上,动视暴雪已裁汰了数十名员工。
尽管如此,谷歌在世界模型研究领域的投入正持续加大,这一领域有望成为人工智能领域的下一个重大突破。去年10月,DeepMind成功招募了蒂姆·布鲁克斯(Tim Brooks),他此前负责OpenAI视频生成器Sora的开发工作,现负责视频生成技术和世界模拟器的研发。
两年前,DeepMind还从Meta挖来了蒂姆·罗克塔谢尔(Tim Rocktäschel),他因对《NetHack》等电子游戏的“开放性”实验而闻名。(小小)