机器之心发布

机器之心编辑部

近日,著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型,仅输入单张图片,即可生成一个逼真的 3D 世界,这被认为是迈向空间智能的第一步。

几乎同时,国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D。不同于传统依赖相机参数(pose-condition)的 3D生成模型,See3D 采用全新的视觉条件(visual-condition)技术,仅依赖视频中的视觉线索,生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注,能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成,还无需微调即可执行 3D 编辑、表面重建等任务,展现出在多种 3D 创作应用中的广泛适用性。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

See3D 支持从文本、单视图和稀疏视图到 3D 的生成,同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源,更多技术细节请参考 See3D 论文。

  • 论文地址: https://arxiv.org/abs/2412.06699
  • 项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界:输入图片,生成沉浸式可交互 3D 场景,实时探索真实空间结构;

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

See3D 方法展示

3)3D 生成框架:See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等, 支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

「See Video, Get 3D」,智源开源无标注视频学习3D生成模型See3D

基于 See3D 的多视图生成

优势

a) 数据扩展性:模型的训练数据源自海量互联网视频,相较于传统 3D 数据集,构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展,该数据集可持续扩充,进一步增强模型能力的覆盖范围。

b)相机可控性:模型可支持在任意复杂的相机轨迹下的场景生成,既可以实现场景级别的漫游,也能聚焦于场景内特定的物体细节,提供灵活多样的视角操控能力。

c) 几何一致性:模型可支持长序列新视角的生成,保持前后帧视图的几何一致性,并遵循真实三维几何的物理规则。即使视角轨迹发生变化,返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模,See3D 为突破 3D 生成的技术瓶颈提供了新的思路,所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注,避免高昂的 3D 数据采集成本,同时缩小与现有强大闭源 3D 解决方案之间的差距。