「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

⋅ 2024-12-10 17:05:11 ⋅ 阅读 ⋅ 智能

机器之心发布

机器之心编辑部

近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。

几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D生成模型See3D---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注，能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成，还无需微调即可执行 3D 编辑、表面重建等任务，展现出在多种 3D 创作应用中的广泛适用性。

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

See3D 支持从文本、单视图和稀疏视图到 3D 的生成，同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源，更多技术细节请参考 See3D 论文。

论文地址: https://arxiv.org/abs/2412.06699
项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界：输入图片，生成沉浸式可交互 3D 场景，实时探索真实空间结构；

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

See3D 方法展示

3）3D 生成框架：See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能，包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

基于 See3D 的多视图生成

优势

a) 数据扩展性：模型的训练数据源自海量互联网视频，相较于传统 3D 数据集，构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展，该数据集可持续扩充，进一步增强模型能力的覆盖范围。

b）相机可控性：模型可支持在任意复杂的相机轨迹下的场景生成，既可以实现场景级别的漫游，也能聚焦于场景内特定的物体细节，提供灵活多样的视角操控能力。

c) 几何一致性：模型可支持长序列新视角的生成，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。即使视角轨迹发生变化，返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模，See3D 为突破 3D 生成的技术瓶颈提供了新的思路，所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注，避免高昂的 3D 数据采集成本，同时缩小与现有强大闭源 3D 解决方案之间的差距。

- THE END -

打赏

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-12-10 17:05:11

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/zhineng/45761.html

阿里巴巴云计算数据中心失火？网传视频浓烟滚滚，回应称未对云服务造成影响

评论（共条评论，人围观）