「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

2024-12-10 04:22

近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型 See3D---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D 生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。

近日，著名 AI 学者、斯坦福大学教授李飞飞团队 World Labs 推出首个【空间智能】模型，仅输入单张图片，即可生成一个逼真的 3D 世界，这被认为是迈向空间智能的第一步。

几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的 3D 生成模型 See3D---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的 3D 生成模型，See3D 采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的 3D 或相机标注，能够高效地从多样化、易获取的互联网视频中学习 3D 先验。See3D 不仅支持零样本和开放世界的 3D 生成，还无需微调即可执行 3D 编辑、表面重建等任务，展现出在多种 3D 创作应用中的广泛适用性。

See3D 支持从文本、单视图和稀疏视图到 3D 的生成，同时还可支持 3D 编辑与高斯渲染。

相关的模型、代码、Demo 均已开源，更多技术细节请参考 See3D 论文。

论文地址: https://arxiv.org/abs/2412.06699
项目地址: https://vision.baai.ac.cn/see3d

效果展示

1. 解锁 3D 互动世界：输入图片，生成沉浸式可交互 3D 场景，实时探索真实空间结构；「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

实时 3D 交互（备注：为了实现实时交互式渲染，当前对 3D 模型和渲染过程进行了简化，离线渲染真实效果更佳）

2. 基于稀疏图片的 3D 重建：输入稀疏的 (3-6 张) 图片，模型可生成一个精细化的 3D 场景。「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D 基于 6 张视图的 3D 重建

基于 3 张视图的 3D 重建

3. 开放世界 3D 生成：根据文本提示，生成一副艺术化的图片，基于此图片，模型可生成一个虚拟化的 3D 场景。「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

开放世界 3D 生成样例

4. 基于单视图的 3D 生成：输入一张真实场景图片，模型可生成一个逼真的 3D 场景。「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

基于单张图片的 3D 生成

研究动机

3D 数据具有完整的几何结构和相机信息，能够提供丰富的多视角信息，是训练 3D 模型最直接的选择。然而，现有方法通常依赖人工设计（designed artists）、立体匹配（stereo matching）或运动恢复结构（Structure from Motion, SfM）等技术来收集这些数据。尽管经过多年发展，当前 3D 数据的积累规模依然有限，例如 DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和 Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂，还可能难以实施，导致其数据规模难以扩展，无法满足大规模应用的需求。

与此不同，人类视觉系统无需依赖特定的 3D 表征，仅通过连续多视角的观察即可建立对 3D 世界的理解。单帧图像难以实现这一点，而视频因其天然包含多视角关联性和相机运动信息，具备揭示 3D 结构的潜力。更重要的是，视频来源广泛且易于获取，具有高度的可扩展性。基于此，See3D 提出 “See Video, Get 3D” 的理念，旨在通过视频中的多视图信息，让模型像人类一样，学习并推理物理世界的三维结构，而非直接建模其几何形态。

方法介绍

为了实现可扩展的 3D 生成，See3D 提供了一套系统化的解决方案，具体包括：

1）数据集：团队提出了一个视频数据筛选流程，自动去除源视频中多视角不一致或观察视角不充分的视频，构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像，可通过自动化流程随互联网视频量的增长而不断扩充。「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

WebVi3D 数据集样本展示

2）模型：标注大规模视频数据的相机信息成本极高，且在缺乏显式 3D 几何或相机标注的情况下，从视频中学习通用 3D 先验是更具挑战的任务。为解决这一问题，See3D 引入了一种新的视觉条件 —— 通过向掩码视频数据添加时间依赖噪声，生成一种纯粹的 2D 归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型（MVD）训练，避免对相机条件的依赖，实现了 “仅通过视觉获得 3D” 的目标，绕过了昂贵的 3D 标注。

See3D 方法展示

3）3D 生成框架：See3D 学到的 3D 先验能够使一系列 3D 创作应用成为可能，包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

基于 See3D 的多视图生成

优势

a) 数据扩展性：模型的训练数据源自海量互联网视频，相较于传统 3D 数据集，构建的多视图数据集 (16M) 在规模上实现了数量级的提升。随着互联网的持续发展，该数据集可持续扩充，进一步增强模型能力的覆盖范围。

b）相机可控性：模型可支持在任意复杂的相机轨迹下的场景生成，既可以实现场景级别的漫游，也能聚焦于场景内特定的物体细节，提供灵活多样的视角操控能力。

c) 几何一致性：模型可支持长序列新视角的生成，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。即使视角轨迹发生变化，返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模，See3D 为突破 3D 生成的技术瓶颈提供了新的思路，所学习到的 3D 先验为一系列 3D 创作应用提供了支持。希望这项工作能够引发 3D 研究社区对大规模无相机标注数据的关注，避免高昂的 3D 数据采集成本，同时缩小与现有强大闭源 3D 解决方案之间的差距。

全球140+大模型全方位评测结果出炉，智源评测体系发布

2024 年 5 月 17 日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模

5/18/2024 3:50:00 PM

机器之心

又一届「AI春晚」拉开序幕！智源大模型集体爆发了

每一年的智源大会不仅是分享前沿 AI 科技成果的平台，更为国内外业内人士提供了一个交流的舞台。果然，2024 智源大会又为我们带来了诸多惊喜。一年一度的国内「AI 春晚」—— 智源大会又一次拉开了序幕。20 个不同主题的论坛、百场精彩报告让现场和线上的观众目不暇接，切实感受到了当下 AI 尤其是大模型对内容创作、生产办公、机器人、生物医疗等千行百业的深度赋能。在这场「AI 内行顶级盛会」上，不仅有 Llama、Sora 等大模型及 DiT 架构的作者参与交流，详解他们的研究成果；还有百度、零一万物、百川智能、智谱

6/16/2024 6:12:00 PM

机器之心

国产模型首开Hugging Face月度下载全球第一，智源BGE累计下载逾亿

近日，Hugging Face更新了月度榜单，智源研究院的BGE模型登顶榜首，这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE在短短一年时间内，总下载量已超数亿次，是目前下载量最多的国产AI系列模型。BGE，全称BAAI General Embedding，是北京智源人工智能研究院研发的开源通用向量模型，该系列模型专为各类信息检索及大语言模型检索增强应用而打造。

10/11/2024 1:21:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

「See Video, Get 3D」，智源开源无标注视频学习3D生成模型See3D

相关资讯

全球140+大模型全方位评测结果出炉，智源评测体系发布

又一届「AI春晚」拉开序幕！智源大模型集体爆发了

国产模型首开Hugging Face月度下载全球第一，智源BGE累计下载逾亿