开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

生成式 AI 在 3D 规模在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个 3D 模型的创建成本至少需要几千元。生成式 AI 手艺在 2D 图象生成规模的成功经验，让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启，但当前市面上的 3D 生成类的 AI 手艺仍然存在各种不足，大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初，OpenAI 发布

生成式 AI 在 3D 规模在很长一段时间内都在等待自己的「ChatGPT」时刻。

传统 3D 建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个 3D 模型的创建成本至少需要几千元。生成式 AI 手艺在 2D 图象生成规模的成功经验，让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启，但当前市面上的 3D 生成类的 AI 手艺仍然存在各种不足，大家都在期待出现一个让自己眼前一亮的产品。

2021 年 1 月初，OpenAI 发布 DALL・E，并以输入文字 prompt「一把牛油果形状的扶手椅」，丰富的形象、清晰的结构标志着文字生成图片的手艺走向成熟。

MIT 科技评价道：「这把牛油果扶手椅可能是 AI 的未来（This avocado armchair could be the future of AI）」

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

Prompt（提示词）：an armchair in the shape of an avocado. 图源：OpenAI

2023 年 12 月，机器之心体验了 VAST 自研的 3D 大模型 Tripo，当经典的「牛油果手扶椅」以精致的形态快速丝滑地在眼前生成，我们立刻意识到，生成式 AI 迎来了又一个里程碑时刻。

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

Prompt（提示词）：avocado chair. 图源 TripoAI

VAST 是谁？

经过一番搜索，我们发现，最近走红的两项 3D 生成手艺 Wonder3D 和 CSD 都与这家公司有关。

不久前，一个名为 Wonder3D 的开源项目被开发者发掘，它能够在 3 分钟内从单个图象重建高保真纹理网格。在开源平台 GitHub 上，这个项目短时间内就斩获了 3.3K Github Star：

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

体验链接：https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

与此同时，一项操纵图象扩散模型实行 3D 生成的理论突破成果「CSD 」也引发了众人关注：

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

VAST 此前仅有的公开亮相是创始人在图形学盛会 SIGGRAPH 五十周年庆典中进行的 Keynote 演讲。通过当时的报道可以了解到，VAST 是一家专注于通用 3D 大模型的手艺研发及产品落地的初创公司。

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

作为首位在 SIGGRAPH 发表主题演讲的中国创业者，VAST 创始人宋亚宸提到，VAST 的目标是减少制作高质量 3D 资产和环境所需的专业知识和成本，让 3D 实质生成变成一件更容易的事。

「3D 手艺代表了下一个前沿方向，开启了沉浸式表达的新维度，我们相信 AI 可以让任何人创造出令人惊叹的 3D 实质，且不受制于想象力之外的任何因素。」

作为一家初创公司，VAST 的创始人为何能够与业内巨头英伟达、索尼、Unity 的掌门人同台演讲？它们又是如何推动了 Wonder3D 和 CSD 这样的手艺突破？

带着这份好奇心，机器之心拜访了 VAST 在北京的办公室。

了解过团队情况后，我们发现 VAST 可以说是「卧虎藏龙」：

算法团队成员清一色来自海内外的顶尖高校和手艺大厂，具有丰富的人工智能及图形学经验。

CTO 梁鼎师从戴琼海院士，曾担任商汤通用视觉和言语大模型发起人和垂类言语大模型负责人，著有论文 40 多篇，引用 7000 次，国内专利 100 多项，海外专利 14 项。

首席科学家曹炎培师从胡事民院士，前腾讯 ARC Lab 和 AI Lab 3D 方向专家，拥有论文 40 多篇，近期在 3D 生成方向的相关成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

还有一位出生于 97 年的青年科学家郭元晨，他是清华大学博士生，师从张松海副教授，也是知名 3D 生成开源项目 threestudio 的发起者、核心贡献者。该项目已经在 GitHub 社区收获了 4.4K 星标，是目前为止功能最完整、使用最广泛的 3D 生成代码框架。

threestudio 地址：https://github.com/threestudio-project/threestudio/

随后，VAST 和机器之心聊了聊他们正在进行的手艺摸索。

AI 在 3D 生成规模的壁垒，如何打破？

我们聊到的第一个问题是：在 3D 实质的生成上，AI 还面临着哪些挑战？

要理解这个问题，首先需要理解 3D 实质制作的特殊性。

数字 3D 实质起源于 20 世纪 60 年代的计算机图形学，迄今已衍生出众多细分规模。一般来说，完整的 3D 生产管线涵盖概念设计、3D 建模、纹理 / 材质、动画和衬着等多个环节。

传统流程中，3D 数字实质的生成均由积累⻓时间进修和⼯作经验的专业艺术家进行创作，加⼊了⼤量的⼈⼯经验设计，且不同艺术家⼯作流程不同，没有绝对统一的标准。对于这些资深的专业 3D 创作者来说，3D 实质生成也是一项非常复杂且耗时的工作。

此外，3D 数字实质表达的多样性，也为 AI 的进修过程增添了更多挑战。多边形⽹格、细分曲⾯、⻣骼动画、顶点动画、物理模拟动画，不同的材质涉及不同的衬着管线。表达方式的不统一，导致 3D 实质的制作本身比 2D 更具挑战性。

以我们熟悉的视觉模型和言语模型为例，它们会通过对预训练数据的「进修」来摸索规律，最终展现出一种非常接近「创造」的才智。实行这种进修才智的前提是图象、视频、语音、文字均有比较通用的表现形式。

对于现有的生成式大模型来说，3D 数字实质就像是一种很新的「言语」体系。因此，想让 AI「学会」生成媲美人类水准的 3D 模型，同时保证速度，并不是一件容易的事。

已取得阶段性突破的研究大多遵循 2D 优化路线：操纵已有生成模型的 2D 生成才智，通过多视角优化将生成维度提升到三维。

斩获了 ECCV 2020 最佳论文荣誉提名的 NeRF（Neural Radiance Fields，神经辐射场衬着）在多视图重建静态三维场景方面获得了重要进展。这项基础理论的突破开启了新的一波 3D x AI 热潮，在此基础上，有研究者引入了擅长文本到图象生成的扩散模型，比如 Google 去年发布的 DreamFusion 算法，提出采用「Score Distillation Sampling」实行从文本到 3D 的生成。DreamFusion 的优点是几乎不需要事先训练，实行了在没有 3D 数据的情况下生成物体 3D 表现，缺点是速度慢（长达数个小时）。

OpenAI 在去年同期发布的 Point-E 则采用了在 3D 数据集训练的方案，还强调了「可以用单块 NVIDIA V100 GPU 在一到两分钟内生成 3D 模型」，但它在从文字到 3D 的转换过程中偶尔还是无法理解文本叙述的实质，导致生成的形状与文本提示不匹配，而且生成结果的精细度不足。

总之，沿袭此路线的后续研究很多，但始终没有一个方案能兼顾模型的生成质量、速度、多样性和可控性。

「通用 3D 大模型」的摸索之路

知名计算机科学家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中给出过一个论断：对于 AI 模型的训练来说，要在短期内有所提升，研究人员可以操纵专门规模的人类知识。但如果想要长期地获得提升，更好地操纵计算才智才是王道。

正如早期的 CV 规模，普遍认为只要设计出更好的特征描述就可以持续进步，但后来大获成功的深度进修方法仅使用卷积或注意力机制就能得到更好的效果。其中 ImageNet 等海量图象数据集、GPU 提供的强大计算才智，以及 CNN、Transformer 等高可扩展性的模型架构起到了至关重要的作用。

VAST 认为，AI 要想在 3D 生成规模获得长足发展，同样需要跳出对人类知识的依赖，凭借更庞大的数据和更多的计算「进修」一种「通用方法」。

具体到 3D 规模，让 AI 突破瓶颈获得「通用才智」的方法论又是什么呢？

在 VAST 看来，这个目标可以从三个方向的工作入手：表现、模型和数据。

充分利⽤算⼒的关键，最重要正是在于找到合适的「表现」。⽐如 3D 实质制作中常用三⻆⽹格来模拟复杂物体的表面，这种表现对 GPU 衬着算⼒友好，但是对深度进修算法来说并不够友好。

VAST 希望寻找一种更加灵活、利于计算的 3D 统一表现，同时兼容现有的图形管线。

在最近的论文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》，他们提出了一种新的动态场景表现方法，通过将场景运动和外观分解为稀疏控制点和稠密的 3D Gaussians，显著提高了动态场景的可编辑性和衬着质量，在新视角合成和保持外观的运动编辑方面均显著优于现有方法。

另外一项研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》则摸索了基于三平面（triplane）和高斯泼溅（3D Gaussian Splatting）融合的 3D 表现，操纵高度可扩展的 Transformer 架构即可实行 2 秒内的高质量图生 3D。

此外，摸索「3D tokenizer」也是一种不错的思路。此前的一项研究表明，在相同的训练数据、模型大小和训练预算条件下，如果操纵良好的视觉 tokenizer，掩码言语模型在图象和视频基准的生成保真度和效率方面同样可达到与扩散模型相同的水准。对于 3D 生成任务来说，将 3D 表现转化为与言语 token 相近形式的 token 表现，或许有助于将现有的理解和生成大模型应用在 3D 规模。

在「模型」层面，VAST 近期的多项研究都摸索了如何充分操纵大模型在其他模态下的先验、设计准则、训练经验，以提升模型对 3D 数据的进修才智。

比如近段时间爆火的 Wonder3D 就创新地提出了复用强大的 2D 图象生成模型同步生成多视角一致法向和 RGB 图，实行了 2 分钟高质量图生 3D。他们操纵多视角法向图表现 3D 几何信息，从而可以有效操纵大量 2D 数据先验。

此外，VAST 还在最新的一项研究「UniDream」中提出了可输出具有高质量 PBR 材质、可重光照 3D 模型的多阶段文生 3D 框架。这一框架分为三个组成部分：1. 复用强大的 2D 图象生成模型，以文字为条件，同步生成解耦的多视角一致的法向和基础色；2. 结合在大量 3D 数据训练的可泛化 3D 重建模型，从多视角图片生成基础 3D 先验；3. 操纵材质解耦的 SDS 优化方法，得到最终具有高质量几何和 PBR 材质的 3D 模型。

「数据」层面的挑战同样不容忽视。由于优质、原生、多样化的 3D 数据集资源的稀缺，模型的最终表现受限，导致可以生成的 3D 实质有限，泛化才智不足。这也是为什么一部分研究者尝试过直接用 3D 数据集进行训练和微调模型，但都没能取得太理想的效果的原因。

针对这个问题，VAST 自 2023 年初成立以来一直不断积累在 3D 数据上的优势，目前已拥有全世界最大的 3D 高质量原生数据库（千万级别）。

基于千万 3D 原生数据训练的大模型

已有落地产品

经历了近一年的摸索，VAST 在今年 12 月已经完成了通用 3D 大模型 Tripo 的研发。

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代 Tripo AI Fantasy: Launched，与艺术家Rui Huang共创

Tripo 基于海量 3D 高质量原生数据库训练，是一个数十亿参数级别的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路线上的手艺摸索，Tripo 在生成的质量、速度、成功率上行业领先。目前，已经实行 8 秒钟生成带纹理 3D 网格模型，可以进入传统管线进行二次编辑和调整。在此基础上，可以再用5分钟的时间进行优化，优化后的 3D 模型可以接近人类手工制作的 3D 模型质量，成功率超过 95%。

Tripo 也已经在 12 月 21 日正式上线，目前支持「文生 3D」和「图生 3D」两种才智。

前往 VAST 官网免费体验 Tripo 3D 生成才智：www.tripo3d.ai

我们可以观察到， Tripo 有着较强的泛化才智，不管是写实、风格化任务，还是结构复杂的幻想生物，也能在短时间内完成，展现出了在 3D 创意实质方面的巨大潜力。

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代