前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:
可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。
但细心的网友也发现了一些题目:图中的铅笔等物体比例不太正常,模型似乎不太了解日常物品的大小比例关系。
类似的题目其实不仅存在于 DALL・E 3 等二维图象生成模型。当生成维度提升到三维时,题目变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。
在香港科技大学电子与计算机工程系教授谭平看来,这些题目之所以存在,是因为现有的根底模型并没有充分地在 3D 维度上去了解真实全国。
「AI 最终需求解决真实全国的题目,那就必须要和物理全国发生联系。而我们这个物理全国是 3D 的,所以自然而然,AI 必须了解 3D,从而了解物理全国。」 谭平指出。
作为在计算机视觉、计算机图形学领域工作了 20 多年的资深学者,谭平一直认为,3D 是人类视觉认知全国的根底,因此 3D 信息对于模型准确了解真实全国非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的「富矿」。如果能够创建一个 3D 根底模型,有效地挖掘这个「富矿」,AI 有望从语言走向物理,从字面走向现实,成为真正的、对真实全国有着深刻了解的「通用模型」。
谭平的 Google Scholar 主页,其论文被引量达到了五位数。
基于这一理念,他所创立的 AI 科技公司 —— 光影焕像(Light Illusions)已经实现了一些根底手艺上的突破:包括更准确的 3D 重建和更优秀的文生 3D 效果。
这些成果不仅可以利用于游戏、影视制作等行业,还会对 XR、具身智能等领域产生重要影响。
不过,由于 3D 数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的手艺以及这些手艺可能创造的社会价值,机械之心与谭平博士展开了深入对谈。
3D 根底模型:AI 走向现实的必由之路
为什么要构建一个 3D 根底模型?在回答这个题目时,谭平选择从大规模预训练模型的本质开始讲起。
他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是「学问」。人类上千年文明沉淀下来的文字就蕴含了丰富的学问,比如逻辑、文学、历史、政治这些抽象的学问,所以能够训练出 GPT-4 这类优秀的大型语言模型。
但是,真实全国还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几许形状、3D 运动、接触变形等等。
「由于文字存在这些局限,大家买房都需求看户型图,甚至通过 VR 看房来了解房间的空间结构,而不是光看文字描述;而设计师也需求给用户寄送 3D 样品才能让对方准确了解新产品的外观。」谭平举例说。
所以,谭平认为,要实现通用人工智能(AGI),我们需求两种类型的根底模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的学问,互为补充。
不过,当前的一些视觉模型(比如 Midjourney)多是利用 2D 图象来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实全国的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等题目。而如果将模型对数据的了解上升到 3D 维度,很多题目就会迎刃而解。
「自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。」谭平类比说。
因此,他们希望构建一个 3D 根底模型,来让机械更深刻地了解真实全国,并以此为根底改造全国。从手艺上来讲,这个模型要能够帮助机械感知 3D 物体、3D 环境,了解形状、距离、空间位置关系等要素。同时,它还要有预判才能,预判这个 3D 全国将如何随时间演化,推演可能发生的事件。「比如,家庭服务机械人需求知道花瓶掉落地面可能会摔坏,自动驾驶汽车需求知道墙拐角后面可能会有车或人。」谭平举例说。
「3D 根底模型是一个非常宏大的目标,是让 AI 从语言走向物理,从字面走向现实的必由之路。一旦实现这个目标,机械就可以构建一个真实全国的虚拟数字复刻,在这个数字复刻中模拟、仿真各种可能性,并通过机械人手艺最终改造真实全国。」这是谭平带领的光影焕像希望达到的最终愿景。
在手艺路线上,谭平认为,3D 根底模型也将采用和文本、图象一概的生成式预训练方式。因为生成模型采用自监督学习来训练神经网络,可以非常有效地处理海量训练数据。不过,在此之前,他们必须解决一个题目:如何在 3D 数据极度匮乏的情况下训练 3D 生成模型。
3D 数据:表达真实全国的稀缺「富矿」
预训练模型的本质是从数据中提炼学问。从这个角度来看,我们可以从两个维度来考察数据的价值:一个是数据中学问的丰富度,另一个是数据的规模。作为真实全国的一种高度精确的表达方式,3D 数据毫无疑问具有很高的学问丰富度,就像经济价值极高的「富矿」。但从数据规模上来看,3D 数据是极度稀缺的,因为这类数据通常是由艺术家们手工制作的,或者用专业的设备扫描而来,不像文字、图象那样在互联网上随处可见。
为了让我们直观地了解 3D 数据的稀缺程度,谭平给出了一组数字:著名文生图模型 Stable Diffusion 使用了一个包含 50 亿个图象 – 文本对的数据集(LAION-5B)进行训练;但相比之下,当前最大的 3D 数据集 Objaverse-XL 数据量仅达千万级,而且其中还包含很多质量参差不齐的数据,清洗后实际可用的数据完全没有办法和文字图象进行类比。在这种情况下,如果只用 3D 原生数据去做训练,模型很容易过拟合,泛化性能会受到影响,能处理的任务非常有限。
3D 生成模型泛化才能不足的例子。在这几个例子中,模型分别被要求生成「骑着火箭的柯基」、「背着双肩包的猪」和「弹吉他的松鼠」,结果模型漏掉了一些元素。
「3D 数据本来就在一个比 2D 数据更高维的空间,很可能需求更多的数据才能训练好模型。所以目前的数据是极为不足的。这是一个全行业的挑战,很难在短期内解决。」谭平介绍说。
为了应对这一题目,很多研究会选择基于 2D 数据来训练生成模型。比如一种常见的路线是先用 2D 生成模型生成一张 2D 图象,再用这张生成的图象去优化一个 3D 模型,然后重复这一过程,直到 3D 模型渲染的图象和生成模型产生的 2D 图象变得一概。这种方式的好处是训练数据易得,生成模型泛化才能强;局限性在于,由于 2D 生成模型学到的 3D 先验学问不够全面(比如缺乏关于相机视点的信息和物体的姿态、几许结构学问),生成的 3D 结果会出现多视角不一概等题目(如下图中的几许结构错乱)。
因此,光影焕像的目标是在 3D 数据稀缺的客观条件下,同时使生成模型的泛化才能、生成效果达到可落地水平。要突破这一目标,对 3D 数据的认知是破局关键之所在。
光影焕像手艺路线:用好 3D 数据
2D 数据数量丰富,训练出的生成模型泛化才能强;3D 数据学问丰富度高,训练出的生成模型更懂 3D 全国。因此,光影焕像在打造 3D 模型时首创了基于多源数据的模型融合训练策略,把 2D、3D 数据都充分利用了起来,重点提升了 3D 数据的利用效率。
我们以一个熊的生成任务为例。单纯基于 2D 图象训练的模型经常会生成多视角不一概的图象(如下图)。
所谓的多视角不一概可以从两个方面来了解:几许不一概(如多个头)和外观不一概(如多张脸)。在一项相关研究中,光影焕像发现,大多数的多视角不一概题目源于几许结构的错位。即在将 2D 结果提升到 3D 全国时,由于 2D 生成模型仅学会了和视角无关的先验学问(颜色、纹理等在不同视角下都相同的信息),导致多视角不一概性题目。因此他们把主要目标定为通过改进 2D 生成模型,使其能够产生 3D 一概的几许结构,同时保持模型的通用性。
为了实现这一目标,团队提出了一种方法,即先用 2D 图象训练扩散模型,然后再用 3D 数据去对 2D 扩散模型进行对齐(align),使 2D 扩散模型具备视角感知才能,并生成规范坐标映射(CCM),从而在 2D 到 3D 的提升过程中与 3D 几许结构对齐。利用这一方法,光影焕像仅使用相对少量的 3D 数据,就能获得更强的结果,多视角不一概题目得到大大缓解。
而且,这样训练出的模型还保持了强大的泛化才能,支持更多样的创意(与仅基于 3D 数据训练的模型相比)。
不同模型文生 3D 效果。最右为光影焕像的模型生成效果。
当然,除了文生 3D 之外,利用 2D 图象重建 3D 物体也是一个常见的方向。光影焕像的团队近期研发了一款通过手机拍照实现高质量三维重建的软件,这背后离不开更准确的相机姿态估计。
「我们团队过去有多年的三维视觉的手艺积累,对于相机姿态求解更有经验,可以处理更复杂的数据。」谭平介绍说。
这些根底手艺突破为光影焕像未来打造强大的 3D 根底模型打下了根底。
谭平:3D 根底模型刚刚起步
先解决手艺题目才能加速拐点的到来
虽然是一家以手艺起家的公司,但从谭平目前透露的信息来看,光影焕像并不崇尚「闭门造车」的做事方式,而是已经按照存量市场和增量市场的划分,展开了商业化落地的探索。
在存量市场上,3D 视觉在游戏、影视制作、物体 / 场景三维重建等 ToB 领域有着广阔的利用场景。这些领域需求消耗大量的 3D 资产,但资产的制作周期却很长,成本也很高,严重拖累了产品的迭代更新速度,这是谭平观察到的现象。
「不同于依赖专业人士制作 3D 资产,目前海外的一些公司(比如 Minecraft、Roblox 等游戏公司)采取开放策略,让用户自己快速制作 3D 内容,极大地挖掘了玩家的创意,提升了游戏的可玩性。但目前用户创建的内容质量都比较粗糙。我们的 3D 根底模型有机会实现更高质量的内容创建。」谭平介绍说。
从目前公布的手艺进展中,我们也能看到光影焕像在这方面所做的努力。比如,他们的文生 3D 手艺其实支持多种生成类型(模型、纹理、 空间布局)和多种三维数据表达(经典网格模型、NeRF 等)。这意味着,他们的模型更容易集成到现有的渲染引擎、接到不同的利用中去。相比而言,今天很多文生 3D 的模型都是基于 NeRF 表达来设计的,这样可能就没办法直接利用于游戏等利用,而光影焕像的模型就更为灵活。
在以 XR、具身智能等前沿手艺驱动的增量市场上,光影焕像同样大有可为。
比如,在研发 3D 生成模型过程中,他们发现,生成模型可以增强机械的泛化才能,帮助机械处理从未遇到过的场景题目:给定一个未知物体的图象,生成模型可以生成出这个物体适合被机械手抓取的点,然后结合三维坐标的深度信息形成稳定的抓取位置,控制机械人去抓取过去从未见过的物体,极大地提高了机械的通用抓取才能。
当然,这只是 3D 生成模型利用于机械人研究的一个例子。在更广阔的具身智能领域,许多任务(如物体的姿态估计、操作序列生成)都需求在 3D 空间中来完成,也都可以受益于 3D 根底模型的发展。「我们相信下一代消费级的计算终端终将到来,服务性机械人也终将会走到千家万户,3D 根底模型所带来的才能可以帮助这些智能设备了解真实物理全国,从而更好地完成各种任务。」谭平展望说。
不过,需求承认的一点是,现在的 3D 根底模型尚不成熟,可能处于 ChatGPT1.0 的水平。但是,我们还是可以明显看到手艺的拐点。按照团队当前的研发规划,光影焕像有望在 2-3 年内达到生产级别的可用性。因此,谭平认为,现在的重心应该是解决底层的手艺题目,所有的短期商业化策略都应该是为手艺的迭代和公司实现自我造血服务的,真正的商业化爆发时间点将在手艺成熟之后。
为此,他组建了一支精悍的手艺团队。团队成员大都来自于互联网大厂,包括阿里、字节、美团等。他们在三维视觉领域都有多年的研发经验,也取得了很好的成绩,例如 2019 年 KITTI Depth Completion Benchmark 第一名、2020 年 Multi-view Stereo Benchmark 第一名、2022 年 KITTI/NYU Depth Estimation Benchmark 第一名等。他们研发出的一些底层手艺也被外界广泛利用,比如在 2022 年 CVPR 的 Image Matching Challenge 中,前 6 名有一半的团队采用了他们提出的用于图象匹配的网络 QTA。
对于公司所选的这个方向,身为创始人的谭平有着坚定的信念。20 多年前,他被射影几许的优雅、简洁以及 3D 视觉理论的严谨、深邃所吸引,走进了这个领域。后来在企业工作的经历让他认识到,虽然 3D 很难,但是利用很丰富,不论是自动驾驶、机械人还是 AR/VR,各种利用都需求让机械了解真实物理全国,都离不开 3D 视觉。这坚定了他深耕 3D 这个方向的信心。
「我非常笃定,在退休之前,我做的工作肯定只会是三维视觉,肯定都是跟自动驾驶、机械人、AR/VR 眼镜相关的东西,除了这个我可能什么都不想碰。」谭平曾对学生说。
目前,谭平带领的这支创业团队已经得到了不少投资人的青睐。种子轮领投方清智资本合伙人张煜表示:
生成式 AI 是 AI 发展的新的里程牌。其中,3D 生成是 AIGC 发展的重要方向,也是行业难点。光影焕像团队具有全国顶尖的理论水平和扎实的实践功底,从根底模型层面上解决了包括生成模型的几许不一概和随机物体的自适应抓取等行业关键题目,使得 AI 向实用化迈出关键的一步,同时也大大推进了具身智能的商业落地,创造了根底理论的突破和巨大的产业价值。谭博士带领下的创业团队是一支有朝气、敢于突破创新、敢啃硬骨头的年轻团队,团队短时间内接连在理论研究、算法框架、工程实践、商业落地等各个方面获得了突破。作为专注于投资早期 AI 项目的创投基金,我们对团队未来发展充满信心,希望团队为社会发展和科技进步创造更大的贡献。
目前,光影焕像在 3D 根底模型方向的工作正在稳步推进,我们期待他们早日实现下一个突破。