一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

图片

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

从文字生成三维世界的场景有多难?

试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?

斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)

图片

  • 项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-language/

  • 文章地址:https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求,更让它能够细致地将人类的描述转化为三维世界的场景。同时,它还具备编辑功能,一句简单指令就能改变场景中的元素!物体的位置、风格,现在都可以随意调整。

图片

智能的场景理解

再比如,输入 “初始状态的国际象棋盘”,模型可以自动识别并生成如下特征:

  • 64 个黑白相间的格子

  • 按规则排列的 32 个棋子

  • 每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。图片

这个方法支持多种渲染方式,能适应不同的应用场景:图片

更具吸引力的是其编辑能力:只需一句指令,就能调整场景中的元素:图片

支持图片输入图片

动态生成

不仅限于静态,Scene Language 还能生成动态场景,让 3D 世界生动起来。图片

技术亮点

图片Scene Language 的核心在于三大组件的融合:

1. 程序语言(program):用于精确描述场景结构,包括物体间的重复、层次关系;

2. 自然语言(word):定义场景中的物体类别,提供语义层面的信息;

3. 神经网络表征(embedding):捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”,既能整体规划,又能雕琢细节。

对比传统方法的优势

与现有技术相比,Scene Language 展现出显著优势:

  • 用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍;

  • 在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性,期待它在游戏开发、建筑设计等领域引领新一轮的创新!

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之,斯坦福大学博士生。主要研究为视觉表征及生成。

图片

吴佳俊,现任斯坦福大学助理教授。在麻省理工学院完成博士学位,本科毕业于清华大学姚班。

图片

相关资讯

「唤醒」NPC,这家融资过亿的国内创企在做一种很新的游戏

每次进入游戏,NPC 都说着不一样的台词,这将是一个怎样的世界?在众多游戏类型中,开放世界游戏是非常受欢迎的一种,因为它允许玩家在一个引人入胜的虚拟世界中漫游,自由地去体验丰富的故事情节,同时完成一些复杂的支线、主线任务。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游戏都属于开放世界游戏。在这类游戏中,非玩家角色(NPC)在推动剧情进展、提供任务与服务以及增强游戏的沉浸感和真实性方面发挥着至关重要的作用。不过,这些 NPC 的台词和行为模式往往是预先编写和固定的,所

零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先

1 月 22 日,零一万物 Yi 系列模型家族迎来新成员:Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。据悉,Yi-VL 模型基于 Yi 语言模型开发,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。Yi-VL 模型开源地址:,Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩,展示了在复杂跨学科任务上的强大实力。MMMU(全名 Massive Multi-discipline Multi-modal Understanding & R

ACL 2024 大奖揭晓!全华人团队用 AI 破解 3000 年前甲骨文密码

一年一度 NLP (自然语言处理)顶会 ACL (国际计算语言学协会)揭晓了最终获奖论文。今年,共有 7 篇论文荣获最佳论文,时间检验奖颁给斯坦福 GloVe、康奈尔大学相似性度量。另外,还有最佳主题奖、最佳社会影响力奖、最佳资源奖、领域主席奖,以及杰出论文奖。ACL 2024 终于颁奖了!共有 7 篇最佳论文,35 篇杰出论文,还有时间检验奖、SAC 奖、最佳主题论文、最佳资源论文奖等一并公布。值得一提的是,7 篇最佳论文中,Deciphering Oracle Bone Language with Diffus