一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

应用
11月13日
编辑

机器之心

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

从文字生成三维世界的场景有多难？

试想一下，如果我们要 “生成复活节岛的摩艾石像”，AI 怎么才能理解我们的需求，然后生成一个精美的三维场景？

斯坦福的研究团队提出了一个创新性解决方案：就像人类使用自然语言（natural language）进行交流，三维场景的构建需要场景语言（Scene Language）。

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

项目主页：https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址：https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求，更让它能够细致地将人类的描述转化为三维世界的场景。同时，它还具备编辑功能，一句简单指令就能改变场景中的元素！物体的位置、风格，现在都可以随意调整。

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

智能的场景理解

再比如，输入 “初始状态的国际象棋盘”，模型可以自动识别并生成如下特征：

64 个黑白相间的格子
按规则排列的 32 个棋子
每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

这个方法支持多种渲染方式，能适应不同的应用场景：一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

更具吸引力的是其编辑能力：只需一句指令，就能调整场景中的元素：一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

支持图片输入

动态生成

不仅限于静态，Scene Language 还能生成动态场景，让 3D 世界生动起来。一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

技术亮点

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解 Scene Language 的核心在于三大组件的融合：

1. 程序语言（program)：用于精确描述场景结构，包括物体间的重复、层次关系；

2. 自然语言（word）：定义场景中的物体类别，提供语义层面的信息；

3. 神经网络表征（embedding）：捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”，既能整体规划，又能雕琢细节。

对比传统方法的优势

与现有技术相比，Scene Language 展现出显著优势：

用户偏好测试中获得 85.65% 的偏好，相比现有方法提高了近 7 倍；
在物体数量控制方面，测试集中的准确率达到 100%，而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性，期待它在游戏开发、建筑设计等领域引领新一轮的创新！

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之，斯坦福大学博士生。主要研究为视觉表征及生成。

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

吴佳俊，现任斯坦福大学助理教授。在麻省理工学院完成博士学位，本科毕业于清华大学姚班。

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

给TA打赏

共{{data.count}}人

人已打赏

Scene Language 三维场景

OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战

2024-11-13 13:01:00

WHALE来了，南大周志华团队做出更强泛化的世界模型

2024-11-13 14:32:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部