AI在线 AI在线

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

作者:漾仔
2024-03-25 10:08
据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。▲ 图源 Meta 公司官方新闻稿(下同)Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅读和编辑这些数据表示。IT之家注意到,开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript,

据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

▲ 图源 Meta 公司官方新闻稿(下同)

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅读和编辑这些数据表示。

IT之家注意到,开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript,以 Llama 模型为例,该模型可以根据前面的单词来预测句子的下一个单词,例如输入句子“The cat sat on the…”,模型会预测下一个单词可能是“mat”或“floor”。而 SceneScript 运用了相同的概念,即通过前序输入内容推出后文,并使用这些建筑学层面的描述重建出复杂的室内 3D 环境。

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

相关标签:

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

如何应对Transformer的计算局限?思维链推理提高神经网络计算

编辑 | 白菜叶你的小学老师可能没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字,你所需要的只是纸和铅笔以及一点耐心。从个位开始,一步步向左,很快你就能轻松地积累出千万亿的数字。像这样的问题对人类来说很容易解决,但前提是我们用正确的方式解决它们。「我们人类解决这些问题的方式并不是『盯着它然后写下答案』。」哈佛大学机器学习研究员 Eran Malach 表示,「我们实际上是走过这些台阶的。」这一见解启发了研究人员研究为 ChatGPT 等聊天机器人提供支持的大型语言模型。这些系统可以解决涉及少量算
3/22/2024 5:19:00 PM
ScienceAI

LLM 的“母语”是什么?

编辑:alan【新智元导读】在以英语为主的语料库上训练的多语言 LLM,是否使用英语作为内部语言?对此,来自 EPFL 的研究人员针对 Llama 2 家族进行了一系列实验。大语言模型的「母语」是什么?我们的第一反应很可能是:英语。但事实果真如此吗?尤其是对于能够听说读写多种语言的 LLM 来说。对此,来自 EPFL(洛桑联邦理工学院)的研究人员发表了下面这篇工作来一探究竟:论文地址: pdf / 2402.10588项目地址: epfl-dlab / llm-latent-language作者以 Llama2 为
6/3/2024 7:38:50 AM
远洋