Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。▲ 图源 Meta 公司官方新闻稿(下同)Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅读和编辑这些数据表示。IT之家注意到,开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript,

据 Meta 公司官方新闻稿,该公司开发了一款名为“SceneScript”的视觉模型,该模型号称能够使用可编程语言来快速“建立”场景,实时推断房间几何形状,并将相关数据转换为建筑学层面的近似值。

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

▲ 图源 Meta 公司官方新闻稿(下同)

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

Meta 声称,相关方法能够高效且轻量地建立室内 3D 模型,号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”,并且相关形状数据具有“可解释性”,用户可以轻松阅读和编辑这些数据表示。

IT之家注意到,开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript,以 Llama 模型为例,该模型可以根据前面的单词来预测句子的下一个单词,例如输入句子“The cat sat on the…”,模型会预测下一个单词可能是“mat”或“floor”。而 SceneScript 运用了相同的概念,即通过前序输入内容推出后文,并使用这些建筑学层面的描述重建出复杂的室内 3D 环境。

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

Meta 推出 SceneScript AI 视觉模型,利用可编程语言实时预测建立 3D 场景

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

如何应对Transformer的计算局限?思维链推理提高神经网络计算

编辑 | 白菜叶你的小学老师可能没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字,你所需要的只是纸和铅笔以及一点耐心。从个位开始,一步步向左,很快你就能轻松地积累出千万亿的数字。像这样的问题对人类来说很容易解决,但前提是我们用正确的方式解决它们。「我们人类解决这些问题的方式并不是『盯着它然后写下答案』。」哈佛大学机器学习研究员 Eran Malach 表示,「我们实际上是走过这些台阶的。」这一见解启发了研究人员研究为 ChatGPT 等聊天机器人提供支持的大型语言模型。这些系统可以解决涉及少量算

LLM 的“母语”是什么?

编辑:alan【新智元导读】在以英语为主的语料库上训练的多语言 LLM,是否使用英语作为内部语言?对此,来自 EPFL 的研究人员针对 Llama 2 家族进行了一系列实验。大语言模型的「母语」是什么?我们的第一反应很可能是:英语。但事实果真如此吗?尤其是对于能够听说读写多种语言的 LLM 来说。对此,来自 EPFL(洛桑联邦理工学院)的研究人员发表了下面这篇工作来一探究竟:论文地址: pdf / 2402.10588项目地址: epfl-dlab / llm-latent-language作者以 Llama2 为