Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

作者：漾仔

2024-03-25 10:08

据 Meta 公司官方新闻稿，该公司开发了一款名为“SceneScript”的视觉模型，该模型号称能够使用可编程语言来快速“建立”场景，实时推断房间几何形状，并将相关数据转换为建筑学层面的近似值。▲ 图源 Meta 公司官方新闻稿（下同）Meta 声称，相关方法能够高效且轻量地建立室内 3D 模型，号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”，并且相关形状数据具有“可解释性”，用户可以轻松阅读和编辑这些数据表示。IT之家注意到，开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript，

据 Meta 公司官方新闻稿，该公司开发了一款名为“SceneScript”的视觉模型，该模型号称能够使用可编程语言来快速“建立”场景，实时推断房间几何形状，并将相关数据转换为建筑学层面的近似值。

▲ 图源 Meta 公司官方新闻稿（下同）

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

Meta 声称，相关方法能够高效且轻量地建立室内 3D 模型，号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”，并且相关形状数据具有“可解释性”，用户可以轻松阅读和编辑这些数据表示。

IT之家注意到，开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript，以 Llama 模型为例，该模型可以根据前面的单词来预测句子的下一个单词，例如输入句子“The cat sat on the…”，模型会预测下一个单词可能是“mat”或“floor”。而 SceneScript 运用了相同的概念，即通过前序输入内容推出后文，并使用这些建筑学层面的描述重建出复杂的室内 3D 环境。

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

相关资讯

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

如何应对Transformer的计算局限？思维链推理提高神经网络计算

LLM 的“母语”是什么？