Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

2024-03-25 10:08

据 Meta 公司官方新闻稿，该公司开发了一款名为“SceneScript”的视觉模型，该模型号称能够使用可编程语言来快速“建立”场景，实时推断房间几何形状，并将相关数据转换为建筑学层面的近似值。▲ 图源 Meta 公司官方新闻稿（下同）Meta 声称，相关方法能够高效且轻量地建立室内 3D 模型，号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”，并且相关形状数据具有“可解释性”，用户可以轻松阅读和编辑这些数据表示。IT之家注意到，开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript，

据 Meta 公司官方新闻稿，该公司开发了一款名为“SceneScript”的视觉模型，该模型号称能够使用可编程语言来快速“建立”场景，实时推断房间几何形状，并将相关数据转换为建筑学层面的近似值。

▲ 图源 Meta 公司官方新闻稿（下同）

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

Meta 声称，相关方法能够高效且轻量地建立室内 3D 模型，号称“只需要数 KB 的内存即可生成清晰且完整的几何形状”，并且相关形状数据具有“可解释性”，用户可以轻松阅读和编辑这些数据表示。

IT之家注意到，开发人员借鉴了大语言模型“预测单词”的方法来开发 SceneScript，以 Llama 模型为例，该模型可以根据前面的单词来预测句子的下一个单词，例如输入句子“The cat sat on the…”，模型会预测下一个单词可能是“mat”或“floor”。而 SceneScript 运用了相同的概念，即通过前序输入内容推出后文，并使用这些建筑学层面的描述重建出复杂的室内 3D 环境。

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

3D 生成，一直在等待它的「ChatGPT时刻」。一直以来，创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而，3D 生成具有独特而艰巨的挑战，这是图像和视频等其他生成内容所不具备的。首先，3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准；其次，与其他研究相比，可用的数据量少。虽然该领域有数十亿张图像和视频可供学习，但可用于训练的 3D 内容数量要少三到四个数量级。因此，现阶段的3D 生成还必须从非 3D 的图像和

7/4/2024 5:55:00 PM

机器之心

如何应对Transformer的计算局限？思维链推理提高神经网络计算

编辑 | 白菜叶你的小学老师可能没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字，你所需要的只是纸和铅笔以及一点耐心。从个位开始，一步步向左，很快你就能轻松地积累出千万亿的数字。像这样的问题对人类来说很容易解决，但前提是我们用正确的方式解决它们。「我们人类解决这些问题的方式并不是『盯着它然后写下答案』。」哈佛大学机器学习研究员 Eran Malach 表示，「我们实际上是走过这些台阶的。」这一见解启发了研究人员研究为 ChatGPT 等聊天机器人提供支持的大型语言模型。这些系统可以解决涉及少量算

3/22/2024 5:19:00 PM

ScienceAI

LLM 的“母语”是什么？

编辑：alan【新智元导读】在以英语为主的语料库上训练的多语言 LLM，是否使用英语作为内部语言？对此，来自 EPFL 的研究人员针对 Llama 2 家族进行了一系列实验。大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的 LLM 来说。对此，来自 EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：论文地址： pdf / 2402.10588项目地址： epfl-dlab / llm-latent-language作者以 Llama2 为

6/3/2024 7:38:50 AM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Meta 推出 SceneScript AI 视觉模型，利用可编程语言实时预测建立 3D 场景

相关资讯

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

如何应对Transformer的计算局限？思维链推理提高神经网络计算

LLM 的“母语”是什么？