无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了

2025-02-27 04:03

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文一作汤轶文本科毕业于上海科技大学，导师是李学龙教授，在上海人工智能实验室实习。他的研究兴趣是 3D 视觉，大模型高效迁移，多模态大模型和具身智能等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。

论文标题: Exploring the Potential of Encoder-free Architectures in 3D LMMs
作者单位：上海人工智能实验室，西北工业大学，香港中文大学，清华大学
代码链接：https://github.com/Ivan-Tang-3D/ENEL
论文链接：https://arxiv.org/pdf/2502.09620v1

许多近期的研究致力于开发大型多模态模型（LMMs），使 LLMs 能够解读多模态信息，如 2D 图像（LLaVA）和 3D 点云（Point-LLM, PointLLM, ShapeLLM）。主流的 LMM 通常是依赖于强大但计算量大的多模态编码器（例如，2D 的 CLIP 和 3D 的 I2P-MAE）。

虽然这些预训练编码器提供了强大的多模态嵌入，富含预先存在的知识，但它们也带来了挑战，包括无法适应不同的点云分辨率，以及编码器提取的点云特征无法满足大语言模型的语义需求。

因此，作者首次全面研究了无编码器架构在 3D 大型多模态模型中应用的潜力，将 3D 编码器的功能直接整合到 LLM 本身。最终，他们展示了首个无编码器架构的 3D LMM—ENEL，其 7B 模型与当前最先进的 ShapeLLM-13B 相媲美，表明无编码器架构的巨大潜力。

背景和动机

对于 3D LMMs，基于编码器的架构有以下潜在缺点：

点云分辨率限制：3D 编码器通常在固定分辨率的点云数据上进行预训练，例如 PointLLM 的编码器 Point-BERT 使用 1,024 个点。然而，在推理过程中，输入点云的分辨率可能会有所不同（例如，8,192 个点或 512 个点）。训练和推理分辨率之间的差异可能导致在提取 3D 嵌入时丢失空间信息，从而使 LLMs 理解变得困难。如（a）所示，PointLLM 在不同的点云分辨率输入下性能差异过大，而我们提出的 ENEL 显示出了一定的鲁棒性。
嵌入语义差异：3D 编码器通常采用自监督方法（如掩码学习和对比学习）进行预训练，但 3D 编码器和大语言模型的训练分离导致训练目标可能与 LLMs 的特定语义需求不一致，无法捕捉到 LLMs 理解 3D 物体所需的最相关语义。即使使用投影层将 3D 编码器与 LLMs 连接，简单的 MLP 也往往不足以进行完全的语义转换。如图（b）所示，ENEL 架构中 text token 更能关注到点云物体的关键部位，如椅脚和机翼。

具体方案

作者选择 PointLLM 作为基准模型进行探索，并使用 GPT-4 评分标准在 Objaverse 数据集上评估不同策略的表现。在无编码器结构的探索中他们提出以下两个问题：

如何弥补 3D 编码器最初提取的高层次 3D 语义？在 3D LMMs 中，完全跳过编码器会导致难以捕捉 3D 点云的复杂空间结构。
如何将归纳偏置整合到 LLM 中，以便更好地感知 3D 几何结构？传统的 3D 编码器通常将显式的归纳偏置嵌入到其架构中，以逐步捕捉多层次的 3D 几何。例如，像 Point-M2AE 这样的模型使用局部到全局的层次结构，这一概念在 2D 图像处理的卷积层中也很常见。

LLM 嵌入的语义编码

因为缺乏 3D 编码器导致点云语义信息的编码不足，极大地阻碍了 LLM 理解点云的结构细节。现有的大多数 3D 编码器使用自监督损失将点云的高层语义嵌入到 Transformer 中，主要分为四种类型：掩蔽建模损失 (a)、重建损失 (b)、对比损失 (c) 和知识蒸馏损失 (d)。基于 token embedding 模块和 LLM 可学习层，作者在预训练阶段实现并评估了这些损失对无编码器 3D LMM 的影响，并提出混合语义损失。

点云自监督学习损失通常有助于无编码器 3D LMM。自监督学习损失通过特定的任务设计对复杂的点云进行变换，促使 LLM 学习潜在的几何关系和高层次的语义信息。
在这些自监督学习损失中，掩蔽建模损失展示了最强的性能提升。掩蔽比率与训练优化难度直接相关，从 30% 增加到 60% 会导致性能下降。此外，显式重建点云 patch 不如掩蔽建模有效，但有助于 LLM 学习点云中的复杂模式。相比前两种损失，知识蒸馏损失的效果较差。最后，对比损失未能提取详细的语义信息，表现最差。
基于上述实验结果，作者提出混合语义损失 (Hybrid Semantic Loss)，他们对于掩蔽部分采用掩蔽建模，而对于可见部分，他们使用重建策略。这种方法不仅将高层次的语义嵌入 LLM 中，而且确保在整个点云学习过程中保持几何一致性。

层次几何聚合策略

在无编码器架构中，LLM 本身并没有明确的局部建模模块。自注意力机制主要用于建模全局交互。因此，基于提出的混合语义损失，作者在指令调优阶段探索如何使 LLM 主动感知 3D 局部细节，并补充学到的全局语义。为此，他们提出了层次几何聚合策略。

从 LLM 的第二层开始，输入的点云 token 基于它们对应的坐标使用最远点采样进行下采样，将 token 数量从 M 减少到𝑀/2, 作为局部中心。然后，使用 k-NN 算法获得邻近点。针对邻近点他们采用门控自注意力机制进行组内交互，捕捉局部几何结构。最后，他们应用池化操作融合每个邻居的特征，结果特征长度为 M/2。总共进行 l-1 次几何聚合。
为了确保 LLM 充分提取局部信息，作者选择在聚合操作后经过多层 LLM 层进行进一步的语义建模，避免丢失细粒度的几何细节。
随后，他们进行 l 次几何传播。按照 PointNet++ 的方法，他们将聚合后的特征从局部中心点传播到它们周围的 k 个邻近点，经过 l 次后重新得到长度为 M 的点云特征。

定量分析

在 Objaverse 基准测试中，ENEL-7B 在 3D 物体描述任务中取得了 50.92% 的 GPT-4 得分，创下了新的 SOTA 性能。在传统指标中，SentenceBERT 和 SimCSE 分别达到了 48.61% 和 49.31% 的得分，表现与 ShapeLLM-13B 相当。对于 3D 物体分类任务，ENEL-7B 超越了先前基于编码器的 3D LMMs，取得了 55% 的 GPT 得分。
此外，在 3D MM-Vet 数据集的 3D-VQA 任务上，尽管训练集中缺乏空间和具身交互相关的数据，ENEL 仍取得了 42.7% 的 GPT 得分，超过了 PointLLM-7B 1.5%。
考虑到与 PointLLM 相同的训练数据集，这些结果验证了作者提出的 LLM 嵌入式语义编码和层次几何聚合策略在无编码器架构中的有效性。

实现、训练和推理细节

作者使用 7B Vicuna v1.1 的检查点。在嵌入层中，点云首先通过一个线性层处理，将其维度从 6 扩展到 288。输入点云初始包含 8192 个点，随后经过三次最远点采样（FPS），分别将点云数量减少到 512、256 和 128。每次 FPS 操作后，使用 k 近邻进行聚类，聚类大小为 81，并通过三角编码提取几何特征，随后通过线性层逐步将维度增加到 576、1152 和 2304。最后，投影层将特征映射到 LLM 的 4096 维度。

在两阶段训练过程中，每个阶段使用的数据集和预处理方法与 PointLLM 一致。所有训练均在 4 张 80G 的 A100 GPU 上以 BF16 精度进行，使用了 FlashAttention、AdamW 优化器以及余弦学习率调度策略。在预训练阶段，模型训练了 3 个 epoch，批量大小为 128，学习率为 4e-4。在指令微调阶段，训练进行了 3 个 epoch，批量大小为 32，学习率为 2e-5。

用于分类和描述任务评估的 GPT-4 模型为「gpt-4-0613」版本，与 PointLLM 一致；而用于问答性能评估的 GPT-4 模型为「gpt-4-0125」版本，与 ShapeLLM 对齐。

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

3D 生成，一直在等待它的「ChatGPT时刻」。一直以来，创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而，3D 生成具有独特而艰巨的挑战，这是图像和视频等其他生成内容所不具备的。首先，3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准；其次，与其他研究相比，可用的数据量少。虽然该领域有数十亿张图像和视频可供学习，但可用于训练的 3D 内容数量要少三到四个数量级。因此，现阶段的3D 生成还必须从非 3D 的图像和

7/4/2024 5:55:00 PM

机器之心

跳过人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的实时 3D 人脸姿态估计技术，可以不依赖人脸检测和人脸关键点定位独立运行。

2/9/2021 3:53:00 PM

机器之心

第一！科大讯飞再度刷新Cityscapes世界纪录

近日，科大讯飞凭借在道路目标检测领域多年的技术探索，刷新了Cityscapes 3D目标检测任务的全球最好成绩，得到检测分数（DS）42.9，取得了该项评测的第一名。此次也是科大讯飞继2017年、2018年参与测评之后，再一次刷新Cityscapes的世界纪录。此次评测，科大讯飞借鉴了已在城市交通出行场景下应用的Anchor-Free车辆检测技术，将2D目标检测技术升级至3D，并结合3D到2D重投影的特殊先验信息进行算法迁移。通过结合语义、上下文信息、位置先验信息以及目标形状先验信息等，提取精确的3D目标检测框，构

8/22/2021 1:13:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了

相关资讯

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

跳过人脸检测和关键点定位，Facebook等提出实时3D人脸姿态估计新方法

第一！科大讯飞再度刷新Cityscapes世界纪录