1. 一眼概览
CHiP 提出了一种跨模态分层偏好优化方法,通过视觉与文本偏好双重引导,显著提升多模态大模型(MLLMs)在幻觉检测任务中的表现,最高减少55.5%的幻觉率。
2. 核心问题
多模态大模型(如GPT-4V、LLaVA)虽具强大能力,但常产生“幻觉”——即图文语义不一致、生成不符合图像内容的描述。现有DPO方法仅基于文本偏好,难以有效对齐图像和文本的表示,也无法细粒度定位幻觉段落,限制了模型可信度与实用性。
3. 技术亮点
- 双模态偏好对齐:引入视觉偏好优化模块,使模型可从图像对比中学习更准确的语义表达;
- 多粒度文本偏好优化:创新性地在响应、段落和token级别进行分层优化,更精细捕捉幻觉信息;
- 大幅降低幻觉率:在ObjHal数据集上,相比DPO,CHiP在Muffin和LLaVA模型上分别减少了52.7%和55.5%的幻觉率。
4. 方法框架
CHiP 包含两个核心模块:
• 视觉偏好优化模块:构造视觉偏好图像对(如原图 vs. 旋转图),引导模型识别哪幅图更能生成优质响应,实现跨模态语义对齐;
• 分层文本偏好优化模块:
a.响应级:优化整个回答的偏好选择;
b.段落级:关注实体词和修改段的贡献;
c.Token级:每个词级别计算KL散度,引导模型逐词去幻觉。
5. 实验结果速览
CHiP 在多项权威幻觉评测基准上展现了显著优势,尤其在与主流基线方法 DPO 进行对比时表现尤为突出。在 Object HalBench 数据集上,CHiP 将基于 LLaVA 模型的响应级幻觉率从原先的 42.7% 降低至 14.1%,提降幅度达到 55.5%;同时,基于 Muffin 模型的幻觉率也从 43.8% 降至 11%,显示出强大的跨模型泛化能力。
在 MMHal-Bench 上,CHiP 显著减少了由 GPT-4 评估判定的幻觉内容,幻觉率从原先的 38.9% 降至仅 4.9%,大幅提升了多模态问答的可信度。
6. 实用价值与应用
CHiP 作为统一的跨模态对齐方案,显著增强了多模态大模型在以下场景的可信度与应用能力:
• AI助手问答/多模态搜索:降低错误描述风险;
• 医疗/安防等高可信场景:避免幻觉导致误判;
• 对齐评估基准建设:提供细粒度对齐训练方法,利于多模态训练范式优化。
7. 开放问题
• 若视觉偏好图像之间差异极小(如微小旋转),CHiP是否仍能有效学习?
• 分层文本偏好机制是否可迁移至音频、多轮对话等其他模态任务?
• CHiP能否与RLHF等强化学习范式结合,进一步提升对齐能力?