AI在线 AI在线

使用人工智能幻觉评估图像真实感​

作者: 朱先忠
2025-04-09 08:23
译者 | 朱先忠审校 | 重楼引言最近,俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。 这种方法的主要思想是:不是通过提高大型视觉语言模型(LVLM)的准确性,而是通过有意利用它们产生幻觉的倾向。 这种新方法使用LVLM提取有关图像的多个“原子事实”,然后应用自然语言推理(NLI)系统地衡量这些陈述之间的矛盾,从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。

使用人工智能幻觉评估图像真实感​

译者 | 朱先忠

审校 | 重楼

引言

最近,俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。这种方法的主要思想是:不是通过提高大型视觉语言模型(LVLM)的准确性,而是通过有意利用它们产生幻觉的倾向。

这种新方法使用LVLM提取有关图像的多个“原子事实”,然后应用自然语言推理(NLI)系统地衡量这些陈述之间的矛盾,从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。

使用人工智能幻觉评估图像真实感​

WHOOPS!数据集中的两幅图像以及LVLM模型自动生成的语句(左侧图像非常逼真,因此可以产生一致的描述,而右侧图像则不同寻常,导致模型产生幻觉,产生矛盾或错误的语句。图片来源:https://arxiv.org/pdf/2503.15948)

当被要求评估第二幅图像的真实度时,LVLM发现有些不对劲,因为所描绘的骆驼有三个驼峰,这在自然界中是未知的。

然而,LVLM最初将大于2个驼峰与大于2只动物混为一谈,因为这是你在一张“骆驼图片”中看到三个驼峰的唯一方式。然后,它继续产生幻觉,产生比三个驼峰更不可能的东西(即“两个头”),并且从未详细描述似乎引发其怀疑的内容——不太可能的额外驼峰。

这项新研究的研究人员发现,LVLM模型可以原生地执行此类评估,并且与针对此类任务进行微调的模型相当(甚至更好)。由于微调复杂、昂贵且在下游适用性方面相当脆弱;因此,他们发现当前AI革命中最大的障碍之一的原生用途是对文献中总体趋势的一次令人耳目一新的转变。

开放式评估

作者断言,上述方法的重要性在于它可以与开源框架一起部署。虽然像ChatGPT这样的先进且高投资的模型(该论文承认)可能在这项任务中提供更好的结果,但对于我们大多数人(尤其是业余爱好者和VFX社区)来说,该文献的真正价值在于有可能在本地实现中融入和开发新的突破;相反,所有注定要用于专有商业API系统的产品都可能被撤回、任意涨价和经受审查——这些审查政策更有可能反映公司的企业关切,而不是用户的需求和责任。

这篇新论文的标题为《不要对抗幻觉,而要利用它们:使用NLI而非原子事实估计图像真实性》,该文由来自斯科尔科沃科学技术学院(Skoltech)、莫斯科物理技术学院以及俄罗斯公司MTSAI和AIRI的五名研究人员共同撰写。该论文还提供了一个相应的GitHub页面。

研究方法

论文作者们使用以色列/美国WHOOPS!数据集研究这个项目:

使用人工智能幻觉评估图像真实感​

WHOOPS!数据集中不可能出现的图像示例。值得注意的是,这些图像如何组合合理的元素,并且它们的不可能性必须基于这些不兼容方面的串联来计算。来源:https://whoops-benchmark.github.io/

该数据集包含500张合成图像和超过10,874条注释,专门用于测试AI模型的常识推理和构图理解。它是与设计师合作创建的,这些设计师的任务是通过文本到图像系统(例如Midjourney和DALL-E系列)生成具有挑战性的图像——产生难以或不可能自然捕捉的场景:

使用人工智能幻觉评估图像真实感​

WHOOPS!数据集中的更多示例。来源:https://huggingface.co/datasets/nlphuji/whoops

他们提出的新方法可划分为三个阶段:首先,LVLM(具体来说是LLaVA-v1.6-mistral-7b)被提示生成多个描述图像的简单语句(称为“原子事实”)。这些语句是使用多样化集束搜索生成的,确保输出的可变性。

使用人工智能幻觉评估图像真实感​

多样化集束搜索通过优化多样性增强目标,提供了更多种类的字幕选项(来源:https://arxiv.org/pdf/1610.02424)

接下来,他们使用自然语言推理模型系统地将每个生成的语句与每个其他语句进行比较,该模型分配的分数反映了语句对是否相互包含、矛盾或中立。

矛盾的话,表明图像中存在幻觉或不切实际的元素:

使用人工智能幻觉评估图像真实感​

实验中使用的检测管道的架构

最后,他们将这些成对的NLI分数聚合为单个“现实分数”,以量化生成的语句的整体一致性。

研究人员探索了不同的聚合方法,发现基于聚类的方法效果最佳。他们应用k-means聚类算法将单个NLI分数分成两个聚类,然后选择值较低的聚类的质心作为最终指标。

使用两个聚类直接符合分类任务的二元性质,即区分真实图像和非真实图像。其逻辑类似于简单地选择总体最低分;然而,聚类允许指标表示多个事实的平均矛盾,而不是依赖于单个异常值。

数据和测试

研究人员使用旋转测试分割(即交叉验证)在WHOOPS!基线基准上测试了他们的系统。测试的模型是分割的BLIP2 FlanT5-XL和BLIP2 FlanT5-XXL,以及零样本格式的BLIP2 FlanT5-XXL(即无需额外训练)。

对于遵循指令的基线,作者用短语“Is this unusual? Please explain briefly with a short sentence(这不寻常吗?请用一个简短的句子简要解释一下)”提示LVLM,先前的研究发现这对发现不切实际的图像很有效。

评估的模型是LLaVA 1.6 Mistral 7B、LLaVA 1.6 Vicuna 13B和两种大小(7/130亿个参数)的InstructBLIP。

测试过程围绕102对真实和非真实(“怪异”)图像展开。每对图像由一张正常图像和一张违背常理的图像组成。

三位人类注释者对图像进行了标注,达成了92%的共识,表明人类对“怪异”的定义具有高度的认同感。评估方法的准确性是通过正确区分现实和非现实图像的能力来衡量的。

该系统使用三重交叉验证进行评估,使用固定种子随机打乱数据。作者在训练期间调整了蕴涵分数(逻辑上一致的陈述)和矛盾分数(逻辑上冲突的陈述)的权重,而“中性”分数固定为零。最终准确率计算为所有测试分割的平均值。

使用人工智能幻觉评估图像真实感​

对五个生成事实的子集进行不同NLI模型和聚合方法的比较,以准确性作为衡量标准。

对于上面显示的初步结果,论文指出:

“clust方法脱颖而出,成为表现最佳的方法之一。这意味着,汇总所有矛盾分数至关重要,而不是只关注极端值。此外,最大的NLI模型(nli-deberta-v3-large)在所有聚合方法中的表现优于所有其他模型,这表明它更有效地抓住了问题的本质。”

作者发现,最优权重始终倾向于矛盾而非蕴涵,这表明矛盾对于区分不切实际的图像更具参考价值。他们的方法优于测试的所有其他零样本方法,接近经过微调的BLIP2模型的性能:

使用人工智能幻觉评估图像真实感​

各种方法在WHOOPS!基准上的表现。微调(ft)方法显示在顶部,而零样本(zs)方法列在下面。其中,模型大小表示参数数量,准确率用作评估指标

他们还指出,在同样的提示下,InstructBLIP的表现优于同类LLaVA模型,这多少有点出乎意料。在承认GPT-4o的卓越准确性的同时,该论文强调了作者倾向于展示实用的开源解决方案,而且似乎可以合理地宣称在明确利用幻觉作为诊断工具方面具有新颖性。

结论

作者承认他们的项目得益于2024年FaithScore活动,这是德克萨斯大学达拉斯分校和约翰霍普金斯大学合作举办的活动。

使用人工智能幻觉评估图像真实感​

FaithScore评估的工作原理说明。首先,识别LVLM生成的答案中的描述性陈述。接下来,将这些陈述分解为单个原子事实。最后,将原子事实与输入图像进行比较以验证其准确性。其中,带下划线的文本突出显示客观描述内容,而蓝色文本表示幻觉陈述,从而使FaithScore能够提供可解释的事实正确性衡量标准。来源:https://arxiv.org/pdf/2311.01477

FaithScore通过验证与图像内容的一致性来衡量LVLM生成的描述的忠实度,而新论文中抽出的方法明确利用了LVLM幻觉,通过使用自然语言推理生成的事实中的矛盾来检测不切实际的图像。

新成果自然取决于当前语言模型的怪异之处,以及它们产生幻觉的倾向。如果模型开发最终产生一个完全不产生幻觉的模型,那么新成果的一般原理也将不再适用。然而,这仍然是一个充满挑战的前景。

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:Using AI Hallucinations to Evaluate Image Realism,作者:Martin Anderson

相关资讯

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

排行榜一出,高下立见。人工智能发展进步神速,但问题频出。OpenAI 新出的 GPT 视觉 API 前脚让人感叹效果极好,后脚又因幻觉问题令人不禁吐槽。幻觉一直是大模型的致命缺陷。由于数据集庞杂,其中难免会有过时、错误的信息,导致输出质量面临着严峻的考验。过多重复的信息还会使大模型形成偏见,这也是幻觉的一种。但是幻觉并非无解命题。开发过程中对数据集慎重使用、严格过滤,构建高质量数据集,以及优化模型结构、训练方式都能在一定程度上缓解幻觉问题。流行的大模型有那么多,它们对于幻觉的缓解效果如何?这里有个排行榜明确地对比了
11/15/2023 10:46:00 AM
机器之心

Meta公布BLT新架构:告别token,拥抱patch

译者 | 核子可乐审校 | 重楼Meta发布的BLT架构为大模型扩展找到又一条出路,也开启了用patch方法取代token的全新可能性。 开篇先提问:我们为什么非得把文本拆分成token? 直接用原始字节怎么就不行?
1/22/2025 8:17:03 AM
核子可乐

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

OpenAI的新Scaling Law,含金量又提高了。 像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健。 图片随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增。
1/23/2025 2:53:15 PM