AI在线 AI在线

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

作者:量子位
2025-04-18 09:13
视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。

视频理解的CoT推理能力,怎么评?

中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。

图片

结果发现当前多模态模型在视频复杂推理任务上表现普遍不佳——

最优模型o1仅获得62.8的CoT得分和56.7%的准确率,大多数模型两项指标均低于40分,且闭源模型优于开源模型,大模型优于小模型。

具体来看。

多模态视频理解

在多模态研究领域,视频数据因其丰富的语义信息和全面的场景细节,为构建复杂的思维链(Chain-of-Thought,CoT)推理任务提供了理想载体。

然而,当前多模态研究社区面临一个关键挑战:

缺乏系统化的评估方法来验证模型在视频理解中的CoT推理能力,这严重制约了视频复杂推理任务的研究进展。

针对这一研究空白,中科大等的研究团队创新性地提出了首个面向视频CoT推理过程的多模态评估基准(Benchmark)。

图片

该基准通过建立标准化的评估体系,显著提升了视频理解任务中推理能力的验证效度。

此项工作自发布以来获得了学术界的高度关注,

在HuggingFace的4月11日Daily Papers评选中荣登榜单第二位,展现了其重要的学术价值和应用前景。

图片

研究者认为,当前视频理解领域的评测基准主要存在两个关键性局限:

首先,现有方法普遍仅关注模型输出的最终结果,而忽视了对推理过程的评估。这种评估方式可能导致”假阳性”现象——即便模型在理解或推理环节存在错误,仍可能通过猜测或巧合获得正确的最终答案。

其次,现有基准缺乏对模型推理能力的多维度解构,无法精准识别模型在复杂推理任务中的能力瓶颈(如视觉感知不足与逻辑推理缺陷的区分)。

这两个局限性严重制约了对视频理解模型真实推理能力的科学评估。而针对这些问题所提出的VCR-Bench,则能够很好的实现视频CoT过程评估,填补现有不足。

图片

△图1结果评估的局限性

首个面向视频CoT推理的Benchmark

具体而言,研究团队首先构建了包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。

为确保评估的全面性和可靠性,每个维度精心设计了100余条高质量样本,最终形成包含859个精选视频和1034组问答对的大规模数据集。

这种多维度的评估体系能够对模型的综合推理能力进行全面诊断,不仅覆盖了视频理解的各个关键环节,还能有效揭示模型在不同能力维度上的强弱项。

图片

△图2不同维度样例

其次,对于数据集中的每一条样本,研究团队不仅提供了标准问答对,还额外标注了经过人工验证的详细CoT推理步骤作为参考标准。

在评估过程中,首先对被测模型生成的推理内容进行结构化解析,将其分解为离散的推理步骤。随后,基于预先定义的能力维度框架,包括视觉感知(perception)和逻辑推理(reasoning)两大类别,对这些步骤进行分类标注。为保障评估的客观性,采用GPT-4o作为自动评分器,通过比对模型生成的推理步骤与人工标注的黄金标准,分别计算步骤类别的召回率(Recall)和精确率(Precision),最终以F1分数作为模型CoT得分。这一评估方案既保证了评分的可解释性,又能有效反映模型在不同推理维度上的真实表现。

最后,采用GPT4o从模型的输出内容中提取出最终结果,并于正确结果进行匹配,从而得到模型在VCR-Bench上推理的结果准确性。图片

△图3VCR-Bench的评估过程

研究者在VCR-Bench上进行了大量实验,验证了其评估体系的有效性,并得到了多条富有启发意义的结论:

  • 当前多模态模型在视频复杂推理任务上表现普遍不佳,最优模型o1仅获得62.8的CoT得分和56.7%的准确率,大多数模型两项指标均低于40分,且闭源模型优于开源模型,大模型优于小模型。
  • 通过对感知能力和推理能力的对比分析发现,大多数测试模型的视觉感知得分都低于其推理能力得分,特别是在性能较差的模型中,这种差距表现得更为显著。这一规律清晰地表明,视觉感知能力的不足已经成为制约多模态模型性能提升的首要因素。图片

△图4不同模型在VCR-Bench中的CoT得分

  • 模型在时空定位(TSG)维度表现最差,多数模型无法正确回答相关问题,显示出处理时空变化任务的严重不足。图片

△图5不同模型在VCR-Bench上的准确率结果

图片

△图6TSG任务样例

  • 模型的CoT得分和准确率呈现高度正相关(r=0.89),说明正确有效的CoT的推理步骤能够帮助模型更好的回答对问题。
  • 部分模型如LLaVA系列虽然能达到尚可的准确率,但其CoT得分却明显偏低,深入分析发现这些模型存在指令遵循不充分的问题,其输出内容往往过于简略,缺乏必要的推理步骤;相比之下,Qwen2.5-VL等表现较好的模型能够严格遵循指令要求,生成更加完整、细致的推理过程,因而获得更高的CoT评分。
  • 模型在中等长度视频上表现最佳,短视频和长视频相对较差。长视频因内容复杂度高带来理解挑战;而短视频对于人类标注员而言也较容易理解,能够标注出更有深度的问题,此外一些特殊的维度(TSG)以短视频为主,也是造成短视频性能不佳的原因。这一现象凸显了模型对不同时长视频的适应能力仍需提升。

图片

△图7更多实验结果展示。

(左侧:模型在不同时长视频上的准确率;右上:模型在不同实验设置下的准确率;右下:模型CoT得分与准确率的相关性统计)

Paper: https://arxiv.org/abs/2504.07956

Project Page: https://vlm-reasoning.github.io/VCR-Bench/

Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code: https://github.com/zhishuifeiqian/VCR-Bench

相关标签:

相关资讯

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
1/22/2025 9:32:30 AM
新智元

随手一拍,高效重建大型3D开放场景,港科广GraphGS突破传统重建技术瓶颈|ICLR 2024

从手机随手拍、汽车行车记录仪到无人机航拍,如何从海量无序二维图像快速生成高精度三维场景? 传统方法依赖精确的相机位姿参数,实际应用成本高昂。 港科广团队提出全新框架GraphGS,突破技术瓶颈——无需精准相机位姿,仅凭RGB图像即可实现大规模开放场景的高效重建和高保真新视角合成,相关论文入选ICLR 2025,代码即将开源。
3/26/2025 9:55:14 AM
量子位

双人动作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA! 针对Human-human motion generation问题,浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion,论文已发表于CVPR 2025。 具体来说,通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系,TIMotion设计了两种有效的序列建模方式。
4/3/2025 9:27:44 AM
量子位