EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

2025-02-07 04:07

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据，以及预定义评估提示在复杂任务中的局限性，构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。

为应对这些挑战，研究团队提出了EvalPlanner[1]，这是一种创新的LLM评估算法。该算法采用计划-执行的双阶段范式，首先生成无约束的评估计划，随后执行该计划并做出最终判断。这种方法显著提升了评估过程的系统性和可靠性。

核心方法论

系统架构

EvalPlanner的架构包含三个核心组件，如下图所示：

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

具体来说，系统包含以下关键要素：

a) 评估计划(z)

基于输入指令x，系统制定具体的响应评估策略
计划设计注重灵活性和通用性

b) 计划执行模块

依序执行评估计划的各个步骤
分析目标响应a和b，生成详细的评估结果

c) 最终判决(y)

在评判LLM(参数θ)的框架下，将计划z和执行e作为潜变量
判决生成过程可表述为：

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

工作流程

系统的整体工作流程如下图所示：

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

主要步骤包括：

从分布P中采样多个评估计划z
对每个计划，从分布E中采样多个执行路径e
通过自训练循环优化计划和执行过程
在测试阶段，模型生成结构化的CoT输出：ỹ = (z̃, ẽ, ỹ)

训练数据生成方法

提示词选择与响应对生成

系统采用两类核心任务领域：

通用指令执行任务

a.通过对原始指令引入噪声生成对比样本

b.原始指令响应作为正例，噪声指令响应作为负例

数学推理任务
采样多个候选响应
正确解答作为正例，错误解答作为负例

评估计划生成

系统采用通用且无约束的计划生成提示模板，该模板仅基于输入指令查询经过指令调优的LLM以获取初始计划。提示模板的核心内容如下：

复制

We want to evaluate the quality of the responses provided by AI assistants to
 the user question displayed below. For that, your task is to help us build an
 evaluation plan that can then be executed to assess the response quality.
 Whenever appropriate, you can choose to also include a step-by-step reference
 answer as part of the evaluation plan. Enclose your evaluation plan between
 the tags “[Start of Evaluation Plan]” and “[End of Evaluation Plan]”.
 
 [User Question]
 {instruction}

计划执行生成

计划执行阶段采用种子模型，结合指令和响应对，基于生成的计划进行推理并产生判决。

复制

Please act as an impartial judge and evaluate the quality of the responses
 provided by two AI assistants to the user question displayed below. You
 should choose the assistant that follows the user’s instructions and answers
 the user’s question better. Your evaluation should consider factors such as
 the helpfulness, relevance, accuracy,depth, creativity, and level of detail
 of their responses. Begin your evaluation by comparing the two responses and
 provide a short explanation. Avoid any position biases and ensure that the
 order in which the responses were presented does not influence your decision.
 Do not allow the length of the responses to influence your evaluation. Do not
 favor certain names of the assistants. Be as objective as possible. After
 providing your explanation, output your final verdict by strictly following
 this format: “[[A]]” if assistant A is better, “[[B]]” if assistant B is better.
 
 [[User Question]]
 {instruction}
 
 [The Start of Assistant A’s Answer]
 {response A}
 [The End of Assistant A’s Answer]
 
 [The Start of Assistant B’s Answer]
 {response B}
 [The End of Assistant B’s Answer]

这种分离式架构具有两个主要优势：

确保执行过程严格遵循预定计划
通过对同一计划采样多个执行路径，增加评估数据的多样性

构建计划-执行偏好对

对于每个输入指令：

采样|P|个计划
每个计划采样|E|个执行路径
考虑响应对的两种顺序(a,b)和(b,a)，总共生成2×|P|×|E|个CoT序列

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

计划与执行的优化策略

系统采用自训练循环进行优化，主要包含以下步骤：

初始监督微调(SFT)

从种子模型M₀开始
在正确思维子集D₁ᶜ上进行微调
得到模型M₁ˢᶠᵀ

第一轮直接偏好优化(DPO)

以M₁ˢᶠᵀ为基础
在包含正确与错误思维的数据集D₁上执行DPO
得到模型M₁ᴰᴾᴼ

第二轮直接偏好优化(DPO)

以M₁ᴰᴾᴼ为基础
在新的指令和响应对子集D₂上执行DPO
得到最终模型M₂ᴰᴾᴼ

实验设置与评估

训练数据构建

WildChat数据集：使用自学习评估器生成综合响应
MATH数据集：通过Mixtral 22Bx8 Instruct模型生成多个候选解答

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

实验配置

训练数据规模：

WildChat: 17,588个独特三元组
MATH: 4,141个独特三元组

采样参数：

每次迭代5个计划
每个计划8个执行路径(每种顺序4个)
温度参数0.8，top_p值0.95

基准比较

模型性能与多个基准系统进行对比：

零样本评估的开源和闭源LLM
具有评论功能的奖励模型
RewardBench排行榜上的领先模型

实验结果与分析

性能优势

EvalPlanner展现出显著的性能优势：

在较少训练数据的情况下超越所有基准系统
为生成式奖励模型创造新的性能记录
在多个种子模型上展示方法的普适性

数据效率

系统表现出优异的数据效率：

仅使用5K偏好对即达到92.3的性能分数
通过迭代DPO进一步提升至93.9
相比单次DPO迭代(92.5)取得明显进步

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

泛化能力

在多个评估基准上验证了系统的泛化能力：

FollowBenchEval：在多层次约束评估中超越基准13%
RM-Bench：展示出对内容变化的强大鲁棒性
JudgeBench：在多类别挑战性问题上保持竞争力

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

总结

EvalPlanner通过创新的计划-执行范式，成功解决了LLM评估模型面临的核心挑战。系统在多个基准测试中的出色表现，证实了该方法在构建高效、稳健的评估模型方面的有效性。特别是在数据效率和泛化能力方面的优势，为未来LLM评估系统的发展提供了新的研究方向。

Hymba：结合注意力头和SSM头的创新型语言模型方案

近年来，大语言模型(LLM)在各个领域取得了显著成效。但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能，但在记忆回溯任务上表现较弱。

12/5/2024 4:19:14 PM

佚名

字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动加入了快速发展的AI推理模型竞争，推出了专注于科学、技术、数学和工程（STEM）领域的新型大语言模型Seed-Thinking-v1.5。这款采用混合专家(MoE)架构的模型在多项基准测试中表现优异，甚至在某些指标上超越了行业巨头的产品。推理AI的演进历程推理AI竞赛始于2024年9月OpenAI的o1模型发布，而后在2025年1月DeepSeek R1的推出后真正加速。

4/14/2025 10:01:18 AM

AI在线

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor，让精细编辑更简单！

本文经AIGC Studio公众号授权转载，转载请联系出处。在图像生成领域，大型文本到图像（T2I）扩散模型近年来取得了革命性的突破。然而，将这些强大的生成能力转化为精细的图像编辑任务，仍面临诸多挑战。

1/21/2025 10:45:00 AM

AIGC Studio

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

核心方法论

系统架构

a) 评估计划(z)

b) 计划执行模块

c) 最终判决(y)

工作流程

训练数据生成方法

提示词选择与响应对生成

评估计划生成

计划执行生成

构建计划-执行偏好对

计划与执行的优化策略

初始监督微调(SFT)

第一轮直接偏好优化(DPO)

第二轮直接偏好优化(DPO)

实验设置与评估

训练数据构建

实验配置

基准比较

实验结果与分析

性能优势

数据效率

泛化能力

总结

相关资讯

Hymba：结合注意力头和SSM头的创新型语言模型方案

字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor，让精细编辑更简单！