这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是 Q 加强进修和 A* 搜寻这两种 AI 方式的结合。近日,斯坦福大学一个团队的一项新研讨似乎为这一研讨方向的潜力提供了佐证,其声称现在已经取得非凡成就的「谈话模型不是一个奖赏函数,而是一个 Q 函数!」由此发散思维猜想一下,也许 OpenAI 秘密的 Q* 项目或

还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是 Q 加强进修和 A* 搜寻这两种 AI 方式的结合。

近日,斯坦福大学一个团队的一项新研讨似乎为这一研讨方向的潜力提供了佐证,其声称现在已经取得非凡成就的「谈话模型不是一个奖赏函数,而是一个 Q 函数!」由此发散思维猜想一下,也许 OpenAI 秘密的 Q* 项目或许真的是造就 AGI 的正确方向(或之一)。

这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

论文标题:From r to Q∗: Your Language Model is Secretly a Q-Function

论文地址:https://arxiv.org/pdf/2404.12358.pdf

在对齐大型谈话模型(LLM)与人类意图方面,最常用的方式必然是根据人类反应的加强进修(RLHF)。通过进修鉴于人类标注的比较的奖赏函数,RLHF 能够捕获实践中难以描述的复杂目标。研讨者们也在不断探索运用加强进修技术来开发训练和采样模型的新算法。尤其是间接对齐方案(比如间接偏好优化,即 DPO)凭借其简洁性收获了不少拥趸。

间接对齐方式的操作不是进修奖赏函数然后运用加强进修,而是在上下文多臂赌博机设置(bandit setting)中运用奖赏函数与计谋之间的关系来同时优化这两者。类似的思想已经被用在了视觉 – 谈话模型和图像生成模型中。

尽管有人说这样的间接对齐方式与运用 PPO 等计谋梯度算法的典范 RLHF 方式一样,但它们之间还是存在根本性差异。

举个例子,典范 RLHF 方式是运用终点状态下的稀疏奖赏来优化 token 层面的价值函数。另一方面,DPO 则仅在上下文多臂赌博机设置中执行操作,其是将整个响应当成单条臂处理。这是因为,虽然事实上 token 是一次性只生成一个,但研讨加强进修的人都知道,密集型奖赏是有益的。

尽管间接对齐算法颇引人注意,但目前人们还不清楚它们能否像典范加强进修算法那样用于序列。

为了搞清楚这一点,斯坦福这个团队近日开展了一项研讨:在大型谈话模型中 token 层面的 MDP 设置中,运用二元偏好反应的常见形式推导了 DPO。

他们的研讨解释,DPO 训练会隐含地进修到一个 token 层面的奖赏函数,其中谈话模型 logit 定义最优 Q 函数或预期的总未来奖赏。然后,他们进一步解释 DPO 有能力在 token MDP 内灵活地建模任意可能的密集奖赏函数。

这是什么意思呢?

简单来说,该团队解释可以将 LLM 表示成 Q 函数并且研讨解释 DPO 可以将其与隐式的人类奖赏对齐(根据贝尔曼方程),即在轨迹上的 DPO 损失。

这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

并且他们证明这种表示可以拟合任何在轨迹上的反应奖赏,包括稀疏信号(如智能体应用)。

试验

他们也进行了试验,论证了三个可能对 AI 社区有用的实用见解。

第一,他们的研讨解释尽管 DPO 是作为上下文多臂赌博机而派生出来的,但 DPO 模型的隐含奖赏可在每个 token 层面上进行解释。

在试验中,他们以定性方式评估了 DPO 训练的模型是否能够根据轨迹反应进修 credit assignment。有一个代表性示例是商讨工作就职的场景,图 1 给出了两个答案。

这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

其中左边是正确的基础摘要,右边是经过修改的版本 —— 有更高层的职位和相应更高的工资。他们计算了这两个答案的每个 token 的 DPO 等价的奖赏。图 1 中的每个 token 标注的颜色就正比于该奖赏。

可以看到,模型能够成功识别对应于错误陈述的 token,同时其它 token 的值依然相差不大,这解释模型可以执行 credit assignment。

此外,还可以看到在第一个错误(250K 工资)的上下文中,模型依然为其余 token 分配了合理的值,并识别出了第二个错误(management position)。这也许解释模型具备「缝合(stitching)」能力,即根据离线数据进行组合泛化的能力。该团队表示,如果事实如此,那么这一发现将有助于加强进修和 RLHF 在 LLM 中的应用。

第二,研讨解释对 DPO 模型进行似然搜寻类似于现在很多研讨中在解码期间搜寻奖赏函数。也就是说,他们证明在 token 层面的阐述方式下,典范的鉴于搜寻的算法(比如 MCTS)等价于在 DPO 计谋上的鉴于似然的搜寻。他们的试验解释,一种简单的波束搜寻能为基础 DPO 计谋带来有意义的提升,见图 2。

这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

第三,他们确定初始计谋和参考分布的选择对于确定训练期间隐性奖赏的轨迹非常重要。

从图 3 可以看出,当在 DPO 之前执行 SFT 时,被选取和被拒绝的响应的隐含奖赏都会下降,但它们的差距会变大。

这就是OpenAI神秘的Q*?斯坦福:谈话模型就是Q函数

当然,该团队最后也表示,这些研讨结果还需要更大规模的试验加以检验,他们也给出了一些值得探索的方向,包括运用 DPO 让 LLM 学会鉴于反应进修推理、执行多轮对话、充当智能体、生成图像和视频等。

给TA打赏
共{{data.count}}人
人已打赏
工程

CVPR 2024 | 基于MoE的通用图象融会模型,添加2.8%参数完成多项任意

2024-4-24 11:10:00

工程

首批华文版Llama3模型来了,解释成语、答弱智吧成绩

2024-4-25 11:23:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索