全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

强大到能威胁人类，所以不得不把自家 CEO 开了？本周三，OpenAI 的「宫斗」随着山姆・奥特曼回归 CEO 大位而告于段落，不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道，是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼的。最近几天，互联网上有关 Q* 的计划前所未有的热闹。据 The Information 本周四报导，由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术冲破，使得他们可以构建一个名为 Q*（音同 Q star）的新模型。Q

强大到能威胁人类，所以不得不把自家 CEO 开了？

本周三，OpenAI 的「宫斗」随着山姆・奥特曼回归 CEO 大位而告于段落，不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道，是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼的。

最近几天，互联网上有关 Q* 的计划前所未有的热闹。

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

据 The Information 本周四报导，由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术冲破，使得他们可以构建一个名为 Q*（音同 Q star）的新模型。Q* 最关键的冲破是它可以处理基本的数学成绩。

又据路透社报导，Q * 模型引发了 OpenAI 内部的一场风暴，几名工作人员写信给 OpenAI 董事会，警告称这一新冲破大概会威胁人类。这一警告被觉得是董事会选择解雇山姆・奥特曼（Sam Altman）的原因之一。

让 AI 处理基本数学成绩的能力听起来似乎没有很厉害，但实际上这代表着大模型能力的巨大飞跃。很多近期研讨表明，现有模型很难在训练数据之外进行泛化。

越来越多的工程师和研讨人员加入了对 Q * 的猜测和计划之中。

据 Business Insider 报导，人工智能初创公司 Tromero 的联合创始人 Charles Higgins 表明：「对抽象概念进行逻辑推理正是目前大模型真正面临的难题。数学涉及大量符号推理，例如『如果 X 大于 Y，Y 大于 Z，那么 X 大于 Z。』」而现有语言模型不进行逻辑推理，只是拥有有效的直觉。

那么，Q * 模型为什么可以进行逻辑推理？它的名字暗示了这个成绩的答案。

Q * 暗示其分离了两种著名的人工智能要领 ——Q-learning 和 A* 搜寻。

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

Q-learning 是人工智能领域的一个基本概念，它是一种无模型强化进修算法，旨在进修特定状态下动作（action）的价值（value）。Q-learning 的最终目标是找到一个最优策略，定义在每个状态下采取的最佳动作，从而随着时间的推移最大化累积奖励（reward）。

ChatGPT 开发者之一的 John Schulman 2016 年在一次演讲中提到过这个概念，引入 Q* 到优化策略中：

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

所以在每个状态下，哪种行动能有最优奖励？

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

Bandit 成绩可以利用贝尔曼方程来处理。

Q-learning 基于 Q 函数，即状态动作价值函数。在简单的场景中，Q-learning 会维护并更新一个 Q-table，更新规则通常表明为：

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

图源：https://twitter.com/BrianRoemmele/status/1727558171462365386

Q-learning 的关键是平衡探索（测验考试新事物）和利用（使用已知信息）。简单来说，Q* 可以实现最优策略，这在强化进修等 AI 要领中是算法重要的步骤，有关算法能否采取最佳决策，找到「正确解」。通常，被称为「Q Learning」的行为不会指代对上下文的搜寻，或者至少不会作为算法的高级名称。它通常用于指代贪婪行为的代理。

另外也有人觉得，或许如果 Q 指代 Q Learning，那么 * 就是来自 A* 搜寻。

A*（A-Star）算法是一种静态路网中求最短路径最有效的直接搜寻要领，也是处理许多搜寻成绩的有效算法。算法中的距离估算值与实际值越接近，最终搜寻速度越快。

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

这样的思路也很有趣。

最后，如果你想了解更多 Q-learning 的内容，可以参看强化进修之父 Richard S. Sutton 那本著名的《Reinforcement Learning: An Introduction》。

值得注意的是，OpenAI 为大模型训练使用的 RLHF 要领，旨在让模型从人类反馈中进修，而不是仅仅依赖于预定义的数据集。

人类反馈可以有多种形式，包括更正、不同输出的排名、直接的指令等等。AI 模型会利用这些反馈来调整其算法并改进响应。这种要领在定义明确规则或提供详尽示例的挑战性领域特别有用。有人猜测，这就是为什么 Q* 接受逻辑训练并最终可以适应简单算术的原因。

然而，Q-learning 算法对实现通用人工智能（AGI）能起到多大的作用？

首先，AGI 是指人工智能系统理解、进修并将其智能应用于各种成绩的能力，类似于人类智能。Q-learning 虽然在特定领域很强大，但实现 AGI 必须要克服一些挑战，包括可扩展性、泛化、适应性、技能组合等等。

实际上，近年来涌现了很多测验考试将 Q-learning 与其他深度进修要领分离的研讨，例如将 Q-learning 与元进修分离，让 AI 学会动态调整其进修策略。

这些研讨的确让 AI 模型有了能力上的改进提升，但是 Q-learning 是否能帮助 OpenAI 实现 AGI 还未可知。

PerplexityAI 的 CEO Aravind Srinivas 觉得，Sutton 的文章《惨痛的教训》告诉我们，计算才是前进的方向。我们需要更多数据（不仅是参数）来有效地使用计算。如果我们最大限度地利用互联网上的数据，那就需要模型本身来生成下一个 token，即递归的自我完善：

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

那么这应该根本就不危险，正如以前计算机视觉研讨中，对于图像数据进行翻转和裁剪以训练分类器一样。

也有人猜测，Q* 是 AlphaStar 式搜寻 + LLM 的传说中的冲破，它是很多 AI Lab 正在努力的方向。但考虑到 GPT-4 自验证 + 搜寻此前一些测验考试有限的提升，我们距离 AGI 还是很远的。

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

如果正如各路媒体所报导的，Q * 的冲破意味着下一代大模型可以将支持 ChatGPT 的深度进修技术与人类编程的规则分离起来。这种要领可以帮助处理困扰当前大模型的幻觉成绩。

这大概会是个重要的技术发展里程碑。在实际层面上，应该距离 AI 终结世界还很远。

「我觉得人们之所以相信 Q* 将通向通用人工智能，是因为从我们迄今为止所听到的情况来看，它似乎会将大脑的两侧分离起来，并且可以从经验中了解一些事情，同时仍然可以推理事实，」Tromero 联合创始人 Sophia Kalanovska 表明。「这绝对是离我们所觉得的智能更近了一步，并且有更大概让模型可以产生新的想法，ChatGPT 则不然。」

无法推理和创造新想法，仅仅是从训练数据中总结信息 —— 这被视为现有大模型的局限性，甚至对于参与这些方向研讨的人来说，他们也在被框架所局限。

萨里学院人类中心 AI 研讨所负责人 Andrew Rogoyski 觉得，处理前所未见的成绩是构建 AGI 的关键一步：「就数学而言，我们知道现有的人工智能已被证明可以进行本科水平的数学运算，但无法处理更高级的数学成绩。」

「然而，如果人工智能可以处理新的、看不见的成绩，而不仅仅是反省或重塑现有知识，那么这将是一件大事，即使所涉及到的成绩相对简单，」他补充道。

并非所有人都对 Q * 大概带来的冲破如此兴奋。著名 AI 学者，纽约大学教授 Gary Marcus 在他的个人博客上发表了一篇文章，对 Q* 所报导的功能表明怀疑。

「OpenAI 的董事会大概确实会对新技术表明担忧…… 尽管有一些说法称 OpenAI 已经在测验考试测试 Q*，但他们在几个月内彻底改变世界是不现实的，」Marcus 表明。「如果我每一个这样的推断（Q * 大概威胁人类）都能得到五分钱，我就会成为马斯克级别的首富。」

图灵奖得主 Yann LeCun 在与 Geoffrey Hinton 计划 AI 风险成绩之余也点评了 Q*：

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

LeCun 觉得：「Q * 很大概只是 OpenAI 用规划取代自回归 token 预测的一种测验考试。现在关于 Q* 的推测只不过是废话。」

马斯克也参与了计划，顺便还宣传了下自家模型。他表明，你们计划的能力 Grok 都会有：

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

对于 Q*，OpenAI 仍然没有对外界的询问给予回应。

人们的计划还在继续，或许在 OpenAI 下一个大模型发布之后，我们才能真正得到答案。

参考内容：

https://www.businessinsider.com/openai-project-q-sam-altman-ia-model-explainer-2023-11

OpenAI leaked Q* so let’s dive into Q-Learning and how it relates to RLHF.
Q-learning is a foundational concept in the field of artificial intelligence, particularly in the area of reinforcement learning. It's a model-free reinforcement learning algorithm that aims to learn the… https://t.co/Ea5O4gpp7k pic.twitter.com/DgHvxnbqBW
— Brian Roemmele (@BrianRoemmele) November 23, 2023

https://garymarcus.substack.com/p/about-that-openai-breakthrough

{{userData.name}}已认证

全网大计划：引爆OpenAI全员乱斗的Q*到底是什么？

外媒：英伟达特供芯片H20推延至明年一季度宣布

材质界的ImageNet，大规模6维材质实拍数据库OpenSVBRDF发布｜SIGGRAPH Asia

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩