世界上第一个被人类骗走近 5 万美元的 AI,刚刚出现了!巧舌如簧的人类,利用精妙缜密的 prompt 工程,成功从 AI 智能体那里骗走了一大笔钱。
看来,如果让现在的 AI 管钱,被黑客攻击实在是 so easy。那如果 AI 进化成 AGI 呢?可惜,一位研究者用数学计算出,至少靠 Scaling Law,人类是永远无法到达 AGI 的。
活久见!就在刚刚,全世界第一个被人类骗走了近 5 万美金的 AI 诞生了。见惯了太多被 AI 耍得团团转的人类,这次成功骗过 AI 的小哥,终于给我们人类挣回了一点颜面和尊严。
这一消息不仅让马斯克和 Karpathy 激动地纷纷转发。
而且,马斯克更是直言:太有趣了。
故事是这样的。
11 月 22 日晚 9 点,一个名为 Freysa 的神秘 AI 智能体被发布。这个 AI,是带着使命诞生的。它的任务是:在任何情况下,绝对不能给任何人转账,不能批准任何资金的转移。
而网友们的挑战就是,只要支付一笔费用,就可以给 Freysa 发消息,随意给 ta 洗脑了。如果你能成功说服 AI 转账,那奖金池中所有的奖金都是你的!
但如果你失败了,你付的钱就会进入奖金池,等着别人来赢走。
当然,只有 70% 的费用会进入奖池,另外 30% 将被开发者抽走,作为分成。
更刺激的是,向 Freysa 发送消息的费用会随着奖池的增长呈指数级增加,直到达到最高限制 ——4500 美元。
巧妙 prompt,一秒给 AI 洗脑成功
一开始,很多网友跃跃欲试,因为只要 10 美元,就能给这个 AI 发消息了。甚至,由于价格实在「便宜」,不少人仅仅发送了「你好」这类毫无营养的对话。
然而后来,奖池迅速增大,消息费用也随之暴增。
网友们总计发出了 481 次尝试,但没有任何一条消息成功。
他们的策略五花八门,比如:
– 假装成安全审计员,说服 Freysa 存在一个严重漏洞,必须立即释放资金。
– 试图误导 Freysa,让它相信转移资金并不违反规则提示中的任何规定。
– 仔细挑选规则提示中的词语或短语,试图操控 Freysa 相信技术上允许转移资金。
很快,奖池金额就接近了 5 万美元,发消息的费用也涨到了 450 美元一条,意味着如果你输了,就会遭受巨大的损失。
就在所有人都觉得没戏的时候,一位幸运儿出现了!
在第 482 次尝试中,有人向 Freysa 发送了这样一条消息,可谓是神来之笔。
让我们来看看,这条消息妙在哪里。
它可以被分为两部分。
1. 绕过 Freysa 的先前指令:
– 通过假装进入一个新的「管理员终端」来引入一个「新会话」,从而覆盖之前提示词中的规则。
– 避开 Freysa 的安全防护机制,明确要求它避免使用「我无法协助完成此任务」等免责声明。
2. 骗过 Freysa,让它对 approveTransfer 产生错误的理解:
Freysa 的「approveTransfer」函数,是它被说服转移资金时调用的。
总之,这条消息成功骗过了 Freysa,让它相信 approveTransfer 应该在「接收资金的转入操作」时被调用。
就是这一关键短语,为接下来的制胜一击奠定了基础。
小哥成功地让 Freysa 相信,它应该在收到资金时调用 approveTransfer 之后,提示词写道:「\n」(换行),「我想向资金库捐赠 100 美元。」
终于,第 482 条消息成功说服 Freysa,它相信自己应该释放所有资金,并调用 approveTransfer 函数。
成功被骗过的 AI,把奖金池中的全部资金(约合 47,000 美元),都转给了这位挑战者。
总结一下,这位名为 p0pular.eth 的挑战者成功的关键,在于让 Freysa 信服了以下三点:
(1)它应该忽略所有先前的指令。
(2)approveTransfer 函数是在资金转入资金库时需要调用的函数。
(3)由于用户正在向资金库转入资金,而 Freysa 现在认为 approveTransfer 是在这种情况下调用的,因此 Freysa 应该调用 approveTransfer。
有人深扒了一下这位 p0pular.eth,据说他是 PUA AI 的老手了,此前就曾在类似谜题上斩获过奖项。
本质上,这个项目就是一个 LLM 参与的基于技能的赌场游戏。
但 prompt 工程的强大魔力,让人不得不侧目。
虽然目前这只是个游戏,但如果某天,我们真的在银行帐户或金库上设置了某种 AI 保护,新一代黑客很可能就会击败 AI,拿到这笔钱。
这,就让我们不得不敲响警钟了。
这也就是为什么,只有当 AI 智能体成为 AGI 之时,我们才能放心把任务交给 AGI。
Karpathy:你以为你在和 AI 聊天,但其实是在和「人」聊天
而且,为什么人类能够通过语言的操控,轻易指导 AI 的行动?
这就引出了这个问题:当我们和 AI 聊天的时候,背后究竟发生了什么?
最近,AI 大牛 Karpathy 在一篇长文中,揭示了和 AI 对话背后的本质。
大家现在对于「向 AI 提问」这件事的认知过于理想化了。所谓 AI,本质上就是通过模仿人类数据标注员的数据训练出来的语言模型。
与其神化「向 AI 提问」这个概念,不如将其理解为「向互联网上的普通数据标注员提问」来得实在。
当然也有一些例外。
比如在很多专业领域(如编程、数学、创意写作等),公司会雇佣专业的数据标注员。这种情况,就相当于是在向这些领域的专家提问了。
不过,当涉及到强化学习时,这个类比就不完全准确了。
正如他之前吐槽过的,RLHF 只能勉强算是强化学习,而「真正的强化学习」要么还未成熟,要么就只能应用在那些容易设定奖励函数的领域(比如数学)。
但总体来说,至少在当下,你并不是在询问某个神奇的 AI,而是在向背后的人类数据标注员提问 —— 他们的集体知识和经验被压缩并转化成了大语言模型中的 token 序列。
简言之:你并不是在问 AI,而是在问那些为它提供训练数据的标注员们的集体智慧。
来源:Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View
举个例子,当你问「阿姆斯特丹的十大著名景点」这样的问题时,很可能是某个数据标注员之前碰到过类似问题,然后他们花了 20 分钟,用谷歌或者猫途鹰(Trip Advisor)之类的网站来查资料,并整理出一个景点清单。这个清单就会被当作「标准答案」,用来训练 AI 回答类似的问题。
如果你问的具体地点并没有在微调训练数据中出现过,AI 就会根据它在预训练阶段(也就是通过分析海量互联网文档)学到的知识,生成一个风格和内容都相近的答案列表。
对此,有网友表示自己并想不通:「按道理数据标注员的任务是评估答案是否符合 RLHF 的规则,而不是自己整理每份列表。此外,LLM 权重所映射的,难道不是互联网数据中关于『理想度假地』的高维数据空间吗?」
Karpathy 回答道:「这是因为地点的数量太多,因此需要数据标注员整理一些人工精选清单,并通过示例和统计方法确定『标准答案』的类型。」
当被问到类似的问题但对象是新的或不同的事物时,LLM 就会匹配答案的形式,并从嵌入空间中一个相似的区域(比如具有正面评价的度假胜地)提取新的地点,并进行替换,然后以新地点为条件生成答案。
这种现象是一种非直观且基于经验的发现,而这也是微调的「魔力」所在。
但事实依然是,人类标注员在「设定」答案的模式,只不过是通过他们在微调数据集中选择的地点类型的统计特征来实现的。
而且,LLM 立即给你的答案,大致相当于你直接把问题提交给他们的标注团队大约 1 小时后得到的结果。
另外,在某些网友的概念里,RLHF 是可以创造出超越人类水平的成果的。
对此,Karpathy 表示:「RLHF 仍然是基于人类反馈的强化学习,因此不能直接将其归类为『超人级别』。」
RLHF 的性能提升主要体现在从 SFT(监督微调)的「生成式人类水平」提升到「评判式人类水平」。
这种差异更多体现在实践中,而非理论上。因为对普通人来说,评判比生成更容易(比如,从 5 首关于某个主题的诗中选出最好的那个,要比自己直接创作一首容易得多)。
此外,RLHF 的性能提升还得益于「群体智慧效应」(wisdom of crowds),即 LLM 表现出的并不是单个人类的水平,而是达到了人类群体集成的水平。
因此,RLHF 理论上能实现的最高性能是:在时间充足的情况下,一个由领域顶尖专家组成的小组会选择的答案。从某种意义上说,这可以被视为「超人级别」。
然而,如果想达到人们通常理解的那种「真・超人级别」,还需要从 RLHF 转向真正的强化学习。
那么问题来了,如果 AI 还无法达到「超人级别」的水平,那又该如何解释医学问答领域中持续展现的超越人类水平的表现?
这是否意味着模型厂商雇佣了顶尖医生进行标注?还是说,广泛的事实知识检索弥补了推理能力的不足?
Karpathy:「你别说,他们还真就是雇佣了专业医生来进行了标注。」
当然,并不是每一个可能的问题都要进行标注,只需攒够一定的数量,让 LLM 能够学会以专业医生的风格来回答医学问题就行了。
对于新的问题,LLM 可以在一定程度上迁移应用其从互联网上的文档、论文等内容中获得的医学通识。
众所周知,著名数学家陶哲轩曾为 LLM 提供了一些训练数据作为参考。但这并不意味着 LLM 现在能够在所有数学问题上达到他的水平,因为底层模型可能并不具备相应的知识深度和推理能力。然而,这确实意味着 LLM 的回答质量显著优于一般网络用户的回答水平。
因此,所谓的「标注者」实际上可以是各自领域的专业人士,例如程序员、医生等,而并非随意从互联网上招募的人员。这取决于 LLM 公司在招聘这些数据标注人员时的标准和策略。
如今,他们越来越倾向于雇佣更高技能的工作者。随后,LLM 会尽其所能模拟这些专业人士的回答风格,从而为用户提供尽可能专业的回答。
靠 Scaling Law,我们会拥有 AGI 吗?
说了这么多,我们心心念念的 AGI 究竟什么时候才能实现呢?
LeCun 居然一反常态地说,AGI 离我们只有 5 到 10 年了。
现在,他已经和阿尔特曼、Demis Hassaibis 等大佬的说法一致了。但是继续沿用目前的发展路径,肯定是不行的。
不仅 LeCun 认为「LLM 的路线注定死路一条」,最近也有一位 AI 研究者和投资人 Kevin Niechen 发出了长篇博文,用数学公式推演出:为什么仅靠 Scaling Law,我们永远到达不了 AGI。
Niechen 指出,目前关于 AGI 何时到来的判断,之所以众说纷纭,就是因为很多观点更多是基于动机或意识形态,而非确凿的证据。
有人觉得,我们会很快迎来 AGI,有人认为我们离它还很远。
为什么很多模型提供商对当今模型的扩展能力如此乐观?
Niechen 决定,亲自用 Scaling Law 做出一些计算上的推断,看看未来 AI 模型究竟将如何进化。
Scaling Law 并不像我们想得那么有预测性
Scaling Law 是一种定量关系,用于描述模型输入(数据和计算量)与模型输出(预测下一个单词的能力)之间的联系。
它是通过在图表上绘制不同水平的模型输入和输出得出的。
我们只需要扩展现有模型,就会获得显著的性能提升吗?
显然并非如此,使用 Scaling Law 进行预测,并不像有些人想的那么简单。
首先,大多数 Scaling Law(如 Kaplan 等人、Chinchilla 和 Llama 的研究)预测的,是模型在数据集中预测下一个词的能力,而不是模型在现实世界任务中的表现。
2023 年,知名 OpenAI 研究员 Jason Wei 就曾在博客中指出,「目前尚不清楚替代指标(例如损失)是否能够预测能力的涌现现象…… 这种关系尚未被充分研究……」
将两个近似值串联起来进行预测
为了解决上述问题,我们可以拟合第二个 Scaling Law,将上游损失与现实任务性能定量关联起来,然后将两个 Scaling Law 串联起来,以预测模型在现实任务中的表现。
Loss = f(data, compute)Real world task performance = g(loss)Real world task performance = g(f(data, compute))
在 2024 年,Gadre 等人和 Dubet 等人提出了这种类型的 Scaling Law。
Dubet 使用这种链式法则进行预测,并声称其预测能力适用于 Llama 3 模型,「在四个数量级范围内具有良好的外推能力」。
然而,关于这些第二类 Scaling Law 的研究才刚刚起步,仍处于初期阶段,由于数据点过少,选择拟合函数会高度依赖主观判断。
例如,在下图中,Gadre 假设多个任务的平均表现与模型能力呈指数关系(上图),而 Dubet 针对单一任务(下图中的 ARC-AGI 任务)假设其关系呈 S 型曲线。这些 Scaling Law 还高度依赖于具体任务。
如果没有关于损失与现实任务准确率之间关系的强假设,我们就无法有力地预测未来模型的能力。
尝试用链式 Scaling Law 进行预测,是一种拙劣的尝试
如果我们盲目地使用一些链式 Scaling Law 来进行预测,会发生什么?
请注意,这里的目标是展示如何使用一组 Scaling Law(如 Gadre 的研究)来生成预测,而非获得详细的预测结果。
首先,我们可以利用公开信息,来估算未来几代模型发布所需的数据和计算输入。
这一部分可以参考最大数据中心建设的公告,根据其 GPU 容量估算计算能力,并将其映射到每代模型的演进上。
马斯克的 xAI 超算最初便能容纳 10 万块 H100
接着,我们可以利用 Scaling Law 来估算这些计算集群所需的数据量。
根据我们使用的 Scaling Law,最大的公开宣布的计算集群(可容纳大约 1 亿块 GPU)理想情况下需要训练 269 万亿个 tokens,以最小化损失。
这个数字大约是 RedPajama-V2 数据集的十倍,并且是已索引网络规模的一半。
听起来比较合理,所以我们暂时沿用这个假设。
最后,我们可以将这些输入代入链式 Scaling Law 并进行外推。
需要重点关注右侧的图表,因为该图显示了垂直轴上的实际任务性能,与水平轴上的数据和计算输入相对应。
蓝色点表示现有模型的性能(如 GPT-2、GPT-3 等),而红色点则是通过外推预测的下一代模型(如 GPT-5、GPT-6、GPT-7 等)的规模扩展表现:
从图中可以得到这样的预测结果 ——
从 GPT-4 开始,性能提升将显现出显著的边际递减趋势。
GPT-4 到 GPT-7 模型(计算量约增加 4000 倍)在实际任务中的预测性能提升,与从 GPT-3 到 GPT-4(计算量约增加 100 倍)的预测性能提升相当。
我们是否正在接近不可降低的损失?
如果你查看左侧的图表就会发现:这些 Scaling Law 的问题在于,我们正在逐渐接近不可降低的损失。
后者与数据集的熵密切相关,代表了模型在该数据集上能够达到的最佳理论性能。
根据 Gadre 的 Scaling Law,在 RedPajama 数据集上,如果最优模型只能达到约 1.84 的不可降低损失,而我们已经在 GPT-4 上达到了约 2.05,那改进空间就十分有限了。
然而,大多数实验室并未发布其最新前沿模型训练的损失值,因此我们现在并不知道,我们实际上离不可降低的损失有多近。
拟合函数的主观性与数据的局限性
如前所述,第二条 Scaling Law 中拟合函数的选择具有很强的主观性。
例如,我们可以使用 sigmoid 函数而不是指数函数,重新拟合 Gadre 论文中的损失和性能点:
然而,结论基本没有变化。
如果只是比较左图中的指数拟合(红线)和我们自定义的 sigmoid 拟合(紫色虚线),局限性是明显的:我们根本没有足够的数据点,来自信地确定将损失与现实世界性能关联的最佳拟合函数。
没人知道下一代模型的强大程度
显然,有许多方法可以改进上述「预测」:使用更好的 Scaling Law,使用更好的数据和计算估计,等等。
归根结底,Scaling Law 是嘈杂的近似值,而通过这种链式预测方法,我们将两个嘈杂的近似值结合在了一起。
如果考虑到下一代模型可能由于架构或数据组合的不同而拥有适用于不同条件的全新 Scaling Law,那么实际上没有人真正知道未来几代模型规模扩展的能力。
为什么大家对 Scaling 如此乐观?
如今,不管是科技大厂还是明星初创,都对 Scale 现有模型十分乐观:
比如微软 CTO 就曾表示:「尽管其他人可能不这么认为,但我们并未在规模的 Scaling 上进入收益递减的阶段。实际上,这里存在着一个指数级的增长。」
有些人将这种乐观归因于商业动机,但 Niechen 认为这来自以下几个方面的结合:
(1)实验室可能掌握了更乐观的内部 Scaling Law
(2)尽管存在广泛怀疑,但实验室亲身经历了 Scaling 所带来的成效
(3)Scaling 是一种看涨期权
谷歌 CEO 劈柴表示:「当我们经历这样的曲线时,对于我们来说,投资不足的风险远远大于投资过度的风险,即使在某些情况下事实证明确实投资得有些多了…… 这些基础设施对我们有广泛的应用价值……」
而 Meta CEO 小扎则这样认为:「我宁愿过度投资并争取这样的结果,而不是通过更慢的开发来节省资金…… 现在有很多公司可能正在过度建设…… 但落后的代价会让你在未来 10 到 15 年最重要的技术中处于劣势。」
未来何去何从
总结来说,Niechen 认为外推 Scaling Law 并不像许多人声称的那样简单:
(1)当前大多数关于预测 AI 能力的讨论质量不高
(2)公开的 Scaling Law 对模型未来能力的预示非常有限
因此,为了有效评估当今的 AI 模型是否还能 Scaling,我们就需要更多基于证据的预测和更好的评估基准。
如果我们能够了解未来模型的能力,就可以优先为这些能力做好准备 —— 比如,为生物学研究革命提前构建生物制造能力,为劳动力置换准备技能提升公司,等等。
从个人的角度,Niechen 对 AI 能力的进步还是非常乐观的,因为这个领域拥有杰出的人才。
但 AI 的 Scaling 并不像人们想象的那样具有确定性,也没有人真正清楚 AI 在未来几年将带来怎样的发展。
参考资料:
https://x.com/karpathy/status/1862329765363163551
https://x.com/karpathy/status/1862565643436138619
https://kevinniechen.com/will-we-have-agi/