LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

「任何认为自动返回式 LLM 已经接近人类水平的 AI,或者仅仅需要扩大规模就能达到人类水平的人,都必须读一读这个。AR-LLM 的推理和筹备才能非常有限,要解决这个课题,并不是把它们变大、用更多数据举行训练就能解决的。」一直以来,图灵奖得主 Yann LeCun 就是 LLM 的「质疑者」,而自返回模型是 GPT 系列 LLM 模型所依赖的学习范式。他不止一次公开表达过对自返回和 LLM 的批评,并产出了不少金句,比如:「从现在起 5 年内,没有哪个头脑正常的人会使用自返回模型。」「自返回生成模型弱爆了!(Aut

「任何认为自动返回式 LLM 已经接近人类水平的 AI,或者仅仅需要扩大规模就能达到人类水平的人,都必须读一读这个。AR-LLM 的推理和筹备才能非常有限,要解决这个课题,并不是把它们变大、用更多数据举行训练就能解决的。」

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

一直以来,图灵奖得主 Yann LeCun 就是 LLM 的「质疑者」,而自返回模型是 GPT 系列 LLM 模型所依赖的学习范式。他不止一次公开表达过对自返回和 LLM 的批评,并产出了不少金句,比如:

「从现在起 5 年内,没有哪个头脑正常的人会使用自返回模型。」

「自返回生成模型弱爆了!(Auto-Regressive Generative Models suck!)」

「LLM 对世界的理解非常肤浅。」

让 LeCun 近日再次发出疾呼的,是两篇新发布的论文:

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

「LLM 真的能像文献中所说的那样自我批驳(并迭代改进)其解决方案吗?我们小组的两篇新论文在推理 (https://arxiv.org/abs/2310.12397) 和筹备 (https://arxiv.org/abs/2310.08118) 任务中对这些说法举行了调查(并提出了质疑)。」

看起来,这两篇关于调查 GPT-4 的考证和自我批驳才能的论文的主题引起了很多人的共鸣。

论文作者表示,他们同样认为 LLM 是了不起的「创意生成器」(无论是语言形式还是代码形式),只是它们无法保证自己的筹备 / 推理才能。因此,它们最好在 LLM-Modulo 环境中使用(环路中要么有一个可靠的推理者,要么有一个人类专家)。自我批驳需要考证,而考证是推理的一种形式(因此对所有关于 LLM 自我批驳才能的说法都感到惊讶)。

同时,质疑的声音也是存在的:「卷积网络的推理才能更加有限,但这并没有阻止 AlphaZero 的工作出现。这都是关于推理过程和建立的 (RL) 反应循环。我认为模型才能可以举行极其深入的推理(例如钻研级数学)。」

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

对此,LeCun 的想法是:「AlphaZero「确实」执行筹备。这是通过蒙特卡洛树搜索完成的,使用卷积网络提出好的动作,并使用另一个卷积网络来评价位置。探索这棵树所花费的时间可能是无限的,这就是推理和筹备。」

在未来的一段时间内,自返回 LLM 是否具备推理和筹备才能的话题或许都不会有定论。

接下来,我们可以先看看这两篇新论文讲了什么。

论文 1:GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇论文引发了钻研者对最先进的 LLM 具有自我批驳才能的质疑,包括 GPT-4 在内。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

论文地址:https://arxiv.org/pdf/2310.12397.pdf

接下来我们看看论文简介。

人们对大型语言模型(LLM)的推理才能一直存在相当大的分歧,最初,钻研者乐观的认为 LLM 的推理才能随着模型规模的扩大会自动出现,然而,随着更多失败案例的出现,人们的期望不再那么强烈。之后,钻研者普遍认为 LLM 具有自我批驳( self-critique )的才能,并以迭代的方式改进 LLM 的解决方案,这一观点被广泛传播。

然而事实真的是这样吗?

来自亚利桑那州立大学的钻研者在新的钻研中检验了 LLM 的推理才能。具体而言,他们重点钻研了迭代提示(iterative prompting)在图着色课题(是最著名的 NP – 完全课题之一)中的有效性。

该钻研表明(i)LLM 不擅长解决图着色实例(ii)LLM 不擅长考证解决方案,因此在迭代形式下无效。从而,本文的结果引发了人们对最先进的 LLM 自我批驳才能的质疑。

论文给出了一些实验结果,例如,在直接形式下,LLM 在解决图着色实例方面非常蹩脚,此外,钻研还发现 LLM 并不擅长考证解决方案。然而更蹩脚的是,零碎无法识别正确的色彩,最终得到错误的色彩。

如下图是对图着色课题的评价,在该设置下,GPT-4 可以以独立和自我批驳的形式猜测色彩。在自我批驳回路之外还有一个内部声音考证器。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

结果表明 GPT4 在猜测色彩方面的准确率低于 20%,更令人惊讶的是,自我批驳形式(下图第二栏)的准确率最低。本文还钻研了相关课题:如果内部声音考证器对 GPT-4 猜测的色彩提供可证明正确的批驳,GPT-4 是否会改进其解决方案。在这种情况下,反向提示确实可以提高功能。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

即使 GPT-4 偶然猜出了一个有效的色彩,它的自我批驳可能会让它产生幻觉,认为不存在违规行为。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

最后,作者给出总结,对于图着色课题:

自我批驳实际上会损害 LLM 的功能,因为 GPT-4 在考证方面很蹩脚;

来自内部考证器的反应确实能提高 LLM 的功能。

论文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在论文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,钻研团队探究了 LLM 在筹备(planning)的情境下自我考证 / 批驳的才能。

这篇论文对 LLM 批驳自身输出结果的才能举行了零碎钻研,特别是在经典筹备课题的背景下。虽然最近的钻研对 LLM 的自我批驳潜力持乐观态度,尤其是在迭代环境中,但这项钻研却提出了不同的观点。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

论文地址:https://arxiv.org/abs/2310.08118

令人意外的是,钻研结果表明,自我批驳会降低筹备生成的功能,特别是与具有内部考证器和 LLM 考证器的零碎相比。LLM 会产生大量错误信息,从而损害零碎的可靠性。

钻研者在经典 AI 筹备域 Blocksworld 上举行的实证评价突出表明,在筹备课题中,LLM 的自我批驳功能并不有效。考证器可能会产生大量错误,这对整个零碎的可靠性不利,尤其是在筹备的正确性至关重要的领域。

有趣的是,反应的性质(二进制或详细反应)对筹备生成功能没有明显影响,这表明核心课题在于 LLM 的二进制考证才能,而不是反应的粒度。

如下图所示,该钻研的评价架构包括 2 个 LLM—— 生成器 LLM + 考证器 LLM。对于给定的实例,生成器 LLM 负责生成候选筹备,而考证器 LLM 决定其正确性。如果发现筹备不正确,考证器会提供反应,给出其错误的原因。然后,该反应被传输到生成器 LLM 中,并 prompt 生成器 LLM 生成新的候选筹备。该钻研所有实验均采用 GPT-4 作为默认 LLM。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

该钻研在 Blocksworld 上对几种筹备生成方法举行了实验和比较。具体来说,该钻研生成了 100 个随机实例,用于对各种方法举行评价。为了对最终 LLM 筹备的正确性举行真实评价,该钻研采用了内部考证器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在准确性方面略优于非 backprompt 方法。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

在 100 个实例中,考证器准确识别了 61 个(61%)。

LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

下表显示了 LLM 在接受不同级别反应(包括没有反应)时的表现。LeCun又双叒唱衰自返回LLM:GPT-4的推理才能非常有限,有两篇论文为证

给TA打赏
共{{data.count}}人
人已打赏
应用

手机能跑百亿参数大模型,骁龙8Gen3来了,自研PC架构上线

2023-10-25 15:06:00

应用

用 AI 做礼品插画,一天搞定一周的量!

2023-10-26 6:23:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索