AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
徐俊东,本文第一作家。本科毕业于伦敦大学学院(UCL),硕士就读于新加坡国立大学(NUS)计算机系。主要研究方向为大语言模型的推理能力。
个人主页:https://aiden0526.github.io/JundongXu/
不利用内部对象也能让大语言模型(LLMs)实现严谨可信的推理,新国立提出 SymbCoT 推理框架:连系标记化逻辑(Symbolic Logical)抒发式与思维链,极大提升推理质量,鲁棒性与可信度。
LLMs 已表现出强大的语义理解能力。但现有的 LLMs 在实行精密的逻辑标记推理方面还存在很大的不足,依然需要依赖不同的思维提示方式与内部的标记推理对象进行逻辑推理。如何能让 LLMs 本身具备强大的标记逻辑推理能力,是目前让 LLMs 变得更强大的重要研究方向。
最近,新加坡国立大学联合加州大学圣芭芭拉分校与奥克兰大学的研究人员共同提出全新的标记逻辑推理框架 SymbCoT(Symbolic Chain-of-Thought),在推理质量,鲁棒性与可信度都要超越现有的方式。该工作已被 ACL 2024 录用。
论文:Faithful Logical Reasoning via Symbolic Chain-of-Thought
论文地址:https://arxiv.org/pdf/2405.18357.pdf
代码地址:https://github.com/Aiden0526/SymbCoT
当前有效的逻辑推理方式还存在一些缺陷。比如说 CoT 在精密的逻辑推理历程中经常会产生逻辑谬误。引入内部对象的方式,比如 Logic-LM,利用 LLM 来翻译前提,然后利用内部推理对象如 Prover9 来进行逻辑推导,但这种方式在翻译的历程中容易出现信息损失或翻译过错导致内部推理对象无法实行。
因此,作家提出 SymbCoT,一个既可以引入精密逻辑推理,又能避免翻译造成的信息损失 / 过错导致内部推理对象失效的框架。通过实考证明,SymbCoT 与直接提示,传统 CoT 和利用内部推理对象相比,SymbCoT 分别在三个庞杂逻辑推理数据集上提升 22.08%、9.31% 和 7.88%。并且在庞杂场景推理、可信度、鲁棒性等方面优于现有方式。
推特知名人工智能博主随后转发了这篇论文,认为这种方式有助于改进高级工作流程,构建更可靠和智能的 LLM AI 代理。该推文仅发布一天,已获得 6w + 浏览量和超过 1200 + 点赞与收藏。
A.SymbCoT 框架介绍
总体来说,SymbCoT 包含四个部分:
1. 翻译:将逻辑推理任务中的前提与结论翻译成对应的标记化抒发。
2. 规划:根据连系翻译前后的自然语言与标记化抒发,生成符合逻辑推理的计划。
3. 实行:严格按照对应的逻辑推理法规去考证结论的逻辑正确性。
4. 考证:考证翻译与实行是否存在过错。通过对比翻译前后的语义信息,去考证翻译历程中存在的过错并矫正,同时考证实行历程中是否存在不符合逻辑推理法规的步骤。
以下连系具体的利用示例进行介绍。
任务定义:
作家提出的 SymbCoT 来解决逻辑推理任务。该任务需要从一系列给定的前提中,判断给定的声明是否正确
翻译:
首先,SymbCoT 中的翻译模块会将给定的前提 P,声明 S,翻译成对应的标记化抒发 P' 和 S'
规划:
连系翻译前后的自然语言与标记化信息,规划模块会基于相关的逻辑法规去生成一个可实行的逻辑推理计划
实行:
根据翻译前后连系的信息,配合规划模块生成的实行计划,SymbCoT 会精密地遵守逻辑推理法规去实行计划,对声明的正确性得出一个初步结论
考证:
该模块主要有两个功能。第一:通过比对翻译前后的语义信息,考证翻译中是否存在过错;第二:检查实行历程中的每一步是否遵守了严谨的逻辑法规。若任何一个步骤中存在过错,考证模块会更正发现的过错并给出正确的推理步骤与结果
B. 实验结果
作家首先利用 First-order logic 的法规,在三个逻辑推理数据集上进行了测试。实考证明 SymbCoT 在 GPT3.5-turbo 与 GPT-4 上均能大幅超越传统 CoT 的性能,甚至超越了利用内部对象的框架(Logic-LM)。
为了考证该框架的普适性,作家随后利用 Constraint Optimization 标记抒发的推理法规在另外两个数据集上进行了测试。实考证明利用不同的逻辑法规也能带来更好的性能。
庞杂推理能力:
作家分析了不同方式在不同推理深度上的表现,发现随着推理深度的增加,SymbCoT 相对于 CoT 的改进变得更加明显,表明 SymbCoT 在处理更庞杂问题上的优势。
鲁棒性:
作家比较了完全基于 LLM 的推理器与依赖内部解析器的方式(如 Logic-LM)在实行标记抒发式语法时的成功率,发现 SymbCoT 在语法实行上的成功率显著提高,展示了对语法过错的显著鲁棒性。
可信的逻辑推理:
传统 CoT 在逻辑推理的时候有时候会基于过错的推理历程得到正确的答案,这种情况会误导利用者从而造成不好的后果。SymbCoT 基于精密逻辑推理与考证,有效消除了传统 CoT 中历程不可信的缺陷。
标记与自然语言混合抒发的优势:
作家分析了 LLM 从自然语言到标记语言的转换历程中可能遗漏的关键信息或引入的不准确性,发现 SymbCoT 通过连系标记和自然语言抒发来纠正翻译过错并增强逻辑推理的有效性。
不同 LLM 的影响:
作家还比较了 GPT-3.5 和 GPT-4 在三个 FOL 数据集上的表现,发现在升级模型后,SymbCoT 方式的性能提升最为显著,强调了 SymbCoT 方式与更先进模型之间的协同效应。
总体来说,SymbCoT 是一个更准确、更可信且更鲁棒的逻辑推理框架,适合用于要求庞杂且精确的逻辑推理任务。