CMU 团队推出元强化微调:提升大语言模型推理能力的新范式

在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。 这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。 研究表明,现有的大语言模型在推理过程中常常消耗过多的计算资源,而 MRT 的目标是让模型在给定的计算预算内,实现更高效的答案发现。

在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。

研究表明,现有的大语言模型在推理过程中常常消耗过多的计算资源,而 MRT 的目标是让模型在给定的计算预算内,实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段,以便在探索与利用之间取得平衡。通过对训练数据的细致学习,MRT 能够使模型在面对未知难题时,既能利用已知信息,又能够探索新的解题策略。

image.png

在研究中,CMU 团队的实验显示,使用 MRT 微调后,模型在多个推理基准测试上取得了显著提升。在与传统结果奖励强化学习(GRPO)的对比中,MRT 的准确率是其2到3倍,且在 token 使用效率上提升了1.5倍。这意味着,MRT 不仅能提高模型的推理能力,还能降低计算资源的消耗,从而在实际应用中更具优势。

此外,研究者们还提出了如何有效评估现有推理模型的有效性,为未来的研究奠定了基础。这一成果不仅展示了 MRT 的潜力,也为大语言模型在更多复杂应用场景中的应用指明了方向。

通过这样的创新,CMU 与 HuggingFace 的研究团队无疑在推动 AI 技术的前沿,赋予机器更强大的推理能力,为实现更智能的应用打下了坚实的基础。

项目地址:https://cohenqu.github.io/mrt.github.io/

相关资讯

CMU 周衔:聊聊物理引擎 Genesis 的源启与未来 | 具身先锋十人谈

作者 | 赖文昕编辑 | 陈彩娴不久前,我们发布《CMU 具身智能风云榜:从传统到全面》一文,介绍了来自 CMU 的一众具身智能华人人才。 就在上个月,CMU 联合18个研究机构开源发布了一个生成式物理引擎——Genesis,引起了具身智能领域的广泛讨论与关注,在国内与海外呈现出霸榜的热度。 Genesis 的核心团队为 12 位青年华人学者,其项目领导者为 CMU 机器人研究所刚毕业的博士生周衔。

CMU 具身智能风云榜:从传统到全面

作者 | 赖文昕编辑 | 陈彩娴与位于宇宙中心硅谷湾区的伯克利、斯坦福不同,被视为锈带区复兴唯一希望的卡内基梅隆大学(以下简称“CMU”)坐落在上世纪的工业重镇匹兹堡。 计算机科学学院的机器人研究所(以下简称“RI”)成立于1979年,是世界上第一个致力于机器人研究的大学级研究所。 这座机器人摇篮在 45 年间诞生了无数耀眼成就,但在如今技术更迭到由 AI 方向领衔、以仿真与强化学习算法方为“技术先进”之际,以传统机器人学见长的 CMU 能否跟上具身智能的热潮?

​微软研究揭示:过度使用AI可能削弱人类的批判性思维能力

一项来自微软与卡内基梅隆大学的最新研究表明,过度依赖人工智能(AI)工具可能正在侵蚀人们的批判性思维能力。 研究团队对319名知识工作者进行了调查,收集了936个在 IT、设计、行政和金融等多个行业使用生成式 AI 的真实案例。 研究分析了六个批判性思维的维度:知识、理解、应用、分析、综合和评估。