强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型

在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。 最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈,o1 能像人类一样「思考」复

图片

在机器学习尤其是强化学习领域,自我博弈(Self-play)是一种非常重要的学习策略。即使 AI 或者智能体没有明确的对手或者没有外部环境提供额外信息,也能通过自己与自己的博弈来学习并获得提升,这常见于游戏场景。AlphaGo 就是采用自我博弈策略的典型代表,通过自己与自己对战,持续掌握和积累围棋知识和比赛经验,最终击败顶级人类棋手。

随着大语言模型的发展,自我博弈因其能够充分利用计算资源和合成数据成为提升模型性能的方法之一。 

最近发布的 OpenAI 发布的 o1 模型再次震撼了科技圈,o1 能像人类一样「思考」复杂问题,拥有真正的通用推理能力。不专门训练,o1 可以直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。

这些突破性的进展是如何达成的呢?在研发团队发布的庆功视频里,OpenAI 的研究人员透露,关键在于他们采用了强化学习技术进行模型训练。这也让大家重新开始关注自我博弈策略。

其实 2024 年以来,加州大学洛杉矶分校(UCLA)计算机系教授顾全全团队连续发表两篇基于自我博弈的大语言模型增强论文,分别是自我博弈微调(Self-Play Fine-Tuning, SPIN)自我博弈偏好优化(Self-Play Preference Optimization, SPPO)

其中 SPIN 通过让模型与自身的历史版本对抗来迭代改进,无需额外的人工标注数据即可通过自我博弈提升性能,从而充分利用高质量数据和合成数据。SPPO 则将对齐问题建模为了双人零和博弈,通过指数权重更新算法和合成数据来逼近纳什均衡。这两种方法均显著提高了模型在多个基准测试上的性能。

为了更好地帮助大家了解这两项研究,AI在线最新一期线上分享邀请到了顾全全教授以及 SPIN 第一作者陈子翔、SPPO 第一作者吴越,为大家详细解读如何通过自我博弈来为大语言模型提能增效。强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型

分享时间:9 月 19 日上午 10:30 - 12:00

分享主题:通过自我博弈增强大语言模型(Making Large Language Model Stronger via Self-Play)

分享摘要:本次分享介绍两种基于自我博弈的大语言模型增强方法:自我博弈微调(SPIN)和自我博弈偏好优化(SPPO)。这些方法通过让模型与自身历史版本对抗来迭代改进,无需额外人工或昂贵的强模型(如 GPT-4)标注数据。实验表明,这些方法能显著提高模型在多个基准测试上的表现,为增强大模型的能力提供了新的思路。

分享嘉宾 1:顾全全,加州大学洛杉矶分校(UCLA)计算机系教授,主要研究方向包括生成式 AI,如大语言模型、扩散模型,和强化学习、深度学习理论等,曾发表 200 余篇顶级会议和期刊论文,并获得多个重要奖项,包括Alfred P. Sloan Research Fellowship、 NSF CAREER Award” 等。

图片

分享嘉宾 2:陈子翔,现为 UCLA 计算机系博士生。SPIN 第一作者。

图片

分享嘉宾 3:吴越,博士毕业于 UCLA 计算机系,现为普林斯顿大学 AI Lab 博士后研究员。SPPO 第一作者。

图片

项目链接

SPIN 主页:https://uclaml.github.io/SPIN/

SPPO 主页:https://uclaml.github.io/SPPO/

论文链接

SPIN:https://arxiv.org/abs/2401.01335

SPPO:https://arxiv.org/abs/2405.00675

直播间:关注AI在线机动组视频号,立即预约直播!强化学习成为OpenAI o1灵魂,速来学习下Self-play增强大模型

本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

图片

AI在线 · 机动组

机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文,直达机动组官网,查看往期回顾。

相关资讯

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

准确率82.5%,设计多药理学化合物,加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物(可以同时抑制多种蛋白质的化合物)在治疗癌症等重大疾病方面有着重要应用,但非常难以设计。为了应对这一挑战,加州大学圣地亚哥分校的研究人员开发了 POLYGON,这是一种基于生成强化学习的多药理学方法,可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样,从而生成新的分子结构;这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个,并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中,POLYGON 能够正确识别多药理学相互