强化学习

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷盗指南这时候，对齐（alignment）就至关重要了，其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面，基于人类反馈的强化学习（RLHF）是一

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

准确率82.5%，设计多药理学化合物，加州大学开发新AI平台设计未来抗癌药物

编辑 | 萝卜皮多药理学药物（可以同时抑制多种蛋白质的化合物）在治疗癌症等重大疾病方面有着重要应用，但非常难以设计。为了应对这一挑战，加州大学圣地亚哥分校的研究人员开发了 POLYGON，这是一种基于生成强化学习的多药理学方法，可以模拟药物发现最早阶段所涉及的耗时化学过程。POLYGON 嵌入化学空间并对其进行迭代采样，从而生成新的分子结构；这些药物的回报是预期能够抑制两个蛋白质靶标中的每一个，并且具有药物相似性和易于合成的特点。在超过 100,000 种化合物的结合数据中，POLYGON 能够正确识别多药理学相互

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

现在，机器人学会工厂精密操控任务了。近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。面对这一挑战，来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发

讲座预约丨四位专家大论道 ：大模型时代的强化学习丨GAIR live