AI在线 AI在线

工程

执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路

在根据某个奖励微调生成式语言模型时,使用 KL 正则化的强化学习(KL-RL)来对齐生成式语言模型是一种常用框架。 而 KL-RL 通常需要训练一个奖励模型,然后使用一个强化学习求解器。 其它方法还包括直接偏好优化、奖励模型蒸馏、best-of-N  蒸馏的不同变体版本。
1/27/2025 8:27:00 PM
机器之心

让大模型互联网「冲浪」,通义实验室WebWalker解锁复杂信息检索新技能

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/27/2025 8:21:00 PM
机器之心

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/23/2025 11:45:00 AM
机器之心

化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/22/2025 1:20:00 PM
机器之心

OS-Genesis来了,自动收集和标注Agent数据,高效且多样

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/22/2025 1:13:00 PM
机器之心

无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/21/2025 5:04:00 PM
机器之心

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/19/2025 12:07:00 PM
机器之心