工程

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

在根据某个奖励微调生成式语言模型时，使用 KL 正则化的强化学习（KL-RL）来对齐生成式语言模型是一种常用框架。而 KL-RL 通常需要训练一个奖励模型，然后使用一个强化学习求解器。其它方法还包括直接偏好优化、奖励模型蒸馏、best-of-N 蒸馏的不同变体版本。

1/27/2025 8:27:00 PM

机器之心

让大模型互联网「冲浪」，通义实验室WebWalker解锁复杂信息检索新技能

让大模型互联网「冲浪」，通义实验室WebWalker解锁复杂信息检索新技能

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/27/2025 8:21:00 PM

机器之心

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/23/2025 11:45:00 AM

机器之心

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/22/2025 1:20:00 PM

机器之心

OS-Genesis来了，自动收集和标注Agent数据，高效且多样

OS-Genesis来了，自动收集和标注Agent数据，高效且多样

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/22/2025 1:13:00 PM

机器之心

无直接数据可用，AI怎么学会「干活」？微软团队揭秘AI从语言到行动的进化之路

无直接数据可用，AI怎么学会「干活」？微软团队揭秘AI从语言到行动的进化之路

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/21/2025 5:04:00 PM

机器之心

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/19/2025 12:07:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型