AIR2025
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程?
3/3/2025 8:26:00 PM
王悦
- 1
资讯热榜
Manus 内测启动:Monica 团队推出“通用 AI 代理”引发热议
阿里新开源推理大模型QwQ-32B,性能媲美DeepSeek-R1、显存需求更小
DeepSeek+Drawio一键生成20多种图表,90%都不知道的技巧(附保姆级教程)
三分钟部署自己的 DeepSeek R1 满血版,彻底告别服务器繁忙!
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
用上DeepSeek,改简历快人一步:AI简历优化保姆级教程
标签云
人工智能
OpenAI
AIGC
ChatGPT
AI绘画
AI
DeepSeek
机器人
数据
谷歌
大模型
智能
Midjourney
用户
学习
GPT
模型
开源
微软
AI创作
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
生成式
蛋白质
芯片
Gemini
代码
神经网络
计算
腾讯
研究
Sora
AI设计
3D
开发者
GPU
AI for Science
英伟达
机器学习
场景
伟达
预测
华为
Transformer
模态
百度
驾驶
Anthropic
深度学习
文本
AI视频
苹果
搜索
神器推荐
算力
LLaMA
科技
视频生成
应用
xAI
干货合集
Copilot
安全
2024
字节跳动
特斯拉
具身智能
亚马逊
语音
视觉
人形机器人
AI应用场景
写作
机器
AGI