AI Lab
不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如 DeepSeek-R1 的情况下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能。
2/16/2025 12:14:22 PM
汪淼
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
模型
Stable Diffusion
马斯克
算法
生成式
蛋白质
芯片
Gemini
计算
神经网络
代码
腾讯
研究
AI设计
Sora
3D
GPU
英伟达
开发者
机器学习
场景
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
百度
AI视频
苹果
神器推荐
搜索
Anthropic
算力
LLaMA
视频生成
干货合集
Copilot
科技
2024
xAI
安全
应用
特斯拉
具身智能
AI应用场景
写作
机器
字节跳动
视觉
人形机器人
AGI
DeepMind
架构