diffu

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。与此同时，离散扩散大语言模型（dLLM）成为有潜力的语言建模的非自回归替代。

4/20/2025 2:34:00 PM

机器之心

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流纳米AI发布MCP万能工具箱，简化AI工具集成与调用 AI视频资讯早读！7个产品更新+8个案例精选小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉