强化

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型（LLM）家族成员——QwQ-32B。这款拥有320亿参数的推理模型，旨在通过强化学习（RL）提升在复杂问题解决任务上的性能。据介绍，QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。

3/6/2025 9:17:00 AM

AI在线

Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用，比如大模型 BERT、GPT-3 等训练，其实最核心的技术就是基于自监督学习的技术。那么在 CV 和 NLP 领域都取得成功的自监督学习，是否可以被借鉴或是利用到强化学习领域呢？

7/25/2022 5:42:00 PM

SOTA模型

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力，可以解决对于经典强化学习（RL）技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中，我们将尝试在不涉及技术细节的情况下，揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的（例如，拨动开

9/10/2021 4:16:00 PM

ScienceAI

UC伯克利教授Pieter Abbeel开课了：六节课入门「深度强化学习」，讲义免费下载

课程视频时间有点长，但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习，一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力，强化学习具备决策能力但对感知问题束手无策，因此将两者结合起来可以达到优势互补的效果，为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们，请高度注意，一份优秀、细致、全面的新教材出现了。今天，UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频，并在推特上安利了一下。这份

8/26/2021 2:01:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

强化

​阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

揭开深度强化学习的神秘面纱

UC伯克利教授Pieter Abbeel开课了：六节课入门「深度强化学习」，讲义免费下载

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小