强化
阿里新开源推理大模型QwQ-32B,性能媲美DeepSeek-R1、显存需求更小
阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。 这款拥有320亿参数的推理模型,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。 据介绍,QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。
3/6/2025 9:17:00 AM
AI在线
Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用
我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最核心的技术就是基于自监督学习的技术。
那么在 CV 和 NLP 领域都取得成功的自监督学习,是否可以被借鉴或是利用到强化学习领域呢?
7/25/2022 5:42:00 PM
SOTA模型
揭开深度强化学习的神秘面纱
编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI
UC伯克利教授Pieter Abbeel开课了:六节课入门「深度强化学习」,讲义免费下载
课程视频时间有点长,但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力,强化学习具备决策能力但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们,请高度注意,一份优秀、细致、全面的新教材出现了。今天,UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频,并在推特上安利了一下。这份
8/26/2021 2:01:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型