揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」? RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的? 近日,来自 Sea AI Lab、新加坡国立大学、新加坡管理大学的研究人员研究了预训练特性影响 RL 性能的原理,发表了一篇名为《Understanding R1-Zero-Like Training: A Critical Perspective》的研究报告。

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities论文链接: 链接:,强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来,该方法通过试错让智能体学会在复杂环境中完成任务。 尽管自监督学习近年在语言和视觉领域取得了显著突破,但 RL 领域的进展相对滞后。

CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。 终于,近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队,提出一个名为 IDOL 的全新解决方案,高分拿下 2025 CVPR。 项目主页目前访问次数已超 2500  次,且是可商用的 MIT 开源协议,备受业界瞩目。

ICLR 2025 Spotlight|让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

第一作者卢昊飞、第二作者吴哲,分别为清华大学计算机系在读硕士与博士研究生。 通讯作者兴军亮教授长期致力于感知与博弈决策的理论与应用研究,在多智能体系统、强化学习及智能决策等领域取得了一系列重要成果。 最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文。

外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”

名为阿迪·辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。

AI PS 卷起来了:谷歌 Gemini 动嘴 P 图,马斯克 Grok 上线图像编辑

随着 AI 巨头内卷加剧,很多工作可能会经历「从复杂操作到简单交互」的范式转移,大模型内卷,受伤可能是传统软件。

AMD 推出开源项目“GAIA”实现本地大模型高效运行:针对锐龙 AI 300 系列处理器优化,目前仅适用于 Windows

在 NPU 上运行 GAIA 可提高 AI 特定任务的性能。从 Ryzen AI 软件版本 1.3 开始,混合支持部署同时使用 NPU 和核显的量化 LLM。

OpenAI 发布首份 ChatGPT AI 影响人类情绪健康研究

OpenAI与MIT Media Lab的研究揭示了AI聊天机器人对用户情感健康的复杂影响,强调了负责任开发和透明化的重要性。研究结果将为AI行业的未来发展提供重要指导,同时提醒用户合理使用AI工具,避免过度依赖。

加速行业智能化,华为发布AI创新解决方案

3 月 21 日,华为中国合作伙伴大会 2025 在深圳继续举行。 继大会首日系统阐述了战略、体系升级、政策变化后,华为进一步阐述了以「伙伴 华为」的合作伙伴体系为核心,与伙伴共同打造坚实的算力底座,全面加速行业智能化走深向实,共筑解决方案竞争力,共赢时代新机遇的战略。 加速行业智能化,共赢时代新机遇随着人工智能技术的迅猛发展与广泛落地应用,让企业利用 AI 创造价值、推进行业智能化的进程全面提速。

腾讯混元自研深度思考模型「T1」正式发布

近日,腾讯正式推出了其自研的深度思考模型——混元T1正式版。 混元T1正式版在大规模强化学习的基础上,针对数学、逻辑推理、科学和代码等理科难题进行了专项优化,从而实现了推理能力的显著提升。 在常见benchmark上,如大语言模型评估增强数据集MMLU-PRO中,混元T1取得了87.2分的优异成绩,仅次于顶尖模型o1。

大厂实战案例!百度数字人直播体验改版复盘

前言. 电商直播行业从 2016 年淘宝上线直播历经 8 年增长,供需两端发生变革,越来越多并不擅长直播的商家从幕后走向前台“店播带货”, 消费者购买决策因素逐渐增多的同时,也对直播质量要求越来越高,这促使直播服务商们纷纷开辟出组合数字人主播和数智化直播流程的新直播带货解决方案,百度「慧播星平台」就是其中之一。 百度「慧播星平台」是全栈式的数字人直播解决方案,依托百度自研视觉模型/StyleSync/音频训练/PicGen/文心一言等 AI 技术,实现商家快速开播,带来用户端 7*24 小时不间断、智能专业的超拟真看播体验。

腾讯混元自研深度思考模型 T1 发布:吐字快、能秒回,擅长超长文处理

腾讯混元今日发布自研深度思考模型T1,该模型不仅吐字快、能秒回,还擅长超长文处理,展现出强大的推理能力。在多项公开基准测试中,T1成绩领先业界,特别是在长文推理领域,有效解决了上下文丢失和长距离信息依赖问题。#腾讯混元# #AI模型#

国内首家:百度地图核心 API 全面兼容 MCP 协议,方便大模型快速接入

目前,百度地图已经完成了 8 个核心 API 接口和 MCP 协议的对接,涵盖逆地理编码、地点检索、路线规划等。

李飞飞团队推出新型图像处理技术,打破传统界限

在计算机视觉领域,如何高效地处理图像一直是研究的热点话题。 近日,斯坦福大学的李飞飞教授和吴佳俊教授的团队发布了一项新的研究成果,提出了一种名为 “FlowMo” 的创新型图像 tokenizer。 这种新方法在不依赖卷积神经网络(CNN)和生成对抗网络(GAN)的情况下,显著提升了图像重建的质量。

​英伟达计划在美国投资数千亿推动半导体供应链发展

全球市值最高的半导体公司英伟达近日宣布,将在未来四年内在美国的供应链上投资数千亿美元。 根据《金融时报》的报道,英伟达预计将在电子产品领域支出约 5000 亿美元,其中很大一部分将用于美国的运营。 这一重大投资计划被认为是对特朗普 “美国优先” 贸易政策的响应,同时也跟随了苹果等其他科技巨头的类似公告。

富途接入DeepSeek并推出多个升级后的AI产品功能

在 3月21日于香港湾仔会议展览中心举行的 “富途投资展” 上富途证券正式宣布接入 DeepSeek-R1,并推出了一系列升级的人工智能(AI)产品功能。 这次展会以 “智能” 投资为主题,吸引了众多零售投资者的关注。 富途证券创办人兼董事长李华在展会上表示,此次推出的牛牛 AI 将为投资者提供更灵活的服务。

Cloudflare 推出 AI Labyrinth 功能:以 AI 生成内容对抗 AI 爬虫

该功能在页面中添加指向 AI 生成内容页面的隐藏链接,仅有爬虫才会前往这些隐藏链接。

ICLR 2025北京论文分享会启动,一起探讨多模态、Agent等热门话题

大模型时代,业界和学术界都涌现出了许多创新成果。 回顾年初到现在,短短几个月的时间,国内外已经出现了许多重大研究,比如国内的 DeepSeek R1,国外的 GPT-4.5、Grok-3 等。 AI 的发展速度似乎已经快进到了以周甚至以天为单位。