AI在线 AI在线

模型

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

强化学习迎来重大突破! 近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。 在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!
2/11/2025 4:17:42 PM
新智元

民警利用 AI 大模型找回 70 名失踪被拐儿童,其中 18 名童年时期无照片

据媒体“新法制报”报道,今年春节前夕,南昌铁路公安处庐山站派出所民警汪挺利用 AI 大模型,将被拐 36 年且无童年照片的刘水泉“带回”了家。
2/11/2025 4:12:08 PM
漾仔

Claude 4要来了?Anthropic发布38页经济指数报告,43%人类工作正被AI取代!

Claude 3.5 Opus无了,Anthropic本周可能会提前放出Claude 4。 网友爆料称,除了Claude 4,还有推理模型也将首亮相,评分全面超越o3。 Anthropic已经沉寂太久了,去年曾被传出内部模型研发受阻。
2/11/2025 1:00:00 PM
新智元

全球开源大模型榜单揭晓,阿里通义千问独占鳌头

近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线

突发!马斯克 vs 奥特曼,974亿美金收购OpenAI战打响,老马直言奥特曼是“诈骗犯”

💣 重磅炸弹! 马斯克974亿美元天价求购OpenAI! 奥特曼直接“泼冷水”:没兴趣,不如我买你X?
2/11/2025 11:19:52 AM
AI寒武纪

谷歌CEO:现在就是AI创新,黄金年代

今天凌晨3点,谷歌和Alphabet首席执行官Sundar Pichai,在正在法国巴黎举办的全球AI峰会上发表了重要演讲——现在就是AI创新的黄金年代。 Pichai认为,AI技术正在经历快速的进步,成本大幅下降尤为显著。 在过去18个月中,处理token的成本从每百万个4美元降至13美分,降幅高达97%。
2/11/2025 10:10:59 AM
AIGC开放社区

一文读懂!DeepSeek超简易本地部署教程

概述DeepSeek-R1模型在各项指标直逼甚至超越OpenAI及同类产品,迅速成为业界焦点。 更令人惊喜的是该模型基于MIT协议免费开源,允许任何公司或个人自由商用,无需任何授权限制,一时间在AI界掀起了巨大波澜。 最近DeepSeek服务被外海攻击,有时候无法访问,既然DeepSeek-R1是开源的,那么我们其实可以部署自己的DeepSeek-R1模型,如果再结合Webman AI,效果将更加完美。
2/11/2025 9:29:07 AM
walkor

Grok-3意外「走光」,不是推理模型!马斯克:xAI新模型比DeepSeek更好

当OpenAI和谷歌密集发布新AI模型时,马斯克的xAI怎么还没动静? 就在最近,马斯克公开表示称,xAI的新模型很快就要发布了,而且是比DeepSeek更好的那种! 根据公开消息,网友汇总了马斯克、Greg Yang等关于xAI下一代新模型Grok-3的消息。
2/11/2025 9:20:00 AM
新智元

清华姚班校友等揭Transformer致命缺陷,OpenAI科学家紧急回应:学术界节奏太慢

谁能想到,一篇于2023年发表的LLM论文,竟然在一年半之后又「火」了。 聊天机器人开始面临根本性的限制论文中,来自Ai2、华盛顿大学等机构研究人员称,Transformer在组合能力上存在限制。 以基本的乘法为例,让「GPT-4」计算两个三位数的乘积,最初的正确率仅有59%。
2/11/2025 9:15:00 AM
新智元

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。 为了突破这⼀瓶颈,上海人工智能实验室、香港中文大学等联合提出了推理时偏好优化(TPO)方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出,实现了即时的模型对⻬,⽽⽆需重新训练。
2/10/2025 2:05:00 PM
量子位

如何优化测试时计算?解决「元强化学习」问题

优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。 前段时间,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条曲线之一。 如何优化测试时计算成为业界关注的重要课题。
2/10/2025 1:50:00 PM
机器之心

Nature:离 “量子互联网” 又近一步!牛津大学证实分布式量子计算可行性

量子通信技术又迎来了新进展! 牛津大学研究人员在Nature上发表的最新研究,在两米的距离上实现了确定性的量子门传送,保真度达86%。 研究人员表示,这项研究给各种物理平台的大规模量子计算提供了可行的途径,并为量子互联网打下了基础。
2/10/2025 1:40:00 PM
量子位

LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

OpenAI o1发布后,为提升LLM的推理能力,研究者尝试了多种方法。 比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索(MCTS),以及基于奖励模型的引导搜索。 近日,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者探索了全新的方向:让LLM拥有自回归搜索能力。
2/10/2025 1:00:00 PM
新智元

诺奖得主DeepMind CEO放话:DeepSeek是中国最好AI模型,但没任何科学进步

就在今天,谷歌DeepMind的首席执行官Demis Hassabis对DeepSeek进行了一番「捧杀」——「它可能是中国最好的工作,但没有展示任何新的科学进展。 」Hassabis首先称DeepSeek的模型是「一项令人印象深刻的工作」,然后便一改口风说道:「从技术角度来看,这并不是一个重大变革」,同时还特别强调「炒作有点夸大了」。 「尽管炒作很多,但实际上并没有新的科学突破,它使用的都是已知的AI技术。
2/10/2025 12:30:00 PM
新智元

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?

0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木

刚刚,Sam Altman深夜发文,AI Agent将重塑世界经济

今天凌晨5点,OpenAI联合创始人兼首席执行官Sam. Altman在其个人博客,发布了一篇深度文章《Three Observations》。 主要对AI世界提出了3点观察,AI模型的智能水平大致等于用于训练和运行它的资源的对数;使用特定水平AI的成本大约每12个月下降10倍,而更低的价格会带来更多的使用;线性增长的智能所创造的社会经济价值是超指数增长。
2/10/2025 9:35:06 AM
AIGC开放社区

SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒

DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。 它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。 但长CoT的触发条件是什么?
2/10/2025 9:35:00 AM
量子位