刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场! 这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。 简言之,一个模型,两种思考方式。

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场!

这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

简言之,一个模型,两种思考方式。

假设你想破解一个博弈论数学问题——蒙提霍尔问题,扔给Claude 3.7 Sonnet,然后同时选择「Extended」模式。

它便会展示详细CoT过程,用时52秒就完成了。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

最关键的是,Claude 3.7 Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。

在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet,数学、编码能力更是暴涨10%以上。

除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

API用户可以精确控制模型的思考时间

可以说,Claude 3.7 Sonnet完全是一个最强「软件工程AI」。在SWE-bench上,创下了70.3%的高分。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

与此同时,首款「智能体编程」工具Claude Code(预览版)也在今天问世了。

如今,它已经成为Anthropic内部,不可或缺的工具。在早期测试中,Claude一次性就完成人类需要45分钟的任务。

也就是说,你做产品经理,AI给你打工写代码。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

虽没有Claude 4,Anthropic这波突如其来的打法,实属给AI界又一震撼。

这半个月,注定是2025开年以来AI含金量最高的。

Grok 3上周刚发布,这周DeepSeek连续开源5天,OpenAI GPT-4.5据称也要上线,再加上Claude 3.7 Sonnet,大模型领域的混战又开始了。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

全球首款「混合推理」模型诞生

在官方博文中,Anthropic称,Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面,Claude 3.7 Sonnet得到显著提升。

除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。

目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

推理,是一个LLM整体能力

Claude 3.7 Sonnet的设计理念与市场上其他推理模型不同。

Anthropic相信,就像人类使用一个大脑来处理快速反应和深度思考一样,推理应该是前沿模型的整体能力,而不是一个完全独立的模型。这种统一的方法为用户提供了更流畅的体验。

Claude 3.7 Sonnet在几个方面体现了这一理念。

首先,Claude 3.7 Sonnet既是普通的语言模型(LLM),也是一个推理模型:可以选择在什么时候希望模型正常回答,什么时候希望它在回答之前思考更长的时间。

在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版本。

在扩展思考模式下,它在回答之前进行自我反思,这提高了在数学、物理、指令遵循、编码和其他许多任务上的性能。

通常,两种模式对模型的提示效果相似。

其次,通过API使用Claude 3.7 Sonnet时,用户还可以控制思考的预算——

你可以告诉Claude在回答时最多思考N个tokens,N的最大值为128K tokens的输出限制。这使得用户可以在速度(和成本)与回答质量之间进行权衡。

第三,在开发推理模型时,Anthropic在数学和计算机科学竞赛问题上的优化程度稍微降低,而是将重点转向了更能反映企业实际使用LLM的现实世界任务。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude 3.7 Sonnet在SWE-bench Verified上刷线SOTA,该评测旨在评估AI模型解决现实世界软件问题的能力

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude 3.7 Sonnet在TAU-bench上刷新SOT,TAU-bench是一个测试AI智能体在复杂现实世界任务中与用户和工具交互能力的框架

如前所述,Claude 3.7 Sonnet几乎在各大基准测试中,性能得到了显著提升。

相较于最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面几乎打成平手。而在数学、视觉推理方面,又略逊色于Grok 3 Beta。

与o3-mini、DeepSeek R1相比,除了数学,带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外,它甚至在宝可梦游戏测试中超越了所有先前模型

AI编码智能体,一次完成45分钟任务

自2024年6月以来,Sonnet系列一直是全球开发者的首选模型。

今天,Anthropic的首个智能体编码工具Claude Code诞生,目前以限量研究预览的形式发布。

Claude Code主动与人协作,能够搜索和阅读代码、编辑文件、编写和运行测试、提交并将代码推送至GitHub,以及使用命令行工具——同时确保用户在每一步都能参与其中。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

此外,本次更新还改进了Claude.ai上的编码体验。

现在,所有Claude套餐都支持GitHub集成——开发者能够将代码仓库直接连接到Claude。

作为Anthropic迄今为止最强大的编码模型,Claude 3.7 Sonnet能更深入地理解个人项目、工作项目和开源项目,并一举成为修复bug、开发新功能以及编写GitHub文档的强大助手。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

目前,Claude Code还处于早期阶段,但已经成为Anthropic团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和大规模重构方面。

在早期测试中,它能够一次性完成了通常需要手动工作45分钟以上的任务,显著减少了开发时间和工作量。

在接下来的几周里,Anthropic计划根据使用情况不断改进它:提升工具调用的可靠性、增加对长时间运行命令的支持、改进应用内渲染效果,并扩展Claude对自身能力的理解。

全新的测试时Scaling

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude作为AI智能体

Claude 3.7 Sonnet具备了一项被称为「行为扩展」(action scaling)的新特性——这种改进使其能够迭代调用函数、响应环境变化,并持续操作直到完成开放式任务。

例如在计算机使用方面:Claude能够通过发出虚拟鼠标点击和键盘按键来代替用户完成任务。与前代相比Claude 3.7 Sonnet能够在计算机使用任务中投入更多的交互次数,同时配备更充足的时间和计算资源,因此往往能取得更好的结果。

这一进步在OSWorld评估中得到了充分体现,这是一个用于评估多模态AI智能体能力的测试平台。

Claude 3.7 Sonnet在初始阶段就展现出了较好的表现,而随着其持续与虚拟计算机交互,其性能优势还会随时间推移而不断扩大。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude的扩展思考模式与AI智能体训练相结合,不仅帮助它在OSWorld等众多标准评估中取得了更好的表现,还让它在一些其他意想不到的任务中实现了重大突破。

以玩游戏为例——特别是在Game Boy掌机经典游戏「口袋妖怪:红」中的表现。他们为Claude配备了基础记忆能力、屏幕像素输入功能,以及按键操作和屏幕导航的函数调用能力,使其能够突破常规上下文限制,持续进行游戏,实现长达数万次的持续交互。

在下图中,他们对比了具备扩展思考能力的Claude 3.7 Sonnet与之前版本的Claude Sonnet在口袋妖怪游戏中的进度。

如图所示,早期版本在游戏伊始就难以推进,Claude 3.0 Sonnet甚至无法走出故事起点真新镇的初始小屋。

而Claude 3.7 Sonnet凭借改进后的AI智能体能力取得了显著进展,成功挑战并击败了三位道馆馆主,获得了相应的徽章。

Claude 3.7 Sonnet在尝试多种策略和重新审视既有假设方面表现出色,这使它能够在游戏过程中不断提升自身能力。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

串行与并行测试时计算Scaling

当Claude 3.7 Sonnet运用其扩展思考能力时,可以说它利用了「串行测试时计算」机制。

具体而言,它会在生成最终输出之前,执行多个连续的推理步骤,并在此过程中持续增加计算资源投入。

总体来看,这种机制能够以可预测的方式提升其性能表现:例如,在数学问题求解方面,其准确率会随着允许采样的「思考Token」数量的增加呈对数增长。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Claude的研究人员还在探索使用并行测试时计算来提升模型性能。

具体方法是通过采样多个独立的思维过程,并在不预先知道正确答案的情况下选择最佳结果。这可以通过多数表决或共识投票机制来实现,即选择出现频率最高的答案作为「最佳」答案。

另外也可以使用另一个LLM来验证其工作成果,或采用经过训练的评分函数来选择最优答案。

这些优化策略(及相关研究工作)已在多个AI模型的评估报告中得到验证。

在GPQA评估中,他们通过并行测试时计算Scaling取得了突破性进展。

具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。

值得注意的是,即使超出常规多数表决的限制范围,模型性能仍在持续提升。

下图列出了评分模型方法和多数表决方法的详细结果。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

这些方法能够提升Claude回答的质量,而且通常无需等待其完成推理过程。同时进行多个不同的深度思维运算,Claude能够探索更多问题解决思路,显著提升正确答案的输出频率。

三步路线图,Claude合作者已来

Claude 3.7 Sonnet和Claude Code标志着,向真正增强人类能力的人工智能系统迈出的重要一步。

凭借其深入推理、自主工作和有效协作的能力,它们让我们更接近一个未来,在那里人工智能丰富了人类所能实现的事情。

如今,Claude合作者已来。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

最新版,可以免费用了

值得一提的是,Claude 3.7 Sonnet目前已经在Claude.ai平台上线,Web、iOS和Android用户皆可免费体验。

对于希望构建自定义AI解决方案的开发者,可以通过Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI进行访问。

在标准模式和扩展思考模式下,Claude 3.7 Sonnet的价格与其前代产品相同:3美元/百万输入token,15 美元/百万输出token ——这其中包括了思考token的费用。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

Anthropic套餐定价

AI大佬测试

宾夕法尼亚大学沃顿商学院的教授Ethan Mollick已经在过去几天对Claude 3.7进行了测试,

Claude 3.7经常给他带来与第一次使用ChatGPT-4时相同的感觉:既惊叹不已,又对它们的能力感到一丝不安。以 Claude的原生编码能力为例,我们现在可以通过自然对话或文档获得可运行的程序,而无需任何编程技能。

例如,他向Claude提供了一份关于新型AI教育工具的提案,并在对话中要求它「以3D形式展示所提议的系统架构,并使其具有交互性」。结果,它生成了我们论文中核心设计的交互式可视化效果,没有任何错误。

这些图形虽然很简洁,但并不是最令人印象深刻的部分。真正让人惊叹的是,Claude自主决定将其制作成一个逐步演示来解释相关概念,而这并不是我们要求它做的。

这种对需求的预判和对新方法的思考是AI领域中的一项新突破。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

再举一个更有趣的例子,Ethan Mollick告诉Claude:「给我做一个交互式的时间机器装置,让我可以穿越回过去,并发生一些有趣的事情。挑选一些不寻常的时间点让我回去...」 以及 「添加更多图像。」

仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到它正在创建的内容,就像一个被蒙住眼睛的艺术家。

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!