深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

2025-02-25 10:08

刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code！各种能力超群，只是数学能力还是不及DeepSeek等，感觉Claude所有重点都在代码能力观看更多转载,深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合AI寒武纪已关注分享点赞在看已同步到看一看写下你的评论视频详情第一时间（熬夜🤣）给大家划个重点Claude 3.7 Sonnet：混合推理架构登场，打造前所未有的智能巅峰！

刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code！各种能力超群，只是数学能力还是不及DeepSeek等，感觉Claude所有重点都在代码能力

观看更多转载,深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合AI寒武纪已关注分享点赞在看已同步到看一看写下你的评论视频详情

第一时间（熬夜🤣）给大家划个重点

Claude 3.7 Sonnet：混合推理架构登场，打造前所未有的智能巅峰！

Anthropic毫不掩饰对Claude 3.7 Sonnet的自信，直接称其为 “迄今为止最智能的模型”，更重要的是，它还开创性地成为了 “市场上首个混合推理模型”！

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

与以往模型不同，Claude 3.7 Sonnet 的独特之处在于其 “混合” 能力：

• 极速响应与深度思考并存： 它既能像猎豹一样 “即时响应”，满足对速度有极致要求的场景；又能进行 “扩展的、逐步思考”，处理需要复杂推理的任务。深度思考的过程不再是黑箱操作，而是 “对用户可见的”！
• 思考时长由你掌控： 对于API开发者而言，Anthropic 开放了 “思考预算 (budget for thinking)” 的精细控制权。你可以根据任务的复杂程度和对结果质量的要求，设定模型思考的tokens上限 (最高可达 128K tokens 输出限制)。这意味着开发者可以根据实际需求，在 速度、成本和答案质量 之间自由调优，实现真正的 “按需定制”！👍 这种灵活性是前所未有的，也体现了Anthropic对开发者需求的深刻理解
• 标准模式与扩展思考模式： Claude 3.7 Sonnet 在 标准模式 下，是 Claude 3.5 Sonnet 的升级版，性能已经非常出色。而在 扩展思考模式 下，它会进行 “自我反思 (self-reflects)” 后再给出答案，这使得它在 数学、物理、指令跟随、编码 等多个领域的性能都得到显著提升。更棒的是，无论在哪种模式下，prompt的编写方式都基本一致，降低了用户的学习成本

💪 代码能力史诗级跃升！Claude Code横空出世，赋能智能体编码新范式！

如果你是一名开发者，尤其是专注于 编程和前端Web开发，那么Claude 3.7 Sonnet 和 Claude Code 的组合绝对会不失所望！ Anthropic 明确指出，新模型在 “编码和前端Web开发” 领域取得了 “特别强劲的改进”

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

更重要的是“Claude Code” —— 一个跨时代的 “智能体编码命令行工具”！这不仅是 Claude 系列的首款代码工具，更预示着AI辅助编程进入了一个全新的阶段。目前 Claude Code 以 “限量研究预览版” 的形式推出

Claude Code 的强大之处在于，它将 AI 的代码智能直接融入开发者的工作流中，让你能够在熟悉的 终端环境 下，“直接委托实质性的工程任务给 Claude”。想象一下，你只需在命令行输入指令，就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

Claude Code 的核心能力包括：

• 代码检索与阅读： 快速搜索和理解代码库，不再需要在海量代码中手动翻找
• 文件编辑： 智能修改代码文件，无论是简单的bug修复还是复杂的重构，都能轻松应对
• 测试编写与运行： 自动生成和执行测试用例，确保代码质量，提升软件可靠性
• 代码提交与推送 (GitHub 集成)： 无缝集成 GitHub，方便代码的版本控制和协作
• 命令行工具集成： 灵活使用各种命令行工具，扩展功能，满足更复杂的需求。

Anthropic 强调，Claude Code 在 测试驱动开发、复杂问题调试和大规模重构 等场景中尤其得心应手。在早期测试中，Claude Code 能够在 “单次操作中完成通常需要 45 分钟以上的手动工作”，显著缩短开发时间和成本

Claude Code 目前处于研究预览的 beta 阶段：

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

权威评测数据震撼发布：实力碾压，问鼎多项榜单！

性能是检验 AI 模型实力的硬指标。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多个权威基准测试上的卓越表现，用数据说话，实力尽显：

•SWE-bench Verified (软件工程基准测试): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的惊人成绩，再次成为该榜单的王者，远超 OpenAI 的 GPT-4 和 DeepSeek R1 等强劲对手。 SWE-bench Verified 专注于评估 AI 模型解决真实世界软件问题的能力，Claude 3.7 Sonnet 的优异表现充分证明了其在实际编码场景中的强大实力。值得注意的是，70.3% 的高分使用了 “定制 scaffold”，并在问题子集上进行了内部评分，而 62.3% 的分数则使用了 bash/editor 工具和一个 “思考工具”，在 500 个问题上进行了单次尝试，没有额外的测试时计算

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

TAU-bench (智能体工具使用基准测试): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 两个场景中，分别取得了 81.2% 和 58.4% 的领先成绩。 TAU-bench 考察的是 AI 智能体在复杂的真实世界任务中，与用户和各种工具进行有效交互的能力。Claude 3.7 Sonnet 在此项测试中再次拔得头筹，印证了其作为智能体工具的卓越性能。为了获得这些分数，Anthropic 使用了 prompt addendum 指导 Claude 更好地利用 “planning” tool，鼓励模型写下思考过程

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

通用benchmark测试

总而言之，Claude 3.7 Sonnet 在 指令跟随、通用推理、多模态能力和智能体编码 等多个关键领域都展现出了卓越的性能，在 数学和科学 方面，扩展思考模式带来了显著的提升但是没有超越deepseek等模型。在 Anthropic 内部的 Pokémon gameplay tests (宝可梦游戏测试) 中，Claude 3.7 Sonnet 也超越了以往的所有模型

写在最后：

按照Anthropic的说法：Claude 3.7 Sonnet 和 Claude Code 的发布，是在 “构建真正增强人类能力的 AI 系统” 道路上迈出的重要一步。 Anthropic 坚信，凭借其强大的 “深度推理、自主工作和有效协作” 能力，AI 将把我们带向一个更加美好的未来，在那里，AI 将 “丰富和扩展人类所能成就的一切”

Anthropic 也在公告中展望了 Claude 的发展蓝图，描绘了 Claude 从 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先锋 (pioneers)” 的进化路径，预示着 AI 在未来将扮演越来越重要的角色，最终将能够 “找到突破性的解决方案，解决需要团队数年才能完成的挑战性问题”。

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 条精心设计的样本，就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。

2/7/2025 9:00:00 AM

机器之心

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

Llama 4 这么大的节奏，Meta 终于绷不住了。本周二凌晨，Meta Gen AI 团队负责人发表了一份澄清说明（针对外界质疑「在测试集上训练」等问题），大佬 Yann LeCun 也进行了转发。很高兴能让大家用上 Llama 4，我们已经听说人们使用这些模型取得了很多出色的成果。

4/8/2025 1:12:49 PM

机器之心

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

千亿参数内最强推理大模型，刚刚易主了。 32B——DeepSeek-R1的1/20参数量；免费商用；且全面开源——模型权重、训练数据集和完整训练代码，都开源了。这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——通用32B尺寸（Skywork-OR1-32B）完全超越同规模阿里QwQ-32B；代码生成媲美DeepSeek-R1，但性价比更高。

4/14/2025 9:27:00 AM

量子位

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

深夜王炸！刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”：双面王牌组合

Claude 3.7 Sonnet：混合推理架构登场，打造前所未有的智能巅峰！

💪 代码能力史诗级跃升！Claude Code横空出世，赋能智能体编码新范式！

权威评测数据震撼发布：实力碾压，问鼎多项榜单！

写在最后：

相关资讯

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源