AI在线 AI在线

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

作者:AI寒武纪
2025-02-25 10:08
刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code! 各种能力超群,只是数学能力还是不及DeepSeek等,感觉Claude所有重点都在代码能力 观看更多转载,深夜王炸! 刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合AI寒武纪已关注分享点赞在看已同步到看一看写下你的评论 视频详情 第一时间(熬夜🤣)给大家划个重点Claude 3.7 Sonnet:混合推理架构登场,打造前所未有的智能巅峰!

刚刚Anthropic公司正式发布了他们最新的AI王牌组合—— Claude 3.7 Sonnet 和 Claude Code!各种能力超群,只是数学能力还是不及DeepSeek等,感觉Claude所有重点都在代码能力

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

观看更多转载,深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合AI寒武纪已关注分享点赞在看已同步到看一看写下你的评论 视频详情

第一时间(熬夜🤣)给大家划个重点

Claude 3.7 Sonnet:混合推理架构登场,打造前所未有的智能巅峰!

Anthropic毫不掩饰对Claude 3.7 Sonnet的自信,直接称其为 “迄今为止最智能的模型”,更重要的是,它还开创性地成为了 “市场上首个混合推理模型”

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

与以往模型不同,Claude 3.7 Sonnet 的独特之处在于其 “混合” 能力:

  • • 极速响应与深度思考并存: 它既能像猎豹一样 “即时响应”,满足对速度有极致要求的场景;又能进行 “扩展的、逐步思考”,处理需要复杂推理的任务。深度思考的过程不再是黑箱操作,而是 “对用户可见的”
  • • 思考时长由你掌控: 对于API开发者而言,Anthropic 开放了 “思考预算 (budget for thinking)” 的精细控制权。你可以根据任务的复杂程度和对结果质量的要求,设定模型思考的tokens上限 (最高可达 128K tokens 输出限制)。 这意味着开发者可以根据实际需求,在 速度、成本和答案质量 之间自由调优,实现真正的 “按需定制”!👍 这种灵活性是前所未有的,也体现了Anthropic对开发者需求的深刻理解
  • • 标准模式与扩展思考模式: Claude 3.7 Sonnet 在 标准模式 下,是 Claude 3.5 Sonnet 的升级版,性能已经非常出色。 而在 扩展思考模式 下,它会进行 “自我反思 (self-reflects)” 后再给出答案,这使得它在 数学、物理、指令跟随、编码 等多个领域的性能都得到显著提升。更棒的是,无论在哪种模式下,prompt的编写方式都基本一致,降低了用户的学习成本

💪 代码能力史诗级跃升!Claude Code横空出世,赋能智能体编码新范式!

如果你是一名开发者,尤其是专注于 编程和前端Web开发,那么Claude 3.7 Sonnet 和 Claude Code 的组合绝对会不失所望! Anthropic 明确指出,新模型在 “编码和前端Web开发” 领域取得了 “特别强劲的改进”

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

更重要的是“Claude Code” —— 一个跨时代的 “智能体编码命令行工具”! 这不仅是 Claude 系列的首款代码工具,更预示着AI辅助编程进入了一个全新的阶段。 目前 Claude Code 以 “限量研究预览版” 的形式推出

Claude Code 的强大之处在于,它将 AI 的代码智能直接融入开发者的工作流中,让你能够在熟悉的 终端环境 下,“直接委托实质性的工程任务给 Claude”。 想象一下,你只需在命令行输入指令,就能让 AI 智能体完成代码搜索、文件编辑、测试编写和运行、代码提交和推送等一系列复杂的编程任务

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

Claude Code 的核心能力包括:

  • • 代码检索与阅读: 快速搜索和理解代码库,不再需要在海量代码中手动翻找
  • • 文件编辑: 智能修改代码文件,无论是简单的bug修复还是复杂的重构,都能轻松应对
  • • 测试编写与运行: 自动生成和执行测试用例,确保代码质量,提升软件可靠性
  • • 代码提交与推送 (GitHub 集成): 无缝集成 GitHub,方便代码的版本控制和协作
  • • 命令行工具集成: 灵活使用各种命令行工具,扩展功能,满足更复杂的需求。

Anthropic 强调,Claude Code 在 测试驱动开发、复杂问题调试和大规模重构 等场景中尤其得心应手。 在早期测试中,Claude Code 能够在 “单次操作中完成通常需要 45 分钟以上的手动工作”,显著缩短开发时间和成本

Claude Code 目前处于研究预览的 beta 阶段:

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

权威评测数据震撼发布:实力碾压,问鼎多项榜单!

性能是检验 AI 模型实力的硬指标。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多个权威基准测试上的卓越表现,用数据说话,实力尽显:

  • SWE-bench Verified (软件工程基准测试): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (标准 scaffold) 的惊人成绩,再次成为该榜单的王者,远超 OpenAI 的 GPT-4 和 DeepSeek R1 等强劲对手。 SWE-bench Verified 专注于评估 AI 模型解决真实世界软件问题的能力,Claude 3.7 Sonnet 的优异表现充分证明了其在实际编码场景中的强大实力。值得注意的是,70.3% 的高分使用了 “定制 scaffold”,并在问题子集上进行了内部评分,而 62.3% 的分数则使用了 bash/editor 工具和一个 “思考工具”,在 500 个问题上进行了单次尝试,没有额外的测试时计算

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

  • TAU-bench (智能体工具使用基准测试): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 两个场景中,分别取得了 81.2% 和 58.4% 的领先成绩。 TAU-bench 考察的是 AI 智能体在复杂的真实世界任务中,与用户和各种工具进行有效交互的能力。Claude 3.7 Sonnet 在此项测试中再次拔得头筹,印证了其作为智能体工具的卓越性能。为了获得这些分数,Anthropic 使用了 prompt addendum 指导 Claude 更好地利用 “planning” tool,鼓励模型写下思考过程

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

通用benchmark测试

总而言之,Claude 3.7 Sonnet 在 指令跟随、通用推理、多模态能力和智能体编码 等多个关键领域都展现出了卓越的性能,在 数学和科学 方面,扩展思考模式带来了显著的提升但是没有超越deepseek等模型。 在 Anthropic 内部的 Pokémon gameplay tests (宝可梦游戏测试) 中,Claude 3.7 Sonnet 也超越了以往的所有模型

写在最后:

按照Anthropic的说法:Claude 3.7 Sonnet 和 Claude Code 的发布,是在 “构建真正增强人类能力的 AI 系统” 道路上迈出的重要一步。 Anthropic 坚信,凭借其强大的 “深度推理、自主工作和有效协作” 能力,AI 将把我们带向一个更加美好的未来,在那里,AI 将 “丰富和扩展人类所能成就的一切”

Anthropic 也在公告中展望了 Claude 的发展蓝图,描绘了 Claude 从 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先锋 (pioneers)” 的进化路径,预示着 AI 在未来将扮演越来越重要的角色,最终将能够 “找到突破性的解决方案,解决需要团队数年才能完成的挑战性问题”

深夜王炸!刚刚Anthropic发布全球首个混合推理模型与全新代码“神器”:双面王牌组合

相关标签:

相关资讯

817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式

在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。 特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型。
2/7/2025 9:00:00 AM
机器之心

Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发

Llama 4 这么大的节奏,Meta 终于绷不住了。 本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明(针对外界质疑「在测试集上训练」等问题),大佬 Yann LeCun 也进行了转发。 很高兴能让大家用上 Llama 4,我们已经听说人们使用这些模型取得了很多出色的成果。
4/8/2025 1:12:49 PM
机器之心

最强32B中文推理大模型易主:开源免费商用,1/20 DeepSeek-R1参数量SOTA,权重代码数据集全开源

千亿参数内最强推理大模型,刚刚易主了。 32B——DeepSeek-R1的1/20参数量;免费商用;且全面开源——模型权重、训练数据集和完整训练代码,都开源了。 这就是刚刚亮相的Skywork-OR1 (Open Reasoner 1)系列模型——通用32B尺寸(Skywork-OR1-32B)完全超越同规模阿里QwQ-32B;代码生成媲美DeepSeek-R1,但性价比更高。
4/14/2025 9:27:00 AM
量子位