AI在线 AI在线

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

作者:汪淼
2025-03-25 09:14
由于发布时间太短,还没有正式测评结果,不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升,成为该测试下最好的非推理模型。

DeepSeek V3 升级了,新版本 V3-0324

官方轻描淡写只说是“小版本升级”,但很多人实测下来可一点也不小。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

把流行的小球弹跳测试,提升难度到 4 维空间超立方体也没问题

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

天哪,如果这只是一个小更新,那我想象不出大更新会是什么样子。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

编程这块,只需一句提示词开发一个完整产品着陆页,带自适应布局带动效,被评价为与 Claude 3.7 Sonnet 同一水平。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

由于发布时间太短,还没有正式测评结果,不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升,成为该测试下最好的非推理模型

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

不是推理模型也有“啊哈时刻”

DeepSeek-V3-0324 并非推理模型,在回答之前不会给出思考过程,但依然遵循一定的思维方式分解问题。

走入死胡同的话,还表现出自主回到上一步重新思考的能力。

在“9.11 和 9.9 那个大”、“Straberry 有多少个 r”已经不成问题的今天,最新折磨 AI 的难题是“让 7 米长的甘蔗通过 2 米高 1 米宽的门”。

在量子位的测试中,DeepSeek-V3-0324 先是像它的前辈以及许多其他 AI 一样碰壁。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

碰壁之后开始重新思考题目本身的含义,后面依旧陷入误区,但突然在中文解题过程中夹杂一句英语思考,类似 DeepSeek-R1 技术报告中的“啊哈时刻”

等等,这似乎与之前的对角线方法相似,也许我遗漏了什么。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

顿悟之后,突然就走上了正确的道路,注意到了题目中没直接提到的隐藏条件。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

虽然从计算过程看,还是没理解到问题的本质,但好歹得出了解决方案,还认识到了自己的误区。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

依旧免费,依旧开源

像这样的优秀模型依旧免费,依旧开源,权重文件已火速上线 HuggingFace,使用最宽松的 MIT 协议。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

所有权重文件加起来占硬盘空间约 688GB,与初代 v3 保持一致,说明依然是 671B 参数的 MoE 模型,目前没有更多技术细节,还需等待官方进一步发布公告。

目前在官网和官方 App(关闭深度思考即可)、HuggingFace 等渠道都能体验到 v3-0324。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

也可以到大模型竞技场去与其他模型 pk,不过投票结果还要等一段时间才能出来。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

当然最让大家期待的还是,v3 更新了,r2 还会远吗?

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

官网试玩:

https://chat.deepseek.com/

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md

参考链接:

  • [1]https://x.com/TheXeophon/status/1904225899957936314

  • [2]https://x.com/Yuchenj_UW/status/1904223627509465116

  • [3]https://x.com/risphereeditor/status/1904194061780590773

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”,7 米甘蔗过 2 米门想通了》

相关标签:

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
1/29/2025 6:43:00 PM
机器之心

DeepSeek称遭到大规模恶意攻击,注册或受影响

DeepSeek发布公告称其线上服务近期遭受了大规模恶意攻击,导致注册过程可能变得繁忙。 DeepSeek提醒用户,如果遇到注册困难,可以稍等后重试。 已注册用户可以正常登录,不受影响。
1/28/2025 10:37:00 AM
AI在线

DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

DeepSeek 官方:如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 $562,027,成本利润率 545%。 但实际上没有这么多收入,因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。 太突然了!
3/1/2025 9:10:00 PM
机器之心