DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

作者：汪淼

2025-03-25 09:14

由于发布时间太短，还没有正式测评结果，不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升，成为该测试下最好的非推理模型。

DeepSeek V3 升级了，新版本 V3-0324。

官方轻描淡写只说是“小版本升级”，但很多人实测下来可一点也不小。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

把流行的小球弹跳测试，提升难度到 4 维空间超立方体也没问题。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

天哪，如果这只是一个小更新，那我想象不出大更新会是什么样子。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

编程这块，只需一句提示词开发一个完整产品着陆页，带自适应布局带动效，被评价为与 Claude 3.7 Sonnet 同一水平。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

由于发布时间太短，还没有正式测评结果，不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升，成为该测试下最好的非推理模型。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

不是推理模型也有“啊哈时刻”

DeepSeek-V3-0324 并非推理模型，在回答之前不会给出思考过程，但依然遵循一定的思维方式分解问题。

走入死胡同的话，还表现出自主回到上一步重新思考的能力。

在“9.11 和 9.9 那个大”、“Straberry 有多少个 r”已经不成问题的今天，最新折磨 AI 的难题是“让 7 米长的甘蔗通过 2 米高 1 米宽的门”。

在量子位的测试中，DeepSeek-V3-0324 先是像它的前辈以及许多其他 AI 一样碰壁。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

碰壁之后开始重新思考题目本身的含义，后面依旧陷入误区，但突然在中文解题过程中夹杂一句英语思考，类似 DeepSeek-R1 技术报告中的“啊哈时刻”。

等等，这似乎与之前的对角线方法相似，也许我遗漏了什么。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

顿悟之后，突然就走上了正确的道路，注意到了题目中没直接提到的隐藏条件。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

虽然从计算过程看，还是没理解到问题的本质，但好歹得出了解决方案，还认识到了自己的误区。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

依旧免费，依旧开源

像这样的优秀模型依旧免费，依旧开源，权重文件已火速上线 HuggingFace，使用最宽松的 MIT 协议。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

所有权重文件加起来占硬盘空间约 688GB，与初代 v3 保持一致，说明依然是 671B 参数的 MoE 模型，目前没有更多技术细节，还需等待官方进一步发布公告。

目前在官网和官方 App（关闭深度思考即可）、HuggingFace 等渠道都能体验到 v3-0324。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

也可以到大模型竞技场去与其他模型 pk，不过投票结果还要等一段时间才能出来。

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

当然最让大家期待的还是，v3 更新了，r2 还会远吗？

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

官网试玩：

https://chat.deepseek.com/

HuggingFace：

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md

参考链接：

[1]https://x.com/TheXeophon/status/1904225899957936314
[2]https://x.com/Yuchenj_UW/status/1904223627509465116
[3]https://x.com/risphereeditor/status/1904194061780590773

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨，原标题《DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”，7 米甘蔗过 2 米门想通了》

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM

机器之心

DeepSeek称遭到大规模恶意攻击，注册或受影响

DeepSeek发布公告称其线上服务近期遭受了大规模恶意攻击，导致注册过程可能变得繁忙。 DeepSeek提醒用户，如果遇到注册困难，可以稍等后重试。已注册用户可以正常登录，不受影响。

1/28/2025 10:37:00 AM

AI在线

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

DeepSeek 官方：如果所有 tokens 全部按照 DeepSeek R1 的定价计算，理论上一天的总收入为 $562,027，成本利润率 545%。但实际上没有这么多收入，因为 V3 的定价更低，同时收费服务只占了一部分，另外夜间还会有折扣。太突然了！

3/1/2025 9:10:00 PM

机器之心

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 MiniMax MCP Server正式上线，开启多模态AI新纪元 OpenAI发布34页智能体实践指南：从网络搜索到代码编写

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集特斯拉 2024 AGI 大型语言模型训练

顶部

DeepSeek V3“小版本升级”实测堪比 V3.5，非推理模型也有“啊哈时刻”

不是推理模型也有“啊哈时刻”

依旧免费，依旧开源

相关资讯

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

DeepSeek称遭到大规模恶意攻击，注册或受影响

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明