Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

应用
12月26日
编辑

清源

据 Reddit 网友爆料，v3 已在 API 和网页上发布，一些榜单跑分也新鲜出炉。

还没等到官宣，Deepseek-v3 竟意外曝光了？！

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

据 Reddit 网友爆料，v3 已在 API 和网页上发布，一些榜单跑分也新鲜出炉。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

在 Aider 多语言编程测试排行榜中，Deepseek-v3 一举超越 Claude 3.5 Sonnet，排在第 1 位的 o1 之后。

（相比 Deepseek-v2.5，完成率从 17.8% 大幅上涨至 48.4%。）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

且在 LiveBench 测评中，它是当前最强开源 LLM，并在非推理模型中仅次于 gemini-exp-1206，排在第二。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

目前 Hugging Face 上已经有了 Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

综合网上多方爆料来看，Deepseek-v3 相比前代 v2、v2.5 有了极大提升 ——

与 v2、v2.5 配置对比

首先，Deepseek-v3 基本配置如下：

采用 685B 参数的 MoE 架构；
包含 256 个专家，使用 sigmoid 函数作为路由方式，每次选取前 8 个专家 (Top-k=8)；
支持 64K 上下文，默认支持 4K，最长支持 8K 上下文；
约 60 个 tokens / s；

BTW，在 Aider 测评中击败 Claude 3.5 Sonnet 的还是 Instruct 版本（该版本目前未发布）。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

为了进一步了解 Deepseek-v3 的升级程度，机器学习爱好者 Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出 v3 与 v2、v2.5 的关键区别。

与 v2（今年 5 月 6 日官宣开源）比较的结果，经 AI 整理成表格如下：

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

可以看出，v3 几乎是 v2 的放大版，在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化：

第一，在 MOE 结构中，v3 使用了 sigmoid 作为门控函数，取代了 v2 中的 softmax 函数。这允许模型在更大的专家集合上进行选择，而不像 softmax 函数倾向于将输入分配给少数几个专家。

第二，v3 引入了一个新的 Top-k 选择方法 noaux_tc，它不需要辅助损失。

简单理解，MoE 模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择 Top-k 个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择 Top-k 个专家。这有助于简化训练过程并提高训练效率。

对了，为便于理解，瓦哥用 DeepSeek 逐步解释了这一方法。

这是一种基于群体的专家选择算法，通过将专家划分为不同的小组，并在每个小组内部选择最优秀的 k 名专家。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

第三，v3 增加了一个新参数 e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

此外，v3 与 v2.5（本月 10 日官宣开源）的比较也出炉了，后者主要支持联网搜索功能，相比 v2 全面提升了各项能力。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

同样经 AI 整理成表格如下：

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

具体而言，v3 在配置上超越了 v2.5，包括更多的专家数量、更大的中间层尺寸，以及每个 token 的专家数量。

看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

网友实测 Deepseek-v3

关于 v3 的实际表现，另一独立开发者 Simon Willison（Web 开发框架 Django 的创始人之一）也在第一时间上手测试了。

比如先来个自报家门。

我是 DeepSeek-V3，基于 OpenAI 的 GPT-4 架构……

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

再考考图像生成能力，生成一张鹈鹕骑自行车的 SVG 图。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

最终图形 be like:

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

对了，在另一网友的测试中，Deepseek-v3 也回答自己来自 OpenAI？？

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

该网友推测，这可能是因为在训练时使用了 OpenAI 模型的回复。

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

不过不管怎样，还未正式官宣的 Deepseek-v3 已在 LiveBench 坐上最强开源 LLM 宝座，在一些网友心中，这比只搞期货的 OpenAI 遥遥领先。(手动狗头）

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

抱抱脸：

https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

参考链接：

[1]https://x.com/reach_vb/status/1871956999971414277
[2]https://simonwillison.net/2024/Dec/25/deepseek-v3/
[3]https://x.com/reach_vb/status/1872000205954089011
[4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

本文来自微信公众号：量子位（ID：QbitAI），作者：一水

给TA打赏

共{{data.count}}人

人已打赏

DeepSeek 人工智能

你的生理年龄可以逆转吗？17 种 AI 算法测试洞察 22.5 万人血液样本带来新见解

2024-12-26 13:44:57

蚂蚁群组团“最强 AGI”：破解几何难题“完爆”人类，群体智能登顶 PNAS

2024-12-26 14:49:47

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代
12月20日
Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
12月27日
劲爆！理想汽车转做大模型，主持人质疑李想是否跟风：你有理想吗？李想自曝三次创业心得：终极是硅基家人，要做中国第一！
12月26日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部