AI在线 AI在线

击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!

作者:
2025-04-11 02:54
刚刚,字节旗下的豆包团队发布了他们最新的推理模型Seed-Thinking-v1.5! 亮点很突出:200B参数击败DeepSeek R1(671B),不到后者参数量的三分之一! 与其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一个相对小型的专家混合(MoE)模型——激活参数为 20B,总参数规模为 200B。

刚刚,字节旗下的豆包团队发布了他们最新的推理模型Seed-Thinking-v1.5!

亮点很突出:200B参数击败DeepSeek R1(671B),不到后者参数量的三分之一!

击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!

击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!

与其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一个相对小型的专家混合(MoE)模型——激活参数为 20B,总参数规模为 200B。

Seed-Thinking-v1.5 在数学、科学和逻辑推理等“硬核”任务中表现稳定:在 AIME 2024 上取得了 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展现出在 STEM 领域和编程任务中的出色推理表现。

除了推理任务,该方法还展现出对多种任务的优秀泛化能力。例如,在非推理任务上的胜率比 DeepSeek R1 高出 8%,表明其适用范围更广。

此外,为了更好评估模型通用推理能力,字节专门开发了两个内部基准:BeyondAIME 和 Codeforces。这两个基准之后会开源,以支持后续研究。

报告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

相关标签:

相关资讯

我下下决心再给老板发哈哈哈

编辑 | 萝卜皮原子结构的高分辨率可视化对于理解材料微观结构与宏观性质之间的关系具有重要意义。 然而,在原子分辨率显微镜中,快速、准确、稳健地自动解析复杂模式的方法仍然难以实现。 北京大学、厦门大学、中南大学以及深势科技等组成的研究团队,提出了一种基于 Trident 策略增强的解缠结表示学习方法(生成模型)。
4/1/2025 2:30:00 PM
ScienceAI

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
1/29/2025 6:43:00 PM
机器之心

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。
2/17/2025 10:33:19 AM
Yu