AI在线 AI在线

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口

作者:清源
2025-04-14 12:44
该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势,单位推理成本相比 DeepSeek R1 降低 50%。
感谢AI在线从豆包大模型团队获悉,字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开,该模型将于 4 月 17 日通过火山引擎开放接口供用户体验。

该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,同时,模型采用 MoE 架构,总参数 200B,激活参数为 20B,具备显著的推理成本优势,单位推理成本相比 DeepSeek R1 降低 50%。

  • 技术报告链接:https://github.com/ ByteDance-Seed / Seed-Thinking-v1.5

模型各方面具体表现:

  • 专业领域:数学推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、编程竞赛(Codeforces pass@8 达 55.0%,接近 Gemini 2.5 Pro)、科学推理(GPQA 得分 77.3%,接近 o3-mini-high),均达到或接近业界第一梯队水平。

  • 通用任务:人类评估表现超 DeepSeek R1 8%,覆盖多场景需求。

  • 成本优势:单位推理成本相比 DeepSeek R1 降低 50%,实现性能与效率的平衡。

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口

数据体系:融合可验证与创意性数据

针对推理与生成任务的不同需求,团队优化了数据处理策略:

  • 可验证数据(如数学、代码题):通过百万级数据三重清洗(人工筛选 → 模型过滤 → 多模型验证),保留 10 万道高难度题目;设计答案整数化改造、离线沙箱验证等机制,确保模型输出真实推理过程;

  • 非可验证数据(如创意写作):基于豆包 1.5 Pro 训练集,剔除低价值样本,采用两两对比奖励法,优化生成质量;

  • 全新评测基准:构建了超难数学数据集 BeyondAIME(100 道无答案题干题目),解决现有测试区分度不足问题。

奖励模型:双轨体系校准训练方向

团队提出双轨奖励机制,兼顾“对错分明”与“见仁见智”任务:

  • 可验证任务:开发了两代验证器(Seed-Verifier → Seed-Thinking-Verifier),从字符匹配升级为推理步骤逐行对比(训练 / 测试集准确率超 99%),杜绝模型“奖励欺骗”;

  • 非可验证任务:引入 pairwise 对比训练,通过千万次“AB 测试”,捕捉人类对创意、情感等的隐性偏好,避免“众口难调”;

  • 双轨融合:针对混合场景设计协调机制,硬指标(对错)与软偏好(优劣)互补,支撑全场景训练。

训练方法:“监督精调 + 强化学习”双阶段优化

Seed-Thinking-v1.5 采用“打基础 + 磨能力”的全链路训练:

  • 监督精调SFT:基于 40 万高质量实例(30 万可验证 +10 万非可验证数据),结合人工与模型协同筛选,构建长思考链数据集,确保模型“像人类一样思考”;

  • 强化学习RL:通过三重数据引擎(可验证 / 通用 / 混合数据)、算法创新(价值预训练、解耦 GAE 等)以及在线数据适配技术,解决训练不稳定、长链推理断层等问题,动态调整数据分布以保持最佳训练状态。

训练框架:支撑 20B MoE 的底层架构

为应对 20B MoE(总参数 200B)的复杂训练需求,团队优化了底层架构:

  • HybridFlow 编程模型:支持算法快速探索与分布式并行运行;

  • 流式推理系统(SRS:通过“流式推理”技术解耦模型演进与异步推理,将训练速度提升 3 倍,万亿参数下稳定性达 95%;

  • 三层并行架构:结合张量 / 专家 / 序列并行,动态均衡负载,基于 KARP 算法优化 GPU 算力利用率。

相关资讯

消息称亚马逊正开发推理模型 Nova:又要快又要能深度思考

据一位直接参与该项目的知情人士透露,这款新产品计划最早在 6 月以“Nova”品牌发布,Nova 是亚马逊去年底推出的一系列生成式AI模型。
3/4/2025 6:17:10 PM
清源

亚马逊研发新型推理人工智能模型,欲与OpenAI和Anthropic展开竞争

近日,有消息透露,亚马逊正在积极开发一种集成先进推理能力的人工智能模型。 这一新产品计划将在今年6月份以 Nova 品牌推出,Nova 是亚马逊去年年底发布的一系列生成式人工智能模型的一部分。 项目的相关人士表示,该模型旨在采用 “混合推理” 方法,能够在同一个系统中提供快速的回答以及更复杂的推理过程。
3/5/2025 9:23:00 AM
AI在线

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

终于,在2024年的最后一天,智谱版o1也来了! 名字叫做GLM-Zero-Preview,Zero推理模型(下文简称Zero模型),自称是擅长通过逻辑推理来解决数理问题。 既然如此,那么我们就直接一套2024年考研数学真题来伺候一下吧~规则也很简单,就是把真题的题目以截图的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。
12/31/2024 9:55:23 AM