字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开，4 月 17 日开放接口

作者：清源

2025-04-14 12:44

该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出，同时，模型采用 MoE 架构，总参数 200B，激活参数为 20B，具备显著的推理成本优势，单位推理成本相比 DeepSeek R1 降低 50%。

感谢AI在线从豆包大模型团队获悉，字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开，该模型将于 4 月 17 日通过火山引擎开放接口供用户体验。

技术报告链接：https://github.com/ ByteDance-Seed / Seed-Thinking-v1.5

模型各方面具体表现：

专业领域：数学推理（AIME 2024 得分 86.7，追平 OpenAI o3-mini-high）、编程竞赛（Codeforces pass@8 达 55.0%，接近 Gemini 2.5 Pro）、科学推理（GPQA 得分 77.3%，接近 o3-mini-high），均达到或接近业界第一梯队水平。
通用任务：人类评估表现超 DeepSeek R1 8%，覆盖多场景需求。
成本优势：单位推理成本相比 DeepSeek R1 降低 50%，实现性能与效率的平衡。

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开，4 月 17 日开放接口

数据体系：融合可验证与创意性数据

针对推理与生成任务的不同需求，团队优化了数据处理策略：

可验证数据（如数学、代码题）：通过百万级数据三重清洗（人工筛选 → 模型过滤 → 多模型验证），保留 10 万道高难度题目；设计答案整数化改造、离线沙箱验证等机制，确保模型输出真实推理过程；
非可验证数据（如创意写作）：基于豆包 1.5 Pro 训练集，剔除低价值样本，采用两两对比奖励法，优化生成质量；
全新评测基准：构建了超难数学数据集 BeyondAIME（100 道无答案题干题目），解决现有测试区分度不足问题。

奖励模型：双轨体系校准训练方向

团队提出双轨奖励机制，兼顾“对错分明”与“见仁见智”任务：

可验证任务：开发了两代验证器（Seed-Verifier → Seed-Thinking-Verifier），从字符匹配升级为推理步骤逐行对比（训练 / 测试集准确率超 99%），杜绝模型“奖励欺骗”；
非可验证任务：引入 pairwise 对比训练，通过千万次“AB 测试”，捕捉人类对创意、情感等的隐性偏好，避免“众口难调”；
双轨融合：针对混合场景设计协调机制，硬指标（对错）与软偏好（优劣）互补，支撑全场景训练。

训练方法：“监督精调 + 强化学习”双阶段优化

Seed-Thinking-v1.5 采用“打基础 + 磨能力”的全链路训练：

监督精调（SFT）：基于 40 万高质量实例（30 万可验证 +10 万非可验证数据），结合人工与模型协同筛选，构建长思考链数据集，确保模型“像人类一样思考”；
强化学习（RL）：通过三重数据引擎（可验证 / 通用 / 混合数据）、算法创新（价值预训练、解耦 GAE 等）以及在线数据适配技术，解决训练不稳定、长链推理断层等问题，动态调整数据分布以保持最佳训练状态。

训练框架：支撑 20B MoE 的底层架构

为应对 20B MoE（总参数 200B）的复杂训练需求，团队优化了底层架构：

HybridFlow 编程模型：支持算法快速探索与分布式并行运行；
流式推理系统（SRS）：通过“流式推理”技术解耦模型演进与异步推理，将训练速度提升 3 倍，万亿参数下稳定性达 95%；
三层并行架构：结合张量 / 专家 / 序列并行，动态均衡负载，基于 KARP 算法优化 GPU 算力利用率。

消息称亚马逊正开发推理模型 Nova：又要快又要能深度思考

据一位直接参与该项目的知情人士透露，这款新产品计划最早在 6 月以“Nova”品牌发布，Nova 是亚马逊去年底推出的一系列生成式AI模型。

3/4/2025 6:17:10 PM

清源

亚马逊研发新型推理人工智能模型，欲与OpenAI和Anthropic展开竞争

近日，有消息透露，亚马逊正在积极开发一种集成先进推理能力的人工智能模型。这一新产品计划将在今年6月份以 Nova 品牌推出，Nova 是亚马逊去年年底发布的一系列生成式人工智能模型的一部分。项目的相关人士表示，该模型旨在采用 “混合推理” 方法，能够在同一个系统中提供快速的回答以及更复杂的推理过程。

3/5/2025 9:23:00 AM

AI在线

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

终于，在2024年的最后一天，智谱版o1也来了！名字叫做GLM-Zero-Preview，Zero推理模型（下文简称Zero模型），自称是擅长通过逻辑推理来解决数理问题。既然如此，那么我们就直接一套2024年考研数学真题来伺候一下吧~规则也很简单，就是把真题的题目以截图的方式“喂”给Zero模型，这样也可以顺便考验一下它的视觉理解能力。

12/31/2024 9:55:23 AM

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开，4 月 17 日开放接口

模型各方面具体表现：

数据体系：融合可验证与创意性数据

奖励模型：双轨体系校准训练方向

训练方法：“监督精调 + 强化学习”双阶段优化

训练框架：支撑 20B MoE 的底层架构

相关资讯

消息称亚马逊正开发推理模型 Nova：又要快又要能深度思考

亚马逊研发新型推理人工智能模型，欲与OpenAI和Anthropic展开竞争

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！