字节跳动加入了快速发展的AI推理模型竞争,推出了专注于科学、技术、数学和工程(STEM)领域的新型大语言模型Seed-Thinking-v1.5。这款采用混合专家(MoE)架构的模型在多项基准测试中表现优异,甚至在某些指标上超越了行业巨头的产品。
推理AI的演进历程
推理AI竞赛始于2024年9月OpenAI的o1模型发布,而后在2025年1月DeepSeek R1的推出后真正加速。如今,主要AI企业都在竞相开发能够执行"思路链"推理的模型,以提供更全面、更合理的回答。Seed-Thinking-v1.5采用了流行的混合专家(MoE)架构,类似于Meta的Llama4和Mistral的Mixtral。该架构使模型能够在庞大的2000亿参数库中每次只使用200亿参数,大幅提高效率。
卓越的性能表现
这款模型展现了令人印象深刻的能力:在AIME2024上获得86.7%的得分,在Codeforces上获得55.0%的pass@8分数,在GPQA科学基准测试中获得77.3%的得分。更令人瞩目的是,它在ARC-AGI基准测试中超越了Google的Gemini2.5Pro和OpenAI的o3-mini-high。在非推理任务中,Seed-Thinking-v1.5的胜率比DeepSeek R1高出8.0%,表明其性能优势不仅限于逻辑或数学密集型任务。
技术创新与突破
字节跳动在Seed-Thinking-v1.5的开发中采用了多项创新技术,包括精心策划的训练数据、先进的强化学习框架、双层奖励系统和高效的基础设施。他们使用40万个样本进行监督微调,采用自定义的演员-评论家(VAPO)和策略梯度(DAPO)框架解决强化学习训练中的不稳定性问题,创新性地使用"种子验证器"和"种子思维验证器"评估模型输出质量,并通过HybridFlow框架和流式部署系统(SRS)实现训练效率提升,据报道将强化学习周期速度提高3倍。
未来发展与行业影响
虽然Seed-Thinking-v1.5目前尚未开放下载或使用,其许可条款也未公布,但它的出现无疑加剧了推理AI领域的竞争,为强大、高效的大型语言模型设定了新标准。该项目是字节跳动Seed LLM系统团队合作的成果,由吴永辉领导,林海滨担任公开代表,团队计划继续完善强化学习技术并公开发布BeyondAIME等内部基准,以促进推理AI研究的更广泛进步。