近日,腾讯发布了混元大模型系列的正式版 —— 混元 - T1。这款新模型基于混元中等规模底座,经过大规模后训练,显著增强了推理能力,特别是在深度思考和复杂问题解决方面表现出色。自从今年2月混元 T1-Preview 上线以来,用户们便体验到了更快、更深刻的思考过程,而此次正式版的推出,则标志着该系列产品的进一步升级。
混元 - T1的研发团队利用最新的 TurboS 基座,这是一种行业领先的超大规模 Hybrid-Transformer-Mamba MoE 模型。TurboS 在处理长文本推理时展现出独特优势,有效解决了上下文丢失和长距离信息依赖的问题。此外,Mamba 架构也经过专门优化,能够在保持信息捕捉能力的同时,显著减少计算资源的消耗。根据官方数据,在相同的部署条件下,混元 - T1的解码速度快了两倍。
在后训练阶段,团队投入了96.7% 的算力进行强化学习训练,专注于提升推理能力以及对齐人类偏好的优化。团队收集了大量的世界理科难题,涵盖数学、逻辑推理、科学及代码等领域,确保模型在各种推理任务中展现卓越的表现。训练中采用课程学习的方式,逐步提高数据难
体验入口:https://llm.hunyuan.tencent.com/?ref=producthunt#/chat/hy-t1