腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。 据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。 在多项基准测试中,混元-T1展现出强大的性能。

腾讯近日宣布推出其最新的大型语言模型——混元-T1,并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。

据腾讯介绍,混元-T1在开发过程中高度依赖强化学习,高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。

在多项基准测试中,混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中,该模型取得了87.2分,仅略低于OpenAI的o1模型。在科学推理方面,浑元-T1在GPQA-diamond测试中获得了69.3分。

QQ20250325-095626.png

尤其值得一提的是,腾讯强调混元-T1在数学方面的卓越表现。其在MATH-500基准测试中获得了高达96.2分的成绩,仅次于Deepseek-R1。此外,该模型在代码生成(LiveCodeBench:64.9分)和高难度推理(ArenaHard:91.9分)等方面也表现出色。腾讯还指出,混元-T1在多项中文任务上的准确率超过90%。

在模型训练方面,腾讯采用了课程学习的方法,逐步增加任务难度。此外,该公司还创新性地开发了自我奖励系统,利用模型的早期版本评估新版本的输出,从而驱动模型性能的持续提升。

混元-T1采用了Transformer Mamba混合架构,腾讯声称在相同条件下,该架构处理长文本的速度是传统模型的两倍。目前,Hunyuan-T1已通过腾讯云对外开放,并且在Hugging Face上提供了演示。

此次发布是继百度和阿里巴巴相继推出其声称达到o1水平的自研模型后,中国科技巨头在AI领域展开竞争的又一重要举措。值得注意的是,阿里巴巴、百度和Deepseek都在积极推行开源战略。人工智能投资者、前谷歌中国区总裁李开复此前曾公开表示,这些中国AI模型的发展对OpenAI构成了潜在的生存威胁。

相关资讯

腾讯混元发布图生视频模型HunyuanVideo-I2V,并上线对口型等玩法

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。 该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展,旨在推动开放源代码社区的深入探索。 HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。

腾讯混元推出 5 个开源3D模型: 30 秒生成,兼容多平台

腾讯混元宣布推出5个全新3D生成模型,并全部开源。 这些基于Hunyuan3D-2.0打造的模型具有更快的生成速度、更丰富的细节和更逼真的材质表达。 同时,腾讯自研的3D AI创作引擎也进行了升级,现已向C端用户全面开放。

腾讯混元 DiT 文生图大模型开源 6G 小显存版本,一同开源打标模型

腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。腾讯混元 DiT 模型升级腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高