TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

2025-01-26 09:41

近日，中国电信人工智能研究院（TeleAI）“复杂推理大模型” TeleAI-t1-preview 正式发布，即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。早在 1500 多年前，数学家祖冲之就曾在《辩戴法兴难新历》中指出，复杂事物的运行规律并非超自然现象，而是可以通过实际观测、数据推理而严谨求得。

近日，中国电信人工智能研究院（TeleAI）“复杂推理大模型” TeleAI-t1-preview 正式发布，即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。

早在 1500 多年前，数学家祖冲之就曾在《辩戴法兴难新历》中指出，复杂事物的运行规律并非超自然现象，而是可以通过实际观测、数据推理而严谨求得。

数学知识的系统性和相互关联性，以及通过推理找到问题根源，是几千年来数学发展的母题。大模型的创新也正在不断与之靠近，用严密的思维链路，摆脱幻觉的怪圈。

评分超 o1-preview

达竞赛级数学表现

在美国数学竞赛 AIME 2024 、MATH500 两项权威数学基准评测中，TeleAI-t1-preview 分别以 60 和 93.8 分的成绩，大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中，TeleAI-t1-preview 得分超过 GPT-4o，并比肩 Claude 3.5 Sonnet 的性能水准。

在下面这道 2024 年全国高中数学竞赛试题中，TeleAI-t1-preview 面对三角函数的复杂等式关系，通过多次假设尝试和思路纠偏，将原先的复杂等式抽丝剥茧，转化成简化的方程式，并经过逻辑清晰的公式推导后，最终给出了正确答案。

可以看出，TeleAI-t1-preview 在回答问题时并非只是给出结论，而是把思考和分析过程也完整呈现。这样可以帮助学生在做题过程中深入理解题目背后的逻辑和思考方法。

例如，在一道概率论考研试题中，题目涉及“泊松分布”概念。TeleAI-t1-preview 首先对这个概念进行了介绍和解读，然后给出解题思路和最终答案。

我国古代数学发展历史悠久，流传众多经典著作，但因其文言文表述，通常让人望而却步。不少大模型也会陷入沉思，无法作答。

将《九章算术》中的一道题目给到 TeleAI-t1-preview 后，它先针对文言文进行了理解和简化，转换成现代汉语，随之给出数学推导和答案。

在这个过程中，TeleAI-t1-preview 还将形象思维与抽象思维结合，对所涉及的场景进行具象化思考，辅助理解题目。同时，它还严谨地进行了古今单位换算，顺利过关。

如果说数学竞赛和考研题目还能符合人的正常思维方式，那么面对极度“烧脑”的策略推理问题时，以往的大模型往往会答非所问，被绕到“陷阱”中去。

以下面这道问题为例，光是理解游戏规则就已经很难了，更不用说从何下手给出答案了。然而，TeleAI-t1-preview 却“眼都没眨一下”就迅速破题，大胆假设，严谨分析。

TeleAI-t1-preview 在解题过程中，列出了对游戏规则的理解、场景道具分析、优劣势分析，并给出解题策略、验证有效性。不仅如此，它还考虑到了可能出现的特殊情况。

创新“训练”策略

保障“推理”有效

人类通向 AGI 的旅程正在经历一场范式的迭代。当已有的高质量数据正像化石能源一样日渐枯竭时，当人们依然在为大模型的“黑盒”特性而担忧时，复杂推理大模型的重要性日益显著。

针对 TeleAI-t1-preview 训练的不同阶段，TeleAI 引入了创新的训练策略，从而保障思考推理过程准确有效。

数据准备阶段： 收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集，确保模型能够适应不同类型的推理任务。 Judge Model（评估模型）： 训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性，为模型的反思和错误修正提供指导。 SFT（监督微调）阶段： 用 MCTS（蒙特卡洛树搜索）构造高质量长推理数据，结合每个步骤的准确率和解决方案长度来选择最优的完整路径，在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析，引导模型对错误的推理步骤进行反思和修正，从而构造出高质量的思维链数据进行 SFT 训练。 强化学习阶段：

额外构造了 Rule-based Reward Model（基于规则的奖励模型），以提供足够准确的奖励信号，通过在线强化学习算法进一步提升模型的逻辑推理能力。

直观呈现的思维链将帮助人们更清晰地追踪推理过程，方便验证推理正确性，从而使模型的可解释性和透明度大大提升。

TeleAI 将持续在推理模型领域研究探索，让人工智能基于人类的“已知”，推导出期盼得到的“未知”。

450美元训练一个「o1-preview」？UC伯克利开源32B推理模型Sky-T1，AI社区沸腾了

450 美元的价格，乍一听起来不算「小数目」。但如果，这是一个 32B 推理模型的全部训练成本呢？是的，当时间来到 2025 年，推理模型正变得越来越容易开发，且成本迅速降低到我们此前无法想象的程度。

1/12/2025 5:13:00 PM

机器之心

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

11/3/2024 9:37:53 AM

沛霖（实习）