中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

据介绍,TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。
感谢AI在线从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 现已正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

官方表示,在美国数学竞赛 AIME 2024 、MATH500 两项数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

评测显示,将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,其能够先针对文言文进行理解和简化,再转换成现代汉语,随之给出数学推导和答案。

图片

图片

据介绍,在此过程中,TeleAI-t1-preview 可将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。不仅如此,其还能够严谨地进行古今单位换算。

TeleAI 引入了创新的训练策略,从而保障思考推理过程准确有效。

  • 数据准备阶段:收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

  • Judge Model(评估模型):训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

  • SFT(监督微调)阶段:用 MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行 SFT 训练。

  • 强化学习阶段:额外构造了 Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

相关资讯

国产AI之光!TeleAI星辰大模型入选央企十大国之重器评选

近日,国务院国资委新闻中心发起“十大国之重器”年度盘点,从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器,诚邀广大网友评选“年度十大国之重器”。 由中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)打造的“全国产化万亿参数星辰大模型发布”光荣入选,成为国产AI的佼佼者,展现了中国电信在人工智能领域的领先地位。 星辰大模型,开启国产AI新时代星辰大模型,是由中国电信自主研发打造的全国产化万亿参数大模型,是国内AI技术的重大突破。

中国电信已在上海建成单集群的万卡智算资源池,智算规模达 13EFLOPS

中国电信昨天发布了中国电信 AI 产品升级计划和中国电信 AI 品牌标识,推出首批 AI 产品,并成立中国电信“美好家”产业生态联盟。中国电信总经理邵广禄今日在 2024 世界电信和信息社会日大会上介绍称,中国电信重点规划“2 3 7 N M”的智算布局,智算规模达到 13EFLOPS(IT之家注:每秒一百京,即 1018 次浮点运算)。目前,中国电信已在上海已建成单集群的万卡智算资源池; 在智算云能力方面已初步具备云骁、慧聚和息壤的三大能力平台,实现了智算算力的统一纳管、一站提供和异构调度的能力,智算云能力

央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据

2024 年伊始,中国电信开源星辰语义大模型- 7B,成为第一家开源大模型的央企。同时开源的还有超 1T 的高质量清洗基础数据。 随着新一轮科技革命和产业变革加速演进,拥抱 AI 成为中国电信当下发展的核心战略之一。2019 年,中国电信在原数据中心基础上成立大数据和 AI 中心。2023 年11 月,中国电信注资 30 亿元成「中电信人工智能科技有限公司」(以下简称中电信 AI 、 AI 团队),牵头打造中国电信 AI 核心技术。同月,中国电信发布千亿级星辰语义大模型。 开源项目链接地址