360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

应用
12月14日
编辑

故渊

“360 智脑”官方公众号昨日（12 月 13 日）发布博文，宣布推出 360 自研 AI 大模型 360gpt2-o1，推理能力显著提升，在数学和逻辑推理任务上表现出色。

感谢“360 智脑”官方公众号昨日（12 月 13 日）发布博文，宣布推出 360 自研 AI 大模型 360gpt2-o1，推理能力显著提升，在数学和逻辑推理任务上表现出色。

该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，并在多项权威评测中取得了优异成绩。

在多项基础数学评测（如 MATH、高考数学）以及权威数学竞赛（包括 AIME24、AMC23）中，360gpt2-o1 均取得了显著的成绩，不仅超越了前代模型 360gpt2-pro，也优于 GPT-4o 模型。

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

在数学竞赛评测中，360gpt2-o1 超过了阿里巴巴最新开源的 o1 系列模型 QWQ-32B-preview。AI在线附上该模型整体架构如下：

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

优化合成数据

该模型通过指令合成、质量 / 多样性筛选等方法，解决了高质量数学与逻辑推理数据稀缺的问题，有效扩充了训练数据集。

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

模型后训练

该模型采用两阶段训练策略，先用小模型生成多样化的推理路径，再用大模型进行 RFT 训练和强化学习训练，提升模型推理能力和反思纠错能力。

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

“慢思考”范式

利用蒙特卡洛树搜索探索多样化解决方案，并引入 LLM 进行错误验证和纠错，模拟人类逐步推理和反思的过程，最终形成包含反思、验证、纠错和回溯的长思维链。

360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

给TA打赏

共{{data.count}}人

人已打赏

谷歌 NotebookLM 新功能上线：用户可与 AI 主播进行互动

2024-12-14 10:21:18

马斯克旗下 xAI 宣布新版 Grok-2 模型向 𝕏 平台所有用户免费提供

2024-12-14 11:24:08

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

微信公众号后台新增“AI 配图”功能
12月2日
TOP2

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP3

Kubernetes +大模型：CAST AI解决成本难题
12月2日
快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了
12月2日
关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
电信行业调查：AI成2025年首要投资领域
12月2日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部