360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

“360 智脑”官方公众号昨日(12 月 13 日)发布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力显著提升,在数学和逻辑推理任务上表现出色。
感谢“360 智脑”官方公众号昨日(12 月 13 日)发布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力显著提升,在数学和逻辑推理任务上表现出色。

该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,并在多项权威评测中取得了优异成绩。

在多项基础数学评测(如 MATH、高考数学)以及权威数学竞赛(包括 AIME24、AMC23)中,360gpt2-o1 均取得了显著的成绩,不仅超越了前代模型 360gpt2-pro,也优于 GPT-4o 模型。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

在数学竞赛评测中,360gpt2-o1 超过了阿里巴巴最新开源的 o1 系列模型 QWQ-32B-preview。AI在线附上该模型整体架构如下:

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

优化合成数据

该模型通过指令合成、质量 / 多样性筛选等方法,解决了高质量数学与逻辑推理数据稀缺的问题,有效扩充了训练数据集。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

模型后训练

该模型采用两阶段训练策略,先用小模型生成多样化的推理路径,再用大模型进行 RFT 训练和强化学习训练,提升模型推理能力和反思纠错能力。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

“慢思考”范式

利用蒙特卡洛树搜索探索多样化解决方案,并引入 LLM 进行错误验证和纠错,模拟人类逐步推理和反思的过程,最终形成包含反思、验证、纠错和回溯的长思维链。

360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限

相关资讯

20 年前的古董微软 Xbox 360 游戏机成功运行 Llama2.c AI 模型:搭三核 PowerPC 处理器、512MB RAM

X 平台博主 Andrei David 发文,宣布其成功在一台拥有 20 年历史的厚版 Xbox 360 游戏机上安装并运行了一款特制的 Llama2.c AI 模型。

照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF

2020 年,加州大学伯克利分校、谷歌的研究者开源了一项 2D 图像转 3D 模型的重要研究 ——NeRF。它可以利用几张静态图像生成多视角的逼真 3D 图像,生成效果非常惊艳:

周鸿祎自称“开源信徒”:宣布将开源 360 智脑 7B 模型,支持 50 万字长文本输入

感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B(70 亿参数模型),支持 360k(50 万字)长文本输入。周鸿祎表示,前段时间大模型行业卷文本长度,100 万字“很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”,信奉开源的力量。据介绍,360 智脑长文本能力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈到了小模型的优势:其认为小模型速度快、用户体验也好,单机单卡就能跑,具备更高的性价比。目前,360AI 浏览器已向用户免