AI在线 AI在线

月之暗面Kimi开源数学定理证明模型Kimina-Prover

作者:AI在线
2025-04-17 09:01
Kimi 技术团队近日发布了 Kimina-Prover 预览版的技术报告,并开源了1.5B 和7B 参数的模型蒸馏版本、用于数据生成的 Kimina-Autoformalizer-7B 模型以及修订过的 miniF2F 基准测试数据集。 Kimina-Prover 是由 Numina 和 Kimi 团队联合研发的一款数学定理证明模型,它在形式化定理证明领域采用了一种新颖的、由推理驱动的探索范式,展现出极佳的性能。 Kimina-Prover 基于 Qwen2.5-72B 模型,并结合 Kimi k1.5的大规模强化学习(RL)流程进行训练。

 Kimi 技术团队近日发布了 Kimina-Prover 预览版的技术报告,并开源了1.5B 和7B 参数的模型蒸馏版本、用于数据生成的 Kimina-Autoformalizer-7B 模型以及修订过的 miniF2F 基准测试数据集。Kimina-Prover 是由 Numina 和 Kimi 团队联合研发的一款数学定理证明模型,它在形式化定理证明领域采用了一种新颖的、由推理驱动的探索范式,展现出极佳的性能。

Kimina-Prover 基于 Qwen2.5-72B 模型,并结合 Kimi k1.5的大规模强化学习(RL)流程进行训练。在权威的 miniF2F 形式化数学基准测试中,Kimina-Prover 预览版以更低的采样预算(pass@8192)达到了80.7% 的通过率,显著超越了之前的最佳结果:BFS Prover 的72.95%(pass@2048×2×600+)和 DeepSeek-Prover 的50.0%(pass@65536)。

微信截图_20250417082955.png

形式化定理证明是数学和计算机科学领域的一个重要方向,它应用严格的数学逻辑和计算机程序来验证数学定理的正确性。然而,让 AI 掌握形式化证明极具挑战,传统方法往往难以应对复杂、需要深刻洞察力和创造力的数学问题。近年来,大语言模型(LLM)的兴起为这一领域带来了新的希望,但现有方法大多存在局限,如依赖外部搜索、难以捕捉深度推理、缺乏模型规模效应等。

为了克服这些局限,Kimina-Prover 采用了新的路径,将大规模强化学习(RL)与“形式化推理模式”深度结合,直接优化模型生成完整证明的内部“策略”。这种方法使得模型能够在生成 token 的过程中隐式地探索庞大的证明空间,自主地导航推理路径,极大地降低了计算开销,并赋予了模型更灵活、更接近人类直觉的探索方式。此外,Kimina-Prover 还引入了基于最终结果的奖励信号,强化学习的训练过程是目标导向的,只有完全正确、能通过编译的证明才能获得正奖励。

Kimina-Prover 的初步研究成果取得了显著进展。在 miniF2F 基准测试中,Kimina-Prover 达到了80.7% 的通过率,显著超越了之前的最佳结果。它还展现出极高的样本效率,即使在极少采样次数下也能取得有竞争力的结果。此外,Kimina-Prover 的性能随着模型参数规模的增大而持续提升,这是首次在形式化数学领域的神经定理证明器中观察到如此明确的规模效应。与顶尖的通用推理大模型相比,Kimina-Prover 在形式化数学任务上展现出压倒性优势,能够稳定生成形式正确、可通过 Lean 编译器检查的证明。

Kimina-Prover 的思考过程具有很高的可解释性,用户可以查看模型是如何一步步推导出证明的,这为理解模型行为、诊断失败原因提供了便利,也使其具备成为数学教育辅助工具的潜力。研究团队表示,Kimina-Prover 的性能能够随着模型规模和上下文长度的增加而显著扩展,初步验证了“基于推理的神经证明器”的潜力。这种结合了大规模强化学习和类人推理模式的方法,将为自动化推理乃至通用人工智能(AGI)的发展开辟新思路。

为了推动社区的参与和研究进展,Kimi 技术团队开源了 Kimina-Prover 的1.5B 和7B 参数的蒸馏版本,用于数据生成的 Kimina-Autoformalizer-7B 模型,以及修订过的 miniF2F 基准测试数据集。

  • Arxiv 技术报告:https://arxiv.org/abs/2504.11354

  • GitHub 代码库:‍https://github.com/MoonshotAI/Kimina-Prover-Preview‍

  • Hugging Face 模型下载:https://huggingface.co/collections/AI-MO/kimina-prover-preview-67fb536b883d60e7ca25d7f9

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与
3/19/2021 11:23:00 AM
机器之心

院士、委员、专家共议“双智建设”:场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施,已经成为日常生活中随处可见的元素。2021年,住建部和工信部将16个城市列为双智试点城市,探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路?双智的未来该走向何处?这些问题成为当前双智行业关注的重点。近日,由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“,共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研
3/15/2022 4:10:00 PM
新闻助手