数学 - AI在线

数学大一统的惊人胜利！天才数学家用30年破解不可能，边看《星战》边写论文

一个与「数学大一统理论」相关的领域，一项长期以来被视作几乎不可能的数学证明，如今取得了突破。在历经30年的努力后，数学家们证明了这个数学构想——几何Langlands Program。著名数学家、Max Planck研究所的Peter Scholze（菲尔兹奖得主，他没有参与这项证明）兴奋地表示：看到它得到解决真是太好了。

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。

科大讯飞宣布完成星火深度推理大模型X1全面升级

科大讯飞宣布其深度推理模型 —— 星火 X1进行全新升级。本次升级旨在提升其在数学、医疗、教育等多个领域的应用能力，带来了一系列亮点和创新。星火 X1的数学能力得到了显著提升，尤其是在处理竞赛级难题方面的表现。

斯坦福华人博士生打破58年僵局！牛顿提出的亲吻数问题有了新突破

牛顿想出的“球体亲吻数”（kissing number）难题，华人学者取得新进展。 n维空间中，给定一个n维球体，最多有几个相同的球体可以与它接触而不重叠？斯坦福博士生Anqi Li在微软实习期间完成这项研究，导师Henry Cohn本意是让她用计算机辅助，她却创造性地找到了数学上的新解法。

超越国际数学奥林匹克金牌得主：谷歌 DeepMind AI 系统展现超强几何解题能力

谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛（IMO）几何问题方面取得了突破性进展，其表现甚至超过了平均金牌得主。

数学真理的极限在哪里？希尔伯特第十问题扩展版得到证明

数学世界充满了无法触及的角落，那里存在着许许多多无法解决的问题。现在，又一个角落被照亮了。 1900 年，著名数学家大卫・希尔伯特（David Hilbert）公布了一份清单，其中包含 23 个关键问题，并希望以此指导下个世纪的数学研究。

Exa CEO：我们处于AGI疯狂前夜，码农迎来“天堂”时代，最受冲击的是数学家

AGI前夜的思考Exa公司CEO Will Bryk，在目睹o3模型的进展后，分享了他对AGI未来的一些想法，以下是他社媒上的帖子整理：AGI真的来了这周我和几个朋友聊了聊o3模型，他们的反应基本都是“我的天，这真的发生了吗？ ”是的，它真的发生了。接下来的几年将会非常疯狂，这将是历史性的，甚至是星际级的事件荒谬的是，目前还没有关于AGI的深度讨论。

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

12天最后一天，OpenAI下一代推理模型o3真的出世了！奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍正如所爆料那样，突如其来的o3成为整场直播的「压轴菜」。奥特曼表示，之所以跳过o2，是因为对伙伴的尊重，以及延续OpenAI一贯「起名特别差」的传统。

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

今年5月，由9位数学家组成的团队宣布取得重大突破——他们用总共800多页的论文，基于过去将近30年坚持不懈的努力，证明了几何朗兰兹猜想（Langlands conjecture）。论文共同作者之一Lin Chen现任清华大学丘成桐数学科学中心助理教授几何朗兰兹猜想的证明解决了一个巨大的开放问题，而且有望影响未来数十年的研究，因为它可能建立深刻的、意想不到的联系。更令人兴奋的是，这并不是2024年唯一的重大进展。

三名高中生重新证明百年数学定理！只用课余时间、方法非常创新

3名高中生，只用课余时间，重新证明了100年前的数学定理。不只是圆，你可以在门格海绵（Menger Sponge）中找到任何一个数学结（knot）！你可能对门格海绵还比较陌生，它是Karl Menger（卡尔·门格尔）在1926年创建的一个非常有趣的概念，对现代数学、图形学等领域都很重要。

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

陶哲轩最新力作，在“自然数倒数之和是否为有理数”问题上取得一系列进展。其中最引人瞩目的一项成果，就是证明了一个非常反直觉的猜想，居、然、是、对、的：存在一个递增的自然数级数ak，使得对任意有理数t，都是有理数。（）一位Topos研究所的数学物理学家John Carlos Baez在评论区毫不掩饰自己的惊叹：哇哦，这个结论太反直觉了！

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

让大模型集体吃瘪，数学题正确率通通不到2%！获大神卡帕西力荐，大模型新数学基准来势汹汹——一出手，曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。所以，新挑战者到底啥来头？

通义千问开源Qwen2-Math，成为最先进的数学专项模型

8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。注：在MATH基准测评中，通义千问数学模

Qwen2-Math 开源 AI 模型发布：阿里通义千问家族新成员，数学能力超 GPT-4o

感谢阿里通义千问 Qwen2 开源家族迎来新成员 Qwen2-Math，共有 15 亿参数、70 亿参数和 720 亿参数三个版本，是基于 Qwen2 LLM 构建、专门用于数学解题的语言模型。简介Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，其数学能力显著超越了开源模型，甚至超过了闭源模型（如 GPT-4o），官方希望为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。性能团队在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

为什么人工智能可以给数学带来革命性变化

编辑 | 白菜叶「提出一个猜想——一个被怀疑为真的命题，但需要明确的证明——对数学家来说就像是神圣灵感的时刻。数学猜想不仅仅是有根据的猜测。制定它们需要天才、直觉和经验的结合。即使是数学家也很难解释自己的发现过程。然而，与直觉相反，我认为这是机器智能最初最具变革性的领域。」英国伦敦数学科学研究所所长 Thomas Fink 说。2017 年，伦敦数学科学研究所的研究人员开始将机器学习应用于数学数据，作为一种爱好。在 COVID-19 大流行期间，他们发现简单的人工智能（AI）分类器可以预测椭圆曲线的排名——衡量其复

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

合成数据持续解锁大模型的数学推理潜力！数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的语言模型（LLaMA-2-7B）在数学问题解决方面已经展现出较强的潜力，并可使用基于合成数据的有监督微调方法促使模型愈发

数学