陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

“也许很快OpenAI将能证明陶哲轩是错的。 ”好家伙！隔着屏幕都能闻到“硝烟”味了(bu shi~事情是这样的。

“也许很快OpenAI将能证明陶哲轩是错的。”

好家伙！隔着屏幕都能闻到“硝烟”味了(bu shi~

事情是这样的。数学大佬陶哲轩和OpenAI两位高管最近进行了一场线上对谈，主题为“The Future of Math with o1 Reasoning”，即以推理为主的o1模型如何与数学融合，从而解锁突破性的科学进步。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

其中陶哲轩认为，人擅长从非常少量的数据中推断出下一步该做什么，这是AI不擅长的领域。

但OpenAI高管Mark Chen针锋相对地指出，一旦OpenAI研究项目成功，人们将拥有非常高效的推理器，AI也能做数据稀疏推理，也许很快OpenAI将能证明陶哲轩是错的。

BTW，本次活动由Natalie Cone（创立并管理着OpenAI论坛）主持，除了2006年菲尔兹奖得主陶哲轩，还有OpenAI研究高级副总裁Mark Chen、以及OpenAI科学政策&合作伙伴关系负责人James Donovan。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

有意思的是，Ilya Sutskever（OpenAI前联创&首席科学家，右下角）去年也参加了这个活动，甚至当时Jakub Pachocki（OpenAI现任首席科学家，右上角）也在。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

鉴于直播内容较长，这里直接为大家奉上省流版：

AI可以将数学工作模块化，比如模式识别、形成猜想、验证等；
形式证明助手不可或缺，是进行数学研究和使用大语言模型之间的必要中间层；
论文是否给AI署名？当前AI的贡献仍难以界定；
目前对数学结果进行搜索的最好方式是众包，比如Math Overflow；
AI在竞赛中的表现，既出人意料，也低于陶哲轩预期；
……

话不多说，1小时嘉宾对谈+30分钟观众问答，干货这就整理出来了！

陶哲轩对谈OpenAI两位高管

先来看几位嘉宾这次都谈了哪些内容，大致分为以下几个方面：

AI在数学证明和发现方面的潜力
将AI融入传统数学研究所面临的挑战
AI在科学发现与创新中的逐渐演变的作用
AI系统与人类数学家之间的合作机会

以下为重点内容整理。

AI可以帮助同时推进成百上千个数学问题，思考也更深入了

James Donovan:你们目前在各自的研究领域中最关注哪些问题，以及为什么解决这些问题如此重要。

陶哲轩：我有很多想要解决的技术性数学问题。更贴近今天会议主题的是，我非常感兴趣——我们如何从根本上重塑数学，以及如何利用所有这些新工具以前所未有的方式进行协作，以前所未有的规模开展数学研究。

我认为这可能是一个新的发现时代。现在的数学家一次只研究一个问题，在一个问题上花费数月时间，然后再转向下一个问题。有了这些工具，我们可能可以同时扫描成百上千个问题，并进行不同类型的数学研究。我对这种可能性感到非常兴奋。

Mark Chen: 过去一年，我们的一个主要关注点是推理。不过自GPT-4以来，我们略微改变了关注点。

GPT-4包含了大量的原始知识，但它在很多方面也存在不足。它会被简单的谜题难倒，并且经常依赖于先验知识。如果它对一个谜题的解法有先验知识，它通常会犯同样的模式匹配错误。这些都表明模型在深度推理能力上的不足。

因此，我们一直专注于开发o系列模型。这些模型更像是系统2思考者，而不是系统1思考者。它们不会经常给出直觉的快速反应，而是在生成回应之前花一些时间思考问题。

我想强调我们研究议程中的另外两个关键问题：数据效率和如何为用户创造直观愉悦的体验。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI可以将数学工作模块化

James Donovan: Terry，你多次提到一种潜在的新型数学，也谈到过不同的数学合作方式，能否为我们详细解释一下？

陶哲轩: 数学一直被认为是一项非常困难的活动，现在也是如此。原因有很多，其中之一是我们依赖一个人或一小部分人来完成许多不同的任务以实现一个复杂的目标。

如果你想在数学上取得进展，你必须首先提出一个好问题，然后找到解决它的工具，学习文献，尝试一些论证，进行计算，检查论证以确保其正确性，然后以可以解释的方式将其写下来，然后你必须做报告，申请资助，还有很多其他的事情要做。这些都是不同的技能。但在其他行业，我们有劳动分工。

我认为现在我们有了这些工具，原则上你可以进行一种合作，其中一个人有远见，一个人或一个AI进行计算，然后另一个工具撰写论文等等。因此，你不需要一个人在所有方面都是专家。

我认为很多人因为看到成为一名优秀的数学家所需做的所有事情而感到气馁，这确实令人望而生畏。但也许有些人擅长查看数据和检查模式，然后要求AI检查这种模式是否存在。也许他们不擅长找到正确的问题，但他们可以在一个更大的项目中处理一些非常狭窄的特定部分。

我认为这些工具可以将数学工作模块化，一些任务由AI完成，一些任务由人类完成，一些任务由形式证明助手完成，一些任务由公众完成。在其他学科中，我们有公民科学，例如业余天文学家发现彗星，或业余生物学家收集蝴蝶。我们还没有一种方法可以利用业余数学家的力量，除了一些非常小的边缘项目。因此，我认为有很多潜力，我们必须尝试很多东西，看看哪些有效。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI与人类具体如何分工

James Donovan: Terence，你似乎默认假设人类仍然会划分任务，他们仍然对流程有足够的了解来决定谁做什么，你是否认为因此会出现不同的数学家角色，不同的专业方向？

陶哲轩: 我认为软件工程可以作为数学发展方向的模板。过去，可能有一位英雄般的程序员包揽一切，就像数学家一样。但现在，你有项目经理、程序员和质量保证团队等等。因此，我们可以想象在数学领域也这样做。

我现在参与了几个合作项目，它们既包含理论数学部分，也包含形式证明部分，还有人运行各种代码算法等等。它已经像我预期的那样专业化了。有些人不懂数学，但他们非常擅长形式化定理，对他们来说就像解决谜题一样。还有一些人擅长运行GitHub，进行项目管理，确保所有后端顺利运行，也有人做数据可视化等等。我们都在协调工作。

到目前为止，主要是人类和一些比较老式的AI类型，比如改进器，通常只是运行Python代码之类的东西。但我认为这是一个范式，一旦AI足够好，它将非常适合其中。

James Donovan: 你是否认为这些角色总是由人类担任，或者你是否看到了一个由o系列模型本身分解问题的未来？

Mark Chen: 我现在几乎把AI当作我的同事。有很多我不擅长的事情，我可以交给AI去做。我只是在推测，因为我不是数学家，但就AI在帮助解决数学问题方面的优势而言，首先可能是识别模式。机器非常擅长这一点，尤其是有大量数据或大量需要筛选的内容时。

我认为从识别模式开始，你可以开始形成猜想。我认为它们在这方面可能有独特的优势——提出证明策略。我认为今天人类仍然可能对前进的正确步骤有更好的直觉，但在特定步骤上可能存在盲点。我想上次我们提到了一种生成函数方法，一个模型在一个你试图解决的玩具问题中建议了这种方法，结果证明这在那种情况下其实还不错。

此外还有验证。模型可能能够验证你确信正确的某些步骤，但你只是想再找一双眼睛来确认。也许还有生成反例。如果你想考虑一个定理可能是错误的许多潜在方式，一个模型可能能够比你更有效地穷举这些可能性。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

形式证明助手不可或缺

James Donovan: 你们都提到了定理证明器和形式化的作用，是否可以公平地说，你们都认为这是进行数学研究和使用大语言模型或同等技术之间的必要中间层？

陶哲轩: 基本上是的。证明必须是正确的。数学证明的特点是，如果一个证明有100个步骤，其中一个步骤是错误的，那么整个证明就可能崩溃。AI当然会犯所有这些错误。有一些类型的数学可以接受一定的错误率，就像Mark说的，比如寻找模式，寻找猜想。

如果有AI只有50%的正确率，但你有其他方法来检查它，那么也没关系。特别是如果它想输出一个论证，那么强制AI以类似Lean的形式输出是一个非常自然的协同作用。如果它编译成功，那就太好了；如果没有，它会返回一条错误消息，并更新它的答案。

人们已经实现了这一点，他们可以用这种迭代技术证明一些简短的证明，但这还远没有达到你可以问它一个高级数学问题，它就能输出一个巨大证明的程度。

AlphaFold可以用3天的计算时间做到这一点，但它无法扩展。对于某些软性任务，可以接受正错误率，你不需要形式证明助手。但对于任何真正复杂的、一个错误就可能传播的任务，它基本上是不可或缺的。

Mark Chen: 在OpenAI，我们在不同的时期或多或少地关注形式化数学。我认为今天我们做的少了一些，主要是因为我们想探索更普遍的推理。我们确实希望你在计算机科学等领域学到的推理与你在数学等领域学到的推理非常相似。所以我当然理解进行形式化数学的优势。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

数学家的“失败”是AI宝贵的训练数据

James Donovan: 即使在训练过程中，可能有很多不正确的解决方法没有进入训练模型，因为数学家通常不会发布和纠正错误的东西，这对于更广泛的科学领域也是如此。你们两位认为这会产生很大的影响吗？我们是否应该努力推动人们也发布失败的答案？

陶哲轩: 我认为这是一个好主意。鼓励这样做很困难，人们不喜欢承认自己的错误。但这对AI来说可能是非常宝贵的训练数据。

当我教课时，有时最有效的课是偶然发生的，我准备了一个证明，然后在课堂上讲，结果证明是错的，我必须实时修改它。课堂上看到我尝试各种方法，比如，如果我改变这个假设，这个例子可能会有效。后来我得到了反馈，说那些是我最宝贵的课。那是因为我犯了错误。我认为这些数据在很大程度上是你们无法获得的。

事实上，许多领域专家的专业知识是建立在几十年错误的基础上的，这些错误教会了他们什么不该做，即负空间。随着我们转向更正式的环境，我认为这方面开始有所改变。

现在，我们在证明完成后对其进行形式化。最终，我们将达到在进行过程中进行形式化的程度。我们可能在思考数学问题时与AI对话，并尝试在进行过程中将步骤形式化。然后，也许它行不通，你必须回溯等等。这将自然地创建一些我们现在没有的数据。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI可能为数学带来新的灵感

James Donovan: 许多数学家都谈到定理的美妙之处，以及所有元素都契合在一起并能优雅地表达出来的那种顿悟时刻。我们是否有可能在使用此类工具时失去这种认知过程？

陶哲轩: 当计算器普及时，也出现了类似的情况。人们总是说，既然你不用手工计算，你就会失去你的数感。在某种程度上，这是真的。我可以想象，100年前的数学家在从直接计算中获得数感方面要好得多。但是，你也可以通过使用计算器获得不同类型的数感。

所以我认为会出现不同类型的审美标准。我认为会有一些计算机生成的证明，它们以不同的方式同样非常优雅和惊人。但我认为，至少在未来几十年里，人工智能范式不会完全取代人类。

我认为数学家在某种程度上比较慢，我们仍然使用粉笔黑板。所以会有人仍然会精心设计非常精彩的证明。未来会有一类数学家，他们会将AI生成的数学转化为更人性化的东西。我认为这在未来会很常见。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI已经在实际教学中成功运用，最重要的是学会结合

James Donovan: 在我的生物学领域，人们倾向于认为这些模型会在原本看似无关的事物之间找到模式，你会发现所有事物之间潜在的统一性。

这种想法基于这样一个观点：有很多唾手可得的成果，只是我们还没有注意到。而我认为对于数学和物理学的部分领域来说，改进几乎就在于活动的开展方式，我们感觉这可能存在根本上的不同。所以你们是否认为这将对我们如何教育人们学习数学，特别是如何支持那些将要进行前沿数学研究的人产生影响？

陶哲轩: 学生们已经在使用大语言模型，最明显的是帮助他们完成作业，但也可以从不同的角度看待一个主题。

教育工作者也在想办法将大语言模型融入我们的教学中。一个越来越普遍的做法是，提出一些数学问题或其他领域的问题，给出GPT的答案，然后说这个答案是错的，请评论它。或者与AI进行对话，并实际教它如何修改答案。

实际上有一个班级，他们做了一个小组项目，老师发了一份练习期末考试卷，然后说，请尝试用提示工程和数据分析来训练AI，弄清楚如何最有效地教会AI解决期末考试题，他们做到了。他们让一组做提示，一组做基准测试等等。但这同时也迫使他们，例如，为了生成所有数据，为了生成模拟考试，他们必须真正理解课堂材料才能做到这一点。

所以这实际上是一个借口，让他们深入研究，学习课堂材料以及如何使用这些AI工具。所以我们会找到创新的方法来结合这两种方法。

Mark Chen: 你认为过度依赖AI工具会导致数学技能下降或洞察力丧失吗？

陶哲轩: 我认为这将是一种转变。我们将更少地使用某些技能，但我们将更多地培养其他技能。

国际象棋就是一个很好的例子。国际象棋现在基本上是一个已解决的问题，但人们仍然经常下棋。但他们练习国际象棋的方式现在已经大不相同了。他们尝试不同的走法，然后问国际象棋引擎，这是个好棋吗？例如，国际象棋理论正在蓬勃发展，许多关于棋盘哪个部分值得控制的百年格言正在被重新评估，因为人类会向国际象棋引擎提出各种问题。这是一种获得国际象棋直觉的不同方式，而不是传统的只是下很多棋和阅读很多教科书的方法。

所以，这将是一个转变，一种权衡，但我认为最终是积极的。

Mark Chen: 当人们问我应该如何适应新兴的人工智能时，我仍然认为，基本上没有必要突然放弃学习任何特定学科。我认为人们应该拥抱人工智能，看看它如何能让他们更有效率。

在数学领域，它可以帮助你进行大量的繁琐计算。如果这是一些你已经了如指掌的例行公事，你可以让模型进行操作。我仍然认为对一个学科有非常深入的理解是很重要的。即使在今天的机器学习领域，那些正在影响最大变化的人也是那些非常了解数学或系统的人。

我认为人类有一种与数学核心相联系的特殊审美。而且，由于其他人也在评判这种审美，模型在定义问题和拥有品味方面可能更难模仿。当然，数学本身就是一项很好的技能。我认为它具有很强的可迁移性，它教会你稳健的推理，我认为数学家通常适应性很强。

所以，绝对没有理由不大量投资于数学。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

用AI辅助证明只是加速了已经发生的趋势

James Donovan: 如果模型在做非常复杂的数学，我们可能会达到一个地步，即它超出了人类在我们的环境中验证或理解的能力。你们两位是否认为这在不久的将来是可能的？如果是，如何应对？

陶哲轩: 事实上，现在就已经出现数学家有时会产生没有人能理解的巨大证明的情况。人们已经在使用大量的计算机辅助。

有一些证明需要TB级别的证明证书，因为其中包含大量的SAT求解器计算或一些大型数值建模。还有一些证明是建立在数百篇文献的基础上的，我们将这些先前的结果视为黑匣子，没有人能理解所有内容。所以我们在某种程度上已经习惯了这一点。

我们可以将一个复杂的证明划分成多个部分，你只需要理解其中一部分，然后相信计算机或人类能够理解其他部分，并且它们都能正常工作。这种情况会继续发生，所以我们将会有大型复杂的论证，其中一部分将由AI生成，希望也能进行形式化验证。

我认为这是一种趋势，它只是加速了已经发生的趋势，我不认为这是一个真正的相变。

Mark Chen: 我担心的很多问题是类似的，比如你可能会有一些错误传播，或者其他人建立在某个结果之上，而你只是建立在一些错误的数学之上。特别是如果计算机生成的新见解的数量增加的话。

我们在OpenAI非常关注的一个问题是更普遍的可扩展监督问题。这个想法是，当一个模型花了大量时间思考，并得出了某种根本性的见解，你如何知道模型没有犯错？你如何知道它是正确的？你如何相信它？从根本上说，这确实是一个非常现实的问题。

它在几年前可能还比较理论化，但我认为今天的模型确实有能力解决非常困难的问题。那么，我们如何审查并相信问题得到了正确的答案呢？

James Donovan: 数学是我们有机会解决这个问题的唯一领域，因为我们有形式化验证，这也可以自动完成。

陶哲轩: 是的，你希望这方面的进展最终能促进所有其他科学的进步。如果我们能找到一种方法，从这些数学证明推导到物理、化学等等。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

数学生态会更加适应AI，但短期内变化不明显

James Donovan: 数学的实际生态系统会发生变化以适应大语言模型吗？如果是，会如何变化？

陶哲轩: 它会的。很难准确预测它将如何变化。

我认为会出现一些现在不流行的新型数学，因为它们在技术上是不可行的。特别是实验数学是一个非常小的部分，我认为像95%是理论性的，这在所有科学家中是不寻常的。

通常，实验和理论之间是平衡的。但是实验很难，你必须非常擅长编程。或者你的任务必须足够简单，你可以用一个普通的软件来自动化它，这是数学家可以编程的范围内的。但是有了AI，你可以做更复杂的探索。

传统上，你可能会研究一个微分方程，但你可能会问AI，这是对这个微分方程的分析，现在对列表中的500个方程重复相同的分析。这是你现在无法用传统工具自动化的事情，因为你需要软件对问题有一些理解。

所以我认为数学的类型会改变。现在已经有一种趋势是变得更加协作，这将随着AI的发展而加速。但我认为至少在未来一二十年里，我们仍然会写论文、审稿、教学等等。我认为这不会是一个重大的变化，我们会越来越多地在我们的工作中使用人工智能，就像我们已经在其他方面越来越多地使用计算机辅助一样。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI的贡献仍难以界定

James Donovan: 能否设想一个我们将突破直接归功于大语言模型本身的世界？那意味着什么？

陶哲轩: 这将是一个我们必须面对的大问题。我认为我们目前的论文作者模式，比如在科学领域，我们可能有一位主要作者，然后是一大堆次要作者。数学家还没有这样做，我们仍然按姓氏字母顺序排列，在很大程度上，我们忽略了谁做了什么的问题，我们只是说，我们都做出了同等的贡献。

我认为我们将不得不更精确地界定贡献。现在已经有这样一种趋势，至少在科学领域，当你写一篇论文时，会有一部分是关于作者贡献的，谁做了什么。如果是GitHub，你可以查看GitHub提交，这也会给你一些数据。

所以，一旦你知道一半的提交是由AI完成的，等等，就会出现一个问题：你是否真的将AI提升为共同作者，或者你是否至少在致谢中提到它？我们还没有这方面的规范。我们需要解决这个问题，会有一些测试案例和一些争议，最终会制定出对每个人都有效的方案。但我没有这个问题的答案。

Mark Chen: 我认为还有一个相关的问题，虽然不完全相同，那就是访问权限的问题。如果模型继续贡献大量的证明块，那么那些拥有更多计算资源的人，他们在数学研究方面是否处于更有利的地位？这绝对是需要思考的问题。我不太清楚该如何沿着这条思路继续思考，但它确实是一个难题。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI打破了技术壁垒，以后不懂数学也可以进行研究

James Donovan: 对本身不是数学家的人来说，如果我们能够真正加速基础数学的发展，你预计会看到世界上发生什么？这会为社会其他部分带来什么？

陶哲轩: 我认为这可以增加公民对数学的参与。可以想象，例如人们争论地球是圆的还是平的，令人惊讶的是，这个问题仍然存在。但是在AI中，你可以实际开始构建模型，你可以假设地球是平的，天空会是什么样子等等。

现在，在你弄清楚事物会发生多大的变化之前，你需要相当多的数学知识。但你可以想象，有了这些模型工具，它实际上可以为你创建一个可视化工具，你可以看到，这就是这个宇宙理论的样子。

所以我认为这可以将数学与许多目前感到被排除在外的人联系起来，因为他们只是缺乏进行这门学科任何研究所需的纯粹技术技能。

James Donovan: 你是否认为我们需要更好地进行这种数学研究，才能在其他应用科学领域使用AI？例如加速工程、物理或……

陶哲轩: 很多科学已经以数学为基础，如果你不懂数学，你无法在没有数学的情况下进行准确建模。当然，在后端，如果你想训练AI，你需要大量的数学。

我认为我们可能会进入一个这样的世界：你可以成为一名生物学家或其他什么，你可以要求AI进行统计研究，你不需要知道参数的确切细节。如果AI足够可靠，它实际上可以为你完成所有数学工作。所以它可以使数学成为科学的可选条件，而现在不是这样。所以它可以双向运作。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

数学家需灵活应对AI，知道如何玩AI很重要

James Donovan: 你对年轻数学家有什么建议？他们应该关注哪些领域，应该解决哪些类型的问题？

陶哲轩: 我的建议是他们必须灵活。我认为数学正变得越来越技术化，越来越协作。也许50年前，你可以专攻数学的一个子领域，几乎不与其他数学家互动，你就可以以此为生。现在这基本上是不可行的。我认为数学是一个更大的生态系统的一部分，这是一件好事。

有了AI，它可以开启比以前认为可能的更广泛的合作。你可以与你实际上没有专业知识的领域的科学家合作，但AI可以帮助你快速入门，并在科学家之间充当通用翻译器。

所以，要保持开放的心态，也要认识到这些工具也有局限性。你不能盲目地使用这些工具，你仍然需要培养自己的人类技能，这样你才能监督AI。它不是魔杖。

James Donovan：根据你所看到的趋势，你会鼓励学生现在学习哪些技能，以便将来能够充分利用这些模型？

Mark Chen: 老实说，我们仍然需要技术领域的专家，他们能够与这些工具很好地协同工作。我喜欢保持灵活的总体建议。我认为对各个领域的人来说，至少了解神经网络如何工作、如何训练、它们的动态是什么样的，以及它们的局限性是什么，这将非常有帮助。

我认为，人们玩得越多，越了解如何加速它们，他们就越有效率。我认为每个人的效率都会有一个乘数效应。也许几年后，这个乘数有望显著大于1，但我认为有效利用AI工具的人总体上会比那些对它视而不见的人更有效率。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI在竞赛中的表现既出人意料，也低于预期

James Donovan: 听说模型最近在国际数学奥林匹克竞赛有白银级别的表现，你对进展速度感到惊讶吗？

陶哲轩: 它既超出了我的预期，也低于我的预期。

在任何可以生成类似任务数据的任务中，例如国际数学奥林匹克竞赛，DeepMind生成了大量的模拟证明，实际上是大量的模拟失败证明，这实际上是他们秘密的一部分。所以很多我原以为几年内都无法完成的任务现在都完成了。

另一方面，每当你超越有数据存在的范围，进入一个研究级问题，世界上只有10个人真正认真思考过这个问题，AI工具仍然没有那么有用。我有一个我现在仍在进行的项目，我们正在证明2000万个小型数学问题，而不是证明一个大问题。我认为这是一项AI非常适合的任务，因为如果它们能够处理一定比例……

但事实证明，在这个项目研究的所有问题中，也许99%可以用更传统的蛮力计算方法处理，而1%需要人工干预，这相当困难。已经尝试过的AI可以恢复99%的相当容易的问题，但它们并没有对真正具有挑战性的核心问题做出贡献。这可能只是目前技术水平的体现。

所以，我认为在看到它们自主解决这些研究级问题之前，还需要有更多的突破。

Mark Chen: 我想讲一个我脑海中的轶事，它既说明了这一点的令人印象深刻，又说明了仍有进步空间。

我们今年也用我们的o系列模型参加了国际信息学奥林匹克竞赛。一方面，它们确实需要每个问题的大量样本。我们在博客文章中宣布，你需要每个问题10000个样本来从模型中提取金牌水平的表现。这感觉很多，但同时，它能够做到这一点就已经让我感到难以置信了。其中一些是非常反模式的问题。

所以它就在那里。我真的很兴奋能真正发挥出这种能力。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

AI不擅长在稀缺数据中推理，OpenAI新研究有望解决

James Donovan: 你需要看到哪些类型的推理，才能认为你可以使用AI解锁一些目前它们难以解决的更具挑战性的问题，即较小的子集问题？

陶哲轩：我绝对认为AI解决问题是一种非常互补的方式，它是一种非常数据驱动的问题解决方式。

正如你所说，对于某些任务，它实际上比人类做得更好。我们正在学习的是，我们对某些任务难度的认知必须重新校准，因为我们没有尝试使用数据驱动的方法来解决某些类型的问题。但有一些问题是不可判定的。任何数量的数据都无法实际解决某些问题，我们可以实际证明它们无法被证明。

我的意思是这不是AI的强项，但如果你想让AI真正像人类那样在解决数学问题上竞争，它们需要在数据稀缺的环境中进行推理，你需要研究一个新的数学对象，你只知道关于它的五六个事实，一些少量的例子。也许它与其他一些已知的数学对象有非常模糊的类比，你必须从非常少量的数据中推断出下一步该做什么。

这是AI不擅长的领域，也许它完全是错误的，我认为试图强迫AI这样做就像是用错误的工具来完成一项任务。这是人类真正擅长并且非常有效的事情，所有那些蛮力检查、案例分析和综合，以及寻找它们不擅长的模式。

所以认为智力是一个一维的尺度，并且哪一个更好，人工智能还是人类，这可能是一个错误。我认为你应该把它们视为互补的。

Mark Chen: 如果我们的研究项目成功，我们将拥有非常高效的数据稀疏推理器。所以，希望我们能证明你是错的，Terence。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

构建AI技术交流平台很重要

James Donovan: 如果你俩明天被任命为大学校长，并获得了一些有意义的预算，你会建立一个什么样的部门？你会投资哪些基础设施来真正利用这些新技术？

陶哲轩: 这是一个好问题。我可以想象拥有一些集中的计算机资源来运行你可以自己调整的本地模型等等。这有点难，技术变化如此之快，以至于现在对任何特定硬件或软件的投资可能在几年后就不那么重要了。

所以你可以将来自不同学科的很多人聚集在一起，共同找出使用这些技术的方法的地方。我的意思是，我们已经开发了很多这样的技术中心类型的东西。但我认为它必须非常自由，因为技术是如此不可预测。我们需要不同的部门互相交流，看看协同作用在哪里。

Mark Chen: 我只会给出一个非常简短的答案。我认为OpenAI正在做正确的事情。建造一台非常大的计算机，让我们弄清楚如何将这台计算机变成智能。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

观众问答环节

目前对数学结果进行搜索的最好方式是众包

1号观众Eduardo：我是一名训练有素的数学家，现在也从事AI方面的工作，大约50年了。

35或40年前，我正式通过我的同事要求美国数学学会提出一项大规模的数学项目，类似于物理学家当时的超级对撞机。我说，让我们计算机化，让我们用某种统一的语言建立一个基本数学定理的数据库，这样人们就可以很容易地引用和找到这些东西。但我被拒之门外，他们觉得我疯了，是个怪人。

但现在我们显然处于一个可以开始这样做的局面。所以我的问题是，你认为在三五年后，是否有能力通过某种学习，可能是某种基于注意力的类型，通过嵌入的内容、相互关联的内容来识别模式，从而真正做到这一点？

你知道我在说什么，对数学进行语义搜索将会非常棒。

陶哲轩: OpenAI实际上已经做了一些这方面的工作。我做了一些实验，比如，如果你有一个定理，你认为你知道它的名字，或者你认为你大概知道它是什么，但你不记得它的名字，所以你不能直接在搜索引擎中输入。你可以用非正式的术语向大语言模型描述它，它通常可以告诉你。

对于隐藏在arXiv上20篇论文中的更晦涩的结果，我们目前还没有这种能力。这是一个很好的问题，我向很多我交谈过的机器学习领域的人提出了这个问题：有没有什么方法可以提取出一个数学结果的本质并对其进行搜索？目前最好的方法是众包，你去一个问答网站，比如Math Overflow。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

在重要问题上，目前更鼓励搜索而非AI模型

2号观众Lizzie：我目前是斯坦福大学的一名医学生，研究神经科学，如果你不介意的话，可以称之为真正的神经网络。我正在尝试使用我仍在学习的大语言模型或AI模型来进行AI药物发现。

我遇到了一个技术问题，我住在旧金山，我想在这个周末去旧金山歌剧院。我在ChatGPT中输入并问它，卡门什么时候上映，因为那是卡门的演出时间表。然后ChatGPT告诉我星期六可以去。所以我去了那里，没有演出，只有星期天下午2点。

那么，有了这个技术难题，我该如何在进行AI药物发现时更谨慎地信任或使用这个系统呢？我不知道答案，我无法检查，而且它会有更长远的影响。

Mark Chen: 实际上，我鼓励你今天尝试将模型与搜索一起使用。我认为现在有一些方法可以让模型浏览并将模型的响应基于真实的输出源。所以，如果你今天使用搜索，它会引用特定的网站或特定的来源，以反映事实。

我认为未来版本的搜索将会非常精确，它们会告诉你这些网站中可以找到答案和参考的位置。但我今天会鼓励你尝试使用搜索进行相同的查询。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

数学与其他学科一直是双向的

3号观众Danny：我在加州大学伯克利分校获得了数学学士学位，然后直到大约6个月前，我还是威斯康星大学人工智能科学专业的博士生，现在我在法学院学习人工智能和法律相关的主题。

我做过很多不同的事情，我想问Tao教授的问题是，我知道历史上数学理论是先发展的，然后其他领域的研究人员，尤其是物理学或化学或其他领域的研究人员会将该理论应用到他们的问题中。

现在，随着人工智能成为如此重要的事情，你是否看到有任何反馈？我知道在物理学中，人们大量使用机器学习来模拟偏微分方程的计算解，而这些是无法用传统方法解决的。你是否看到数学家从其他领域获得了任何新的理论见解？特别是考虑到我们现在可以生成更多的数据。

陶哲轩: 数学一直是双向的。我的意思是有一些物理学家的发现，数学家无法解释，然后他们不得不发展数学理论。狄拉克发明了一种叫做狄拉克δ函数的东西，根据正统数学，它不是一个函数。我们不得不扩展我们对函数的定义。它一直是双向的。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

OpenAI未来可能整合全部工作流

4号观众Ashish: 我在微软担任产品经理，我为AI构建无代码平台。我的问题是，我想描述一下我在工作中用来写东西、做事情的工作流程。我使用OpenAI进行深度思考，思考我正在研究的任何主题，然后我使用Perplexity进行研究，最后，这些是我浏览器上的不同标签页，我最终使用带有Canvas的Perplexity将所有内容整合在一起。

所以，这是一个人工策划的工作流程。我想知道将来是否有更简单的方法来做到这一点。

Mark Chen: 这是一个非常好的问题。我在之前的回答中稍微提到过这一点，现在有很多模型，今天之所以会让人感到困惑，部分原因是OpenAI一直被当作是研究预览版。我们只是想向世界展示更高级的推理能力。我们会让它变得不那么混乱。我想你想把所有东西都整合在一起，让它变得非常无缝。

再次重申，很难承诺具体日期，但我认为你的工作流程会变得简单很多。

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

……

以上为本次对话主要内容，更多细节可以回看原视频。

回看地址：https://www.youtube.com/watch?v=kO192K7_FaQ

{{userData.name}}已认证

陶哲轩对谈OpenAI高管：AI也能做数据稀疏推理，“也许很快OpenAI就能证明陶哲轩是错的”

陶哲轩对谈OpenAI两位高管

AI可以帮助同时推进成百上千个数学问题，思考也更深入了

AI可以将数学工作模块化

AI与人类具体如何分工

形式证明助手不可或缺

数学家的“失败”是AI宝贵的训练数据

AI可能为数学带来新的灵感

AI已经在实际教学中成功运用，最重要的是学会结合

用AI辅助证明只是加速了已经发生的趋势

数学生态会更加适应AI，但短期内变化不明显

AI的贡献仍难以界定

AI打破了技术壁垒，以后不懂数学也可以进行研究

数学家需灵活应对AI，知道如何玩AI很重要

AI在竞赛中的表现既出人意料，也低于预期

AI不擅长在稀缺数据中推理，OpenAI新研究有望解决

构建AI技术交流平台很重要

观众问答环节

目前对数学结果进行搜索的最好方式是众包

在重要问题上，目前更鼓励搜索而非AI模型

数学与其他学科一直是双向的

OpenAI未来可能整合全部工作流

掌握多云：AI工作负载的简单成本优化技巧

OpenAI的12天王炸计划：技术狂欢还是资本闹剧？

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践