除了模仿人类说话、写作、写代码,大模型还能用来发觉新知识。
作为今年 AI 圈的顶流,大型语言模型(LLM)擅长的是拉拢概念,并且可以通过阅读、理解、写作和编码来帮助人们办理成绩。但它们能发觉全新的知识吗?
由于 LLM 已被证明存在「幻觉」成绩,即生成与事实不符的信息,因此利用 LLM 来做可验证的正确发觉是一项寻衅。
现在,来自 Google DeepMind 的研讨团队提出了一种为数学和计算机迷信成绩搜索办理方案的新要领 ——FunSearch。FunSearch 的工作原理是将预训练的 LLM(以计算机代码的形式提供创造性办理方案)与主动「评估器」配对,以防止产生幻觉和错误思路。通过在这两个组件之间来回迭代,最初的办理方案演变成了「新的知识」。相关论文发表在《自然》杂志上。
论文地址:https://www.nature.com/articles/s41586-023-06924-6
这项工作是首次利用 LLM 在迷信或数学的寻衅性开放成绩方面取得新发觉。
FunSearch 发觉了 cap set 成绩的全新办理方案,这是数学中一个长期存在的开放成绩。此外,为了展示 FunSearch 的实际用途,DeepMind 还用它来发觉更有效的算法来办理「装箱」成绩,该成绩应用广泛,比如可以用于提高数据中心的效率。
研讨团队认为 FunSearch 将成为一个特别强大的迷信工具,因为它输入的法式揭示了其办理方案是如何构建的,而不仅仅是办理方案是什么。这将会激发迷信家的进一步见解,从而形成迷信改进与发觉的良性循环。
通过语言模型的退化推动发觉
FunSearch 采用由 LLM 支持的退化要领,鼓励并推动得分最高的思路设法主意。这些设法主意被表达成计算机法式,以便它们可以主动运行和评估。
首先,用户需要以代码的形式编写成绩的描绘。该描绘包括评估法式的历程和用于初始化法式池的种子法式。
FunSearch 是一个迭代历程,在每次迭代中,系统都会从当前的法式池中选择一些法式,并将其馈送到 LLM。LLM 创造性地在此基础上进行构建,生成新的法式,并主动进行评估。最好的法式将被添加回现有法式库中,从而创建一个自我改进的循环。FunSearch 运用 Google 的 PaLM 2,但对其他接受过代码训练的要领兼容。
LLM 会从法式数据库中检索出生成的最佳法式,并被要求生成一个更好的法式。
众所周知,在不同畛域发觉新的数学知识和算法是一项艰巨的任务,很大程度上超出了当前最先进人工智能系统的能力。为了让 FunSearch 做到这一点,该研讨引入了多个关键组件。FunSearch 不是从头开始,而是从关于成绩的常识开始一个退化历程,让 FunSearch 专注于寻找最关键的设法主意以获得新的发觉。
此外,FunSearch 的退化历程运用一种策略来提高设法主意的多样性,以避免出现停滞情况。最后,为了提高系统效率,退化历程是并行运行的。
在数学畛域开辟新天地
DeepMind 表示,他们首先要办理的是 Cap set 成绩,这是一个开放性难题,几十年来一直困扰着多个研讨畛域的数学家。知名数学家陶哲轩曾把它描绘为自己最喜欢的开放性成绩。DeepMind 选择与威斯康星大学麦迪逊分校的数学教授 Jordan Ellenberg 合作,他是 Cap set 成绩的重要突破者。
这个成绩包括在一个高维网格中找到最大的点集(称为 cap set),其中没有三个点位于一条直线上。这个成绩之所以重要,是因为它可以作为极值拉拢学中其他成绩的模型。极值拉拢学研讨的是数字、图或其他对象的集合可能有多大或多小。暴力破解要领无法办理这个成绩 —— 要考虑的可能性数量很快就会超过宇宙中原子的数量。
FunSearch 以法式形式生成的办理方案在某些情况下发觉了有史以来最大的 cap set。这代表了过去 20 年中 cap set 规模的最大增长。此外,FunSearch 的性能超过了最先进的计算求解器,因为这个成绩的规模远远超出了它们目前的能力。
交互式图表显示了从种子法式(上)到新的高分函数(下)的演变。每个圆圈都代表一个法式,其大小与分配给它的分数成正比。图中仅显示底部法式的上级。FunSearch 为每个节点生成的相应函数如右侧所示。
这些结果表明,FunSearch 技术可以让人类超越困难拉拢成绩的既定结果,而在这些成绩上很难建立直觉。DeepMind 期望这种要领能够在拉拢学中类似理论成绩的新发觉中发挥作用,并在未来为通信理论等畛域带来新的可能性。
FunSearch 偏好简洁、可由人类理解的法式
尽管发觉新的数学知识本身意义重大,但与传统的计算机搜索技术相比,FunSearch 要领还展现出了其他的优势。这是因为,FunSearch 并不是一个只会生成成绩办理方案的黑箱。相反,它生成的法式会描绘出这些办理方案是如何得出的。这种「show-your-working」通常是迷信家的工作方式,他们通过阐述产生新发觉或新现象的历程来解释这些发觉或现象。
FunSearch 更倾向于寻找高度紧凑的法式所代表的办理方案,即具有较低 Kolmogorov 复杂度的办理方案(Kolmogorov 复杂度是输入解的最短计算机法式的长度)。简短的法式可以描绘非常大的对象,从而使 FunSearch 能够扩展到非常复杂的成绩。此外,这也让研讨人员更容易理解 FunSearch 的法式输入。Ellenberg 说:「FunSearch 为制定攻击策略提供了一种全新的机制。FunSearch 生成的办理方案在概念上要比单纯的数字列表丰富得多。当我研讨它们时,我学到了一些东西。」
更重要的是,FunSearch 法式的这种可解释性可以为研讨人员提供可操作的见解。例如,DeepMind 在运用 FunSearch 的历程中注意到,它的一些高分输入的代码中存在耐人寻味的对称性。这让 DeepMind 对成绩有了新的认识,他们利用这种认识改进了引入 FunSearch 的成绩,从而找到了更好的办理方案。DeepMind 认为,这是人类与 FunSearch 在数学畛域的许多成绩上进行合作的典范。
左图:通过检查 FunSearch 生成的代码,DeepMind 获得了更多可操作的见解(高亮部分)。右图:运用(更短的)左图法式构造的原始「可接受」集合。
办理一个众所周知的计算难题
在理论 cap set 成绩取得成功的鼓舞下,DeepMind 决定将 FunSearch 应用于计算机迷信中一个重要的实际寻衅 —— 装箱成绩(bin packing),以探索它的灵活性。装箱成绩关注的是如何将不同尺寸的物品打包到最少数量的箱子中。它是许多现实世界成绩的核心,从装载物品的集装箱到数据中心的计算工作分配,这些场景都需要最大限度地降低成本。
在线装箱成绩通常运用基于人类经验的算法规则(启发式)来办理。但是,要为每种特定情况(大小、时间或容量各不相同)找到一套规则是非常具有寻衅性的。尽管与 cap set 成绩非常不同,但为这个成绩设置 FunSearch 很容易。FunSearch 提供了一个主动定制的法式(适应数据的具体情况),优于现有的启发式要领 —— 可以运用更少的箱子来打包相同数量的物品。
运用现有启发式 ——Best-fit 启发式(左)和 FunSearch 发觉的启发式(右)进行装箱的示例。
像在线装箱这样的复杂拉拢成绩可以运用其他人工智能要领来办理,比如神经网络和强化学习。这些要领也被证明是有效的,但也可能需要大量的资源来部署。另一方面,FunSearch 输入的代码易于检查和部署,这意味着它的办理方案有可能被应用到各种现实工业系统中,从而迅速带来效益。
DeepMind:用大模型应对迷信寻衅将成普遍做法
FunSearch 证明,如果能防止 LLM 产生幻觉,那么这些模型的力量不仅可以用来产生新的数学发觉,还可以用来揭示重要现实成绩的潜在办理方案。
DeepMind 认为,对于迷信和工业畛域的许多成绩 —— 无论是长期存在的成绩还是新成绩 —— 运用 LLM 驱动的要领生成有效和量身定制的算法将成为普遍做法。
其实,这仅仅是一个开始。随着 LLM 不断取得进展,FunSearch 也将不断完善。DeepMind 表示,他们还将努力扩展其功能,以应对社会上各种紧迫的迷信和工程寻衅。
参考链接:https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/