偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

本文提出的 Poseidon 在样本效率和准确率方面都表现出色。偏微分方程(PDEs)被称为物理学的语言,因为它们可以在广泛的光阴 - 空间标准上对各种各样的物理现象从事数学建模。常用的有限差分、有限元等数值要领通常用于近似或模拟偏微分方程。然而,这些要领计算成本高昂,特别是对于多查询问题更是如此,因而人们设计了各种数据驱动的机器进修(ML)要领来模拟偏微分方程。其中,算子进修( operator learning)算法近年来受到越来越多的关注。然而,现有的算子进修要领样本效率并不高,因为它们需要大量的训练样例才能

本文提出的 Poseidon 在样本效率和准确率方面都表现出色。

偏微分方程(PDEs)被称为物理学的语言,因为它们可以在广泛的光阴 – 空间标准上对各种各样的物理现象从事数学建模。常用的有限差分、有限元等数值要领通常用于近似或模拟偏微分方程。

然而,这些要领计算成本高昂,特别是对于多查询问题更是如此,因而人们设计了各种数据驱动的机器进修(ML)要领来模拟偏微分方程。其中,算子进修( operator learning)算法近年来受到越来越多的关注。

然而,现有的算子进修要领样本效率并不高,因为它们需要大量的训练样例才能以期望的准确率进修目标解算子(如图 1 所示)。这阻碍了算子进修的广泛使用,因为通过数值模拟或底层物理系统的测量来生成特定恣意的训练数据非常昂贵。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

研究者不禁提出,如何才能显著减少 PDE 进修所需的训练样本数量?

来自苏黎世联邦理工学院等机构的研究者提出了 Poseidon,这是一种用于进修 PDE 解算子的基础模型。该模型基于多标准 operator transformer,可实现连续光阴评价。

研究者将 Poseidon 在大规模数据集上从事了预训练,然后对其从事评价。具体而言,他们在 15 项具有挑战性的下流恣意上对 Poseidon 从事了评价,这些恣意涵盖线性和非线性、光阴相关以及椭圆、抛物线、双曲线和混合型 PDE。

结果表明,Poseidon 在样本效率和准确率方面都远远超过基线,展现出优异的性能。

Poseidon 还可以很好地泛化到预训练期间未见过的物理学问题。此外,Poseidon 可以根据模型和数据大小从事扩大,无论是预训练还是下流恣意。总结来看,本文展示了 Poseidon 的惊人能力,它能够在预训练期间从非常小的一组 PDE 中进修有效表示,从而很好地扩大到下流未见过和不相关的 PDE,证明了其作为有效通用 PDE 基础模型的潜力。

这些结果首次肯定了 PDE 基础模型的可行性这一基本问题,并为进一步开发和部署 Poseidon 作为高效的通用 PDE 基础模型铺平了道路。 

最后,Poseidon 模型以及底层预训练和下流数据集都是开源的。 

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

论文地址:https://arxiv.org/pdf/2405.19101

项目地址:https://github.com/camlab-ethz/poseidon

论文标题:Poseidon: Efficient Foundation Models for PDEs

要领介绍

问题描述:该研究将偏微分方程表示为:

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

然后假设偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳,可以得到与光阴无关的 PDE 的解:

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

模型架构。Poseidon(图 1 和图 2)包括:i)可扩大的 Operator Transformer 或 scOT,这是一种具有(移位)窗口或 Swin 注意力机制的多标准视觉 transformer,适用于算子进修;ii)一种新颖的 all2all 训练策略;iii)以及一个开源大型预训练数据集。

其中 scOT 是一种具有前置光阴条件的分层多标准视觉 transformer,用来处理前置光阴 t 和函数空间值初始数据输入 a,以近似 PDE (2.1) 的解算子 S (t, a)。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

接着如图 2 (a) 所示,研究者通过 SwinV2 transformer 块对 patch 嵌入的输出从事处理,每个 transformer 块的结构表示为偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳,得到:

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

通过在 (2.3) 中引入前置光阴条件层范数,该研究提出了一种光阴调节策略。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

最后,如图 2 (a) 所示,SwinV2  transformer 块在 U-Net 类型的编码器 – 解码器架构中以层级多标准方式排列,通过使用 patch 合并(下采样)和 patch 扩大(上采样)操作完成。

实验结果

预训练数据:研究者提供了包含 6 个算子的数据集,详细信息如下所示。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

下流恣意:研究者在 15 个具有挑战性的下流恣意上从事了实验,如表 4 所示。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

模型:本文考虑了三种不同的 Poseidon 模型:i) Poseidon-T ≈ 21M 个参数,ii) Poseidon-B ≈ 158M 个参数,iii) Poseidon-L ≈ 629M 个参数。

实验结果显示,Poseidon 在 15 个下流恣意中都表现良好,明显优于 FNO( Fourier Neural Operator )(参考论文中的图 7 – 图 21,这里只展示图 7 )。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

表 1 进一步支持了这一点。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

从表 9 可得,平均而言,Poseidon-L 仅需要 20 个样本即可达到 FNO 的 1024 个样本的缺点,并且在 13 个(15 个)恣意中,Poseidon-L 所需的样本比 FNO 少一个数量级。同样,从表 1 和表 9 中可以看到,对于相同数量的样本,Poseidon-L 的缺点明显低于 FNO,增益范围从 10% 到 25 倍不等 ,此外,Poseidon 可以很好地泛化到未见过的物理恣意。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

从表 1 和表 9 可以观察到,在 15 项下流恣意中,Poseidon 在 14 项上的表现明显优于 CNO-FM。平均而言,CNO-FM 需要大约 100 个特定于恣意的示例才能达到 FNO 的 1024 个样本的缺点水平,而 Poseidon 只需要大约 20 个。由于 CNO-FM 和 Poseidon 已在完全相同的数据集上从事了预训练,因此这种性能差异很大程度上可以归因于架构差异,因为 CNO-FM 基于多标准 CNN,而 Poseidon 的主干则是多标准视觉 transformer。

从图 22 可以看出,随着 Poseidon 模型大小的增加,预训练数据集上的训练和评价(验证)错误都明显减少。

偏微分方程有了基础模型:样本需求数量级减少,14项恣意表现最佳

了解更多结果,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

大模型的高考数学成绩单:及格已经非常好了

2024-6-11 0:38:00

应用

具身智能赋能机器人,「AI+人形机器人」论坛在浦东新区成功举行

2024-6-11 0:53:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索