编辑 | ScienceAI
2023 年 11 月,风波「夏兰」(Ciarán)袭击欧洲西北部,造成严重破坏。与风波 Ciarán 相关的低压系统为英格兰创下了新纪录,这是一次极为罕见的气象事件。
那场风波的强度让许多人措手不及,暴露了当前气象预告模型的局限性,并突显出面对气候变化需要更正确的猜测。当大家努力应对后果时,一个紧迫的问题出现了:我们如何才能更好地猜测和准备应对这种极端气象事件?
最近的一项研究表明,即使是最先进的 AI 气象猜测模型在捉拿风波 Ciarán 的快速增强和峰值风速方面也面临的挑战。
为了帮助应对这些挑战,微软研究团队开发了首个大气 AI 底子模型 Aurora,基于超过一百万小时的各种气象和气候数据从事训练。
Aurora 提出了一种新的气象预告方法,它可以改变我们猜测和减轻极端事件影响的能力,包括可能猜测像 Ciarán 风波这样的事件的急剧升级。
在不到一分钟的时间内,Aurora 就可以生成 5 天的全球空气污染猜测和 10 天的高分辨率气象预告,其体现优于最先进的传统仿照工具和最好的专业深度学习模型。这些结果表明底子模型可以改变环境猜测。
灵活的大气 3D 底子模型
图 1:Aurora 是一个 13 亿参数的底子模型,用于高分辨率气象和大气过程预告。Aurora 是一个灵活的 3D Swin Transformer,具有基于 3D Perceiver 的编码器和解码器。在预训练时,Aurora 经过优化,以最大限度地减少具有不同分辨率、变量和压力水平的多个异构数据集的损失。然后分两个阶段对模型从事微调:(1) 对预训练权重从事短时间微调和 (2) 使用低秩自适应 (LoRA) 从事长时间 (推出) 微调。然后部署经过微调的模型来处理不同分辨率的各种运营猜测场景。
Aurora 的有效性在于它对超过一百万小时的各种气象和气候仿照从事了训练,这使其可能全面了解大气动力学。这使得该模型可能在广泛的猜测任务中体现出色,即使在数据稀疏的地区或极端气象场景中也是如此。
Aurora 以 0.1°(赤道处约 11 公里)的高空间分辨率运行,可以捉拿大气过程的复杂细节,提供比以往更正确的运行预告,而且计算成本仅为传统数值气象预告系统的一小部分。据估计,与最先进的数值预告系统综合预告系统 (IFS) 相比,Aurora 的计算速度可提高约 5,000 倍。
除了令人印象深刻的正确性和效率之外,Aurora 还因其多功能性而脱颖而出。该模型可以猜测各种大气变量,从温度和风速到空气污染水平和温室气体浓度。Aurora 的架构旨在处理异构的黄金标准输入,并以不同的分辨率和保真度生成猜测。
该模型由一个灵活的 3D Swin Transformer 和基于感知器的编码器和解码器组成,使其可能处理和猜测一系列跨空间和压力水平的大气变量。通过在大量不同数据上从事预训练并针对特定任务从事微调,Aurora 学会了捉拿大气中复杂的模式和结构,即使在针对特定任务从事微调时训练数据有限,它也可能体现出色。
大气化学和空气污染的快速猜测
图 2:Aurora 在许多目标上的体现优于运营中的 CAMS。(a) Aurora 对总柱状二氧化氮的样本猜测与 CAMS 分析的比较。Aurora 于 2022 年 9 月 1 日 00 UTC 使用 CAMS 分析初始化。由于大气气体的空间异质性,正确猜测大气气体极具挑战性。特别是,与 CAMS 中的大多数变量一样,二氧化氮在人为排放量较大的地区(例如东亚人口稠密的地区)偏向高值。此外,它体现出强烈的昼夜循环;例如,阳光通过称为光解的过程降低背景水平。Aurora 正确捉拿了极端值和背景值。(b) Aurora 相对于 CAMS 的纬度加权均方根误差 (RMSE),其中负值(蓝色)表示 Aurora 更好。RMSE 是在 2022 年 6 月至 2022 年 11 月期间计算的。Aurora 在 74% 的目标上与 CAMS 相当或优于 CAMS。
Aurora 多功能性的一个典型例子是它可能使用哥白尼大气监测服务 (CAMS) 的数据猜测空气污染水平,这是一项众所周知的艰巨任务,因为大气化学、气象模式和人类活动之间相互作用复杂,而且 CAMS 数据具有高度异构性。
通过利用其灵活的编码器-解码器架构和注意机制,Aurora 可以有效地处理和学习这些具有挑战性的数据,捉拿空气污染物的独特特征及其与气象变量的关系。这使 Aurora 可能以 0.4° 的空间分辨率生成正确的五天全球空气污染预告,在 74% 的所有目标上的体现优于最先进的大气化学仿照,展示了其非凡的适应性和解决各种环境猜测问题的潜力,即使在数据稀疏或高度复杂的场景中也是如此。
数据多样性和模型缩放优化大气猜测
这项研究的一项重要发现是,与在单个数据集上从事训练相比,在不同的数据集上从事预训练可以显著提高 Aurora 的功能。通过整合来自气候仿照、再分析产品和运营预告的数据,Aurora 可以学习更稳健、更通用的大气动力学表示。正是由于其规模和多样化的预训练数据语料库,Aurora 可能在广泛的任务和分辨率中超越最先进的数值气象预告模型和专门的深度学习方法。
图 3:对不同数据从事预训练并增加模型大小可提高功能。(a) 在不同数据集配置(即无微调)上预训练的模型(标记为 C1-C4)在 6 小时提前时间与 ERA5 2021 相比的功能。均方根误差 (RMSE) 由 ERA5 预训练模型的功能归一化 (C1)。添加来自 CMIP6(即 CMCC 和 IFS-HR)的低保真仿照数据几乎可以均匀地提高功能 (C2)。添加更多仿照数据可以进一步提高大多数表面变量和此新添加数据中存在的大气水平的功能 (C3)。最后,配置 C4 可以很好地覆盖整个大气层,还包含来自 GFS 的分析数据,从而实现最佳整体功能,全面提升。(b) 对许多不同的数据源从事预训练可以提高 IFS-HRES 2022 所有表面变量在 6 小时提前期内对极值的猜测。此外,结果也适用于风速,它是 10U 和 10V 的非线性函数。(c) 更大的模型在相同数量的 GPU 小时数下获得更低的验证损失。我们拟合了一个幂律,大致相当于模型大小每增加一倍,训练损失就会减少 5%。
Aurora 的规模(无论是在架构设计和训练数据语料库方面,还是在预训练和微调协议方面)的直接结果是,它的功能优于当下最好的专业深度学习模型。
为了进一步验证对在许多数据集上预训练的大型模型从事微调的优势,研究人员将 Aurora 与 GraphCast 从事了比较——仅在 ERA5 上从事预训练,目前被认为是分辨率为 0.25 度、交付周期长达五天的最熟练的 AI 模型。
此外,该团队在本次比较中加入了 IFS HRES,这是数值气象预告的黄金标准。结果表明,Aurora 在与分析、气象站观测和极值从事衡量时均体现优异。
图 4:Aurora 在绝大多数目标上的体现优于操作型 GraphCast。(a) Scorecard 与 GraphCast 在 0.25 度分辨率下的对比。在 94% 的目标上,Aurora 的体现与 GraphCast 相当或优于 GraphCast。在高层大气中,Aurora 比 GraphCast 的增益最大 (40%),而 GraphCast 在这方面的体现众所周知较差。在短时间和长交付周期内,可以观察到高达 10%-15% 的大幅改进。在 2-3 天交付周期内,这两个模型在低层大气中彼此最接近,这对应于 GraphCast 推出时微调的交付周期。同时,GraphCast 在长达五天的时间内以及在特定湿度 (Q) 的大多数水平上都体现出略微更好的功能。(b) 2022 年全球气象站测量的 Aurora、GraphCast 和 IFS-HRES 的风速(左侧两个面板)和地表温度(右侧两个面板)的均方根误差 (RMSE) 和平均绝对误差 (MAE)。(c) Aurora、GraphCast 和 IFS-HRES 的阈值 RMSE,由 IFS-HRES 功能归一化。Aurora 对表面变量分布的极值或尾部的猜测有所改善。在每个图中,中心线右侧的值是发现高于阈值的目标的累积 RMSE,左侧的值表示低于阈值的目标值。
地球系统建模的范式转变
Aurora 的意义远远超出了大气猜测。通过展示底子模型在地球科学中的威力,这项研究为开发涵盖整个地球系统的综合模型铺平了道路。
底子模型在数据稀缺的下游任务中体现出色,可以使发展中国家和极地等数据稀缺地区可能民主化地获取正确的气象和气候信息。这可能会对农业、交通、能源收集和灾害防备等领域产生深远影响,使社区可能更好地适应气候变化带来的挑战。
随着基于人工智能的环境猜测领域的发展,研究人员希望 Aurora 能成为未来研究和开发的蓝图。这项研究强调了多样化的预训练数据、模型扩展和灵活的架构在构建强大的地球科学底子模型方面的重要性。
随着计算资源和数据可用性的不断进步,科学家可以预见未来,像 Aurora 这样的底子模型将成为运营气象和气候猜测系统的支柱,为全球决策者和公众提供及时、正确和可操作的见解。
参考内容:https://www.microsoft.com/en-us/research/blog/introducing-aurora-the-first-large-scale-foundation-model-of-the-atmosphere/