编辑 | 萝卜皮
粒子加速器的自主调节是一个活跃且具有挑战性的研究领域,其目标是实现先进的加速器技术和尖端的高影响力应用,例如物理发现、癌症研究和材料科学。但是,自主加速器调节仍然严重依赖经验丰富的熟练操作员的手动操作。
德国亥姆霍兹协会旗下 DESY(Deutsches Elektronen Synchrotron)的研究人员建议使用大型语言模型(LLM)来调整粒子加速器。
该团队通过一个原理验证示例展示了 LLM 仅根据操作员的自然语言提示来调整加速器子系统的能力,并将其性能与当前最先进的优化算法,如贝叶斯优化(BO)和强化学习训练优化(RLO),进行了比较。
LLM 可以对非线性现实目标进行数值优化,未来有望帮助加速将自主调谐算法部署到日常粒子加速器操作中。
该研究以「Large language models for human-machine collaborative particle accelerator tuning through natural language」为题,于 2025 年 1 月 1 日发布在《Science Advances》。
粒子加速器是一种精密的机器,旨在将电子和质子等亚原子粒子加速到极高的速度,通常接近光速。这些设备在各种应用中发挥着至关重要的作用,从物理学的基础研究到医学的实际应用,例如癌症治疗和材料科学。
随着这些不同应用的需求不断增长,对先进调谐和控制方法的需求也日益增加,以管理粒子加速的复杂动态。尽管如此,由于其复杂性,粒子加速器的调谐至今仍通常由经验丰富的操作员手动完成。
在此背景下,自主调谐方法的出现代表着一项重大进步。通过利用数值优化和机器学习(ML)领域的方法,自主系统有望加快加速器调谐程序,降低成本并最大限度地减少停机时间,同时还支持先进的操作模式以实现最先进的测量。
在最新的研究中,DESY 的研究人员介绍了一种使用 LLM 进行粒子加速器自主调谐的方法。
他们探究了当前最先进的 LLM 是否能够解决粒子加速器调谐任务,以及它们是否为当前最先进的粒子加速器调谐提供了一种有潜力的替代方案。
图示:使用 LLM 调整粒子加速器的优化方案流程图。(论文)
为此,研究人员比较了 14 种不同的 LLM(包括 Gemma、GPT 4、Llama 2 、Vicuna 7B 、Mistral、Starling-LM 等主流大模型的不同版本)和 4 种不同的提示模板(调整提示、解释提示、思路链提示和优化提示),并评估了基于 LLM 的方法与其他调谐算法(包括 RLO 和 BO)的比较。
图示:每个模型和提示的成功运行和试验的次数。(来源:论文)
考虑到 14 种不同的开放权重和商业 LLM 以及 4 种不同的提示的组合,研究人员发现 34 种 LLM 提示组合中只有 18 种能够成功实现本文中考虑的横梁参数调整任务的优化。
图示:LLM 运行良好和不良调节时的磁体设置和光束参数轨迹。(来源:论文)
虽然通常可以使用 LLM 进行加速器调优,但模型和提示的选择至关重要。与最先进的加速器调优算法相比,该团队进一步发现 LLM 暂时无法与 RLO 和 BO 竞争。
性能最佳的 LLM 提示组合,即 GPT 4 Turbo 与优化提示,实现了平均约 50% 的归一化光束改进,这仅为 RLO 和 BO 分别实现的约 99% 和 93% 的一半。
虽然 LLM 的性能没有达到竞争水平,但也会产生高昂的计算成本,从而导致推理时间长、金钱成本高以及对环境的影响显著。
图示:成功的调整运行次数、平均标准化 MAE 改进以及每个 LLM 相对于其大小、LMSYS Chatbot Arena ELO 评级、MMLU 分数、MT-bench 分数和 HellaSwag 分数的平均标准化累积 MAE。(来源:论文)
虽然这些明显的缺点意味着 LLM 还不是最先进的加速器调优算法的可行替代方案,但该团队的结果提供了一个有趣的概念证明。LLM 领域正在迅速发展,几乎每天都会发布更强大的模型。
该团队已经证明,更强大的模型通常在加速器调优任务上表现更好,这意味着 LLM 领域的必然进步也将带来更好的加速器调优任务表现。最终,这种发展可以使通过自然语言直观地部署自主加速器调优解决方案成为一种可行的选择。
图示:已评估提示的示例。(来源:论文)
团队认为在不久的将来 LLM 不会直接替代最先进的加速器调谐算法,而是会成为人类粒子加速器操作员的「副驾驶员」。它们可以为与加速器操作相关的各种任务提供自然语言界面,例如从日志中检索信息、生成报告或根据大量诊断测量结果诊断加速器的状态。
研究人员相信 LLM 还可用于在联合设置中协调最先进的加速器调整算法(例如 RLO 和 BO),从而决定或帮助操作员决定下一步调整加速器的哪个部分、使用哪种算法以及期望获得哪种结果。
此外,LLM 还可用于协助人类操作员部署最先进的调整算法,例如,通过响应有关期望结果的自然语言提示,提出 Xopt 配置或目标函数和合适的执行器。
从长远来看,让 LLM 直接执行调整的方法可以通过使用 ReAct 提示方案或使用 LLM 检查磁体设置(如 RLO 和 BO)在类似设置中是否合理来改进。
论文链接:https://www.science.org/doi/10.1126/sciadv.adr4173