中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

编辑 | XX 射线叠层干系衍射成像(X-ray ptychography)是一种理论上能够实现衍射极限分辨率的干系衍射成像手艺,已广泛应用于材料、生命、半导体、能源等多种迷信范畴研讨。新一代同步辐射光源可提供高干系度和高亮度的X射线,推动干系成像手艺向高通量多维度方向发展,使得 ptychography 在大体积样本的精细结构研讨和功能表征方面具有极佳的应用前景。然而,新的尝试模式与应用场景带来了海量数据在线解析的手艺挑战,单次尝试的原始衍射图谱数据量可达 PB 量级,成为第四代同步辐射光源上迷信尝试的最大数据源

中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

编辑 | X

X 射线叠层干系衍射成像(X-ray ptychography)是一种理论上能够实现衍射极限分辨率的干系衍射成像手艺,已广泛应用于材料、生命、半导体、能源等多种迷信范畴研讨。

新一代同步辐射光源可提供高干系度和高亮度的X射线,推动干系成像手艺向高通量多维度方向发展,使得 ptychography 在大体积样本的精细结构研讨和功能表征方面具有极佳的应用前景。然而,新的尝试模式与应用场景带来了海量数据在线解析的手艺挑战,单次尝试的原始衍射图谱数据量可达 PB 量级,成为第四代同步辐射光源上迷信尝试的最大数据源之一。此外,其相位恢复问题也是同步辐射数据处理范畴最为困难的问题之一。

人工智能方法作为大数据分析和处理的利器,保持了传统算法的优势,并且突出体现了在海量尝试数据在线分析方面的能力。

作为一种相对耗时的扫描成像手艺,ptychography 的主要目标之一是实现实时分析。但是目前传统的 ptychography 重修算法很难实现在线重修的需求。研讨团队基于卷积神经搜集,提出了分组卷积的神经搜集解码器结构,使得搜集的训练以及重修速度更快,重修效果更好。神经搜集可以学习从衍射图到真实物体的映射过程。得益于未来光源数据体量和质量的进一步提升,搜集规模、参数量、训练数据量将进一步增加,给搜集的性能以及泛化能力带来提升。

中国迷信院高能同步辐射光源(HEPS)光束线软件团队开发了一个名为 PtyNet 的卷积神经搜集框架,用于从 X 射线 Ptychography 尝试数据中恢复出物体的精确投影。在富强的计算集群的支持下,PtyNet 可以快速地从同步辐射光源获取数据举行训练,并快速地对用户的尝试数据举行图像重修。

中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

图 1

该研讨以「An efficient ptychography reconstruction strategy through fine-tuning of large pre-trained deep learning model 」为题,于 2023 年 11 月 9 日发表在 iScience。

中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

论文链接:https://doi.org/10.1016/j.isci.2023.108420

由于不同尝试数据所恢复的目标物体不同,团队还引入了微调方略对搜集参数举行进一步优化。无监督的微调方略使搜集拥有更富强的泛化能力和更高的重修分辨率。同步辐射光源可以为搜集提供足够的数据量以得到一个更富强的预训练模型。即使对于一个未出现在搜集内的新样品,搜集也可以成功地举行重修(图2)。

中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

图 2

未来,该团队将继续举行将卷积神经搜集应用于 X 射线干系成像范畴的研讨。利用微调以及大模型的方略,开发出一个干系成像的大模型。模型自身可以识别出不同的成像任务并且给出恢复结果。用户只需输入少量线站参数即可举行实时重修。

面对未来 EB 量级数据的挑战,HEPS 正在积极推动「大型迷信软件框架 + AI for Science」的创新科研范式,并建立了一支专业的迷信软件团队,开展尝试控制、大数据采集与处理、人工智能、前沿学科算法、多尺度图像处理与数据挖掘等跨范畴研讨,为建设「智慧光源」奠定了基础。

给TA打赏
共{{data.count}}人
人已打赏
理论

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

2023-11-20 12:09:00

理论

开源多模态调理根蒂根基模型RadFM,首次支持2D/3D喷射影象输出

2023-11-20 17:15:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索