中国科学院团队利用AI大模型训练技术解决同步辐射海量数据处理

编辑 | XX 射线叠层相干衍射成像(X-ray ptychography)是一种理论上能够实现衍射极限分辨率的相干衍射成像技术,已广泛应用于材料、生命、半导体、能源等多种科学领域研究。新一代同步辐射光源可提供高相干度和高亮度的X射线,推动相干成像技术向高通量多维度方向发展,使得 ptychography 在大体积样本的精细结构研究和功能表征方面具有极佳的应用前景。然而,新的实验模式与应用场景带来了海量数据在线解析的技术挑战,单次实验的原始衍射图谱数据量可达 PB 量级,成为第四代同步辐射光源上科学实验的最大数据源

中国科学院团队利用AI大模型训练技术解决同步辐射海量数据处理

编辑 | X

X 射线叠层相干衍射成像(X-ray ptychography)是一种理论上能够实现衍射极限分辨率的相干衍射成像技术,已广泛应用于材料、生命、半导体、能源等多种科学领域研究。

新一代同步辐射光源可提供高相干度和高亮度的X射线,推动相干成像技术向高通量多维度方向发展,使得 ptychography 在大体积样本的精细结构研究和功能表征方面具有极佳的应用前景。然而,新的实验模式与应用场景带来了海量数据在线解析的技术挑战,单次实验的原始衍射图谱数据量可达 PB 量级,成为第四代同步辐射光源上科学实验的最大数据源之一。此外,其相位恢复问题也是同步辐射数据处理领域最为困难的问题之一。

人工智能方法作为大数据分析和处理的利器,保持了传统算法的优势,并且突出体现了在海量实验数据在线分析方面的能力。

作为一种相对耗时的扫描成像技术,ptychography 的主要目标之一是实现实时分析。但是目前传统的 ptychography 重建算法很难实现在线重建的需求。研究团队基于卷积神经网络,提出了分组卷积的神经网络解码器结构,使得网络的训练以及重建速度更快,重建效果更好。神经网络可以学习从衍射图到真实物体的映射过程。得益于未来光源数据体量和质量的进一步提升,网络规模、参数量、训练数据量将进一步增加,给网络的性能以及泛化能力带来提升。

中国科学院高能同步辐射光源(HEPS)光束线软件团队开发了一个名为 PtyNet 的卷积神经网络框架,用于从 X 射线 Ptychography 实验数据中恢复出物体的精确投影。在强大的计算集群的支持下,PtyNet 可以快速地从同步辐射光源获取数据进行训练,并快速地对用户的实验数据进行图像重建。

中国科学院团队利用AI大模型训练技术解决同步辐射海量数据处理

图 1

该研究以「An efficient ptychography reconstruction strategy through fine-tuning of large pre-trained deep learning model 」为题,于 2023 年 11 月 9 日发表在 iScience。

中国科学院团队利用AI大模型训练技术解决同步辐射海量数据处理

论文链接:https://doi.org/10.1016/j.isci.2023.108420

由于不同实验数据所恢复的目标物体不同,团队还引入了微调策略对网络参数进行进一步优化。无监督的微调策略使网络拥有更强大的泛化能力和更高的重建分辨率。同步辐射光源可以为网络提供足够的数据量以得到一个更强大的预训练模型。即使对于一个未出现在网络内的新样品,网络也可以成功地进行重建(图2)。

中国科学院团队利用AI大模型训练技术解决同步辐射海量数据处理

图 2

未来,该团队将继续进行将卷积神经网络应用于 X 射线相干成像领域的研究。利用微调以及大模型的策略,开发出一个相干成像的大模型。模型自身可以识别出不同的成像任务并且给出恢复结果。用户只需输入少量线站参数即可进行实时重建。

面对未来 EB 量级数据的挑战,HEPS 正在积极推动「大型科学软件框架 + AI for Science」的创新科研范式,并建立了一支专业的科学软件团队,开展实验控制、大数据采集与处理、人工智能、前沿学科算法、多尺度图像处理与数据挖掘等跨领域研究,为建设「智慧光源」奠定了基础。

相关资讯

ControlNet 作者新作爆火:P 照片换背景不求人,AI 打光完美融入

ControlNet 作者新作,玩儿得人直呼过瘾,刚开源就揽星 1.2k。用于操纵图像照明效果的 IC-Light,全称 lmposing Consistent Light。玩法很简单:上传任意一张图,系统会自动分离人物等主体,选择光源位置,填上提示词,就能毫无破绽地融入新环境了!赶紧来个王家卫式的打光:不喜欢?没关系,换成窗外打进来的自然光,也就分分钟的事。目前,IC-Light 提供两类模型:文本条件重照明模型,还有背景条件模型。两种模型都需要以前景图像作为输入。鉴于之前 Controlnet 太好玩儿,这次

以自监督方式去除荧光图像中的噪声,清华团队开发了空间冗余去噪Transformer方法

编辑 | 萝卜皮具有高信噪比的荧光成像已成为生物现象精确可视化和分析的基础。然而,不可避免的噪声对成像灵敏度提出了巨大的挑战。清华大学的研究团队提供了空间冗余去噪 Transformer(SRDTrans),以自监督的方式去除荧光图像中的噪声。该团队提出了基于空间冗余的采样策略来提取相邻的正交训练对,消除了对高成像速度的依赖。然后,他们设计了一种轻量级时空 Transformer 架构,以较低的计算成本捕获远程依赖性和高分辨率特征。SRDTrans 可以恢复高频信息,而不会产生过度平滑的结构和扭曲的荧光痕迹。并且,

无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器

柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任务中对比了 8 种自编码器的性能。