精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

编辑丨ScienceAI无监督聚类算法在划分 Nano-ARPES（ARPES：角分辨光电子能谱）空间映射数据集方面表现出强大的能力。然而，在区分细微的能带差异方面则表现欠佳。在最新的研究中，中国科学院高能物理研究所的研究团队与南京理工大学的科研人员合作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm，MSCA)。

编辑丨ScienceAI

无监督聚类算法在划分 Nano-ARPES（ARPES：角分辨光电子能谱）空间映射数据集方面表现出强大的能力。然而，在区分细微的能带差异方面则表现欠佳。

在最新的研究中，中国科学院高能物理研究所的研究团队与南京理工大学的科研人员合作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm，MSCA)。

相较于传统的聚类算法，该算法在聚类精度上提升了约 20%，通过自动提取能带在表面的一致性从而清晰地划分出 MoS2/BN 异质结中不同衬底或层数 MoS2 的分布，并实现了细微能带差异的抓取。

该研究以「Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm」为题，于 2024 年 12 月 6 日发布在《Communications Physics》。

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

在固体材料科学领域，ARPES 技术因其对电子动量和能量同时分辨的能力而被广泛用于量子材料的电子结构表征。传统的 ARPES 技术受限于毫米级的光斑尺寸而往往仅能对均质的完美单晶开展研究，高能同步辐射光源（HEPS）上的 Nano-ARPES 线站通过聚焦X射线光斑至纳米量级，使得研究电子结构在表面微纳尺度的分布成为可能。然而，样品表面的复杂性以及高维度的庞大数据量给 Nano-ARPES 的数据分析带来了挑战。

近年来，利用无监督聚类算法划分样品表面不同电子结构区域的研究取得了一定的进展。虽然传统的无监督聚类算法能够针对能带结构在秒量级完成对不同材料的区域划分，但在区分细微的能带差异方面则表现欠佳，比如传统聚类算法难以区分 MoS2/BN 异质结中由不同衬底或层数造成的 MoS2 价带劈裂。

然而这些由于某种诱导因素导致的细微能带变化往往蕴含着丰富的物理机制并且是研究人员所关注的信息。针对这一问题，作者开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm，MSCA) ，该方法在 Nano-ARPES 数据集中同时实现了实空间和动量空间的聚类分析。此外，MSCA 能够指出一些细微的能带差异，如能带的移动或分裂，显著提高了聚类的准确性和识别限度。

样品介绍与K-means算法结果

本研究基于的数据来自样品 MoS2/BN/Au，三种材料叠放在一起，由上至下分别是 MoS2，BN 和 Au，样品的 Truth Table 由图 1 所示，Truth Table 用来计算算法的性能指标。目前应用广泛的 K-means 算法只能区分出具有较大差异的 Au，BN 和 MoS2 三种材料，但对于不同类型 MoS2 的区分表现欠佳，如图 2 所示。

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

图 1 ：样品的Truth Table：Au，BN，基于衬底 Au 的 MoS2，基于衬底 BN 的单层 MoS2 和基于衬底 BN 的多层 MoS2 的像素值分别是 0，1，2，3 和 4，不确定区域的像素值为 5。精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

图 2 ：K-means 算法将 Nano-ARPES 数据集分为 3/6 类的结果。

Multi-Stage Clustering Algorithm（MSCA）

作者认为，不同类型 MoS2 的区分重点在于捕捉到细微的能带差异，而传统的K-means 算法将整个动量空间的能谱作为输入，会削弱特定能带的分辨能力，因此，实现精细聚类的关键在于捕捉到动量空间中特定的能带，基于能带区域的聚类将极大提升聚类精度，该过程可以通过多阶段聚类算法(MSCA)来解决， MSCA 的分析流程如图 3 所示。

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

图 3 ：多阶段聚类算法(MSCA)分析流程。

MSCA 将 K-means 算法应用于三个阶段的数据处理。在不同的能量-动量窗口中，实空间的 K-means 聚类结果被视为第二轮动量空间 K-means 聚类的输入。通过这种方式，可以捕获到在实空间表现出不均匀的能量-动量窗口，从而准确区分具有细微差异的单/多层以及不同衬底的 MoS2，如图 4 所示。

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

图 4 ：多阶段聚类算法(MSCA)动量空间及实空间的聚类结果。

为了评估各算法的精度，研究人员使用 Accuracy、Recall、Precision 和 F1 score 等指标评估了 K-means 与 MSCA 算法的性能。鉴于本研究中数据集的不平衡特性，研究人员通过计算 macro averages，对算法的整体聚类正确性提供了更平衡和全面的评估，确保性能不会受到实例数量较多的类别的影响（表1/2）。

相较于 K-means 算法，MSCA 的 Macro Accuracy，Precision，Recall 和 F1 Score 分别提升了 2%，6%，20% 和 18%。另外，每一类 MoS2 的 Precision 和 Recall 数值都更加的平衡，表明 MSCA 在正确识别正实例的同时能够有效避免将负实例错误分类为正实例，这种平衡的性能通常被认为是算法的理想特征。

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

未来展望

MSCA 作为一种高效的数据处理方法，特别适用于处理具有复杂能带色散的样品，能够精确捕捉到细微的能带差异，对于高维科学数据分析具有重要的实用价值。MSCA 能够像经验丰富的研究人员一样，自动搜索空间中的不均匀能带结构，并突出显示这些能带，无需依赖以往的研究知识。

随着 MSCA 的引入，Nano- ARPES 的应用将变得更加强大。与人工提取能带信息的方式相比，MSCA 的表现更佳，尤其是在信噪比低的二维 ARPES 图像中，这将帮助研究人员基于更短的采集时间快速找到感兴趣的区域。此外，系统稳定性是 Nano-ARPES 的关键因素，MSCA 可以通过监控每次独立采集之间的相似性来去除偏差数据，从而提高 Nano-ARPES 系统对低频波动的鲁棒性。

未来，MSCA 算法将集成到 HEPS 的 Nano-ARPES 数据采集系统（MAMBA），实现在线精细聚类和能带结构提取，进行高效的 ARPES 实验数据采集，加速各类基础科研成果的产出。

论文链接：https://www.nature.com/articles/s42005-024-01878-1

代码链接：https://github.com/lbian94/FineClustering

图片均来自论文或网络。

{{userData.name}}已认证

精度提升20%，中科院、南京理工AI方法进行光电子能谱高维数据精细解析

使用机器学习技术进行时间序列缺失数据填充：基础方法与入门案例

性能远超当前SOTA，首个可解释RNA的AI植物基础模型来了，整合1124种植物RNA信息

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

ChatGPT遇到这些人名开始自闭，OpenAI回应了

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则