搜集规模、训练进修速度提升，清华团队在大规模光电智能估计方向取得进展

编辑 | 紫罗随着大模型等人为智能技术的突破与发展，算法复杂度剧增，对传统估计芯片带来了算力和功耗的双重挑战。近年来，以光估计为基础、通过光电融合的方式构建光电神经搜集的估计处理方法已经成为国际热点钻研问题，有望完成估计性能的颠覆性提升。然而，光电神经搜集的前向数学模型由对光场的精准物理建模得到，估计复杂度高、参数冗余度大；其进修机制沿用人为神经搜集常用的梯度下降算法，面向大规模光电神经搜集时优化速度慢、资源消耗高、收敛效果差。因此，现有进修架构仅能支撑小规模光电神经搜集的训练，其搜集容量和特征捕获能力不足以有效处

编辑 | 紫罗

随着大模型等人为智能技术的突破与发展，算法复杂度剧增，对传统估计芯片带来了算力和功耗的双重挑战。近年来，以光估计为基础、通过光电融合的方式构建光电神经搜集的估计处理方法已经成为国际热点钻研问题，有望完成估计性能的颠覆性提升。

然而，光电神经搜集的前向数学模型由对光场的精准物理建模得到，估计复杂度高、参数冗余度大；其进修机制沿用人为神经搜集常用的梯度下降算法，面向大规模光电神经搜集时优化速度慢、资源消耗高、收敛效果差。因此，现有进修架构仅能支撑小规模光电神经搜集的训练，其搜集容量和特征捕获能力不足以有效处理 ImageNet 等大型复杂数据集。

近日，清华大学电子工程系方璐副教授课题组提出了面向大规模光电智能估计的：光学-人为双神经元进修架构（DuAl-Neuron opTical-artificial lEarning，DANTE）。其中光学神经元精准建模光场估计过程，人为神经元以轻量映射函数建立跳跃连接助力梯度传播，全局人为神经元与局部光学神经元以交替进修的机制进行迭代优化，在确保进修有效性的同时，大大降低了训练的时空复杂度，使得训练更大更深的光电神经搜集成为可能。DANTE 突破了大规模光电神经搜集物理建模复杂、参数优化困难等桎梏，搜集规模提升一至两个数量级，训练进修速度提升两个数量级。

该钻研以《光学-人为双神经元架构训练大规模光电神经搜集》（Training large-scale optoelectronic neural networks with dual-neuron optical-artificial learning）为题，于 11 月 4 日发表于《自然·通讯》（Nature Communications）期刊上。

搜集规模、训练进修速度提升，清华团队在大规模光电智能估计方向取得进展

人为神经搜集（ANN）无疑是近年来机械智能钻研领域中最具代表性的技术。在过去的十年中，随着搜集规模、模型参数和数据集大小的增长，人为神经搜集在视觉估计、自然语言处理、机械人等各个领域取得了显著的进步。大规模神经搜集也给现有的电子估计硬件带来了巨大的压力。由于硅基估计设备的性能和能源效率受到摩尔定律停滞期的限制，钻研职员开始将注意力重新转向光学/光电搜集。

光学和光电神经搜集（ONN）具有固有的高速和高能效特性。其中，衍射神经搜集仅通过经过训练的光学调制元件传播编码光来进行估计，可以自然地处理光学图像并完成各种机械视觉任务的光学估计。

然而，现有的衍射神经搜集钻研主要集中在探索新型光学估计硬件或新的搜集结构，而很少关注 ONN 的建模和优化。大多数现有的 ONN 钻研仍在努力解决基本任务和小数据集，例如 MNIST 和 Fashion-MNIST 分类。

受限于算力瓶颈与显存容量，现有的单神经元进修方法仅能完成百万量级神经元的光电神经搜集训练，难以满足 ImageNet 等复杂大规模数据集的训练需求。

在此，钻研职员提出了 DANTE：用于大规模光电机械进修的双神经元光学人为进修。

具体来说，硬件搜集由光学神经元层和人为神经元层建模。光学神经元层精确地模拟光场的衍射和调制过程，人为神经元层使用轻量级函数近似估计量大的光学神经元层光学衍射建模。与单神经元进修方法不同，DANTE 通过采用迭代全局人为进修步骤和局部光学进修步骤来解耦所有光学神经元。通过在全局人为进修步骤中引入人为神经元，显著减少了优化空间和估计内存需求，完成了端到端搜集进修更快更好的收敛。而在局部光学进修中，光学神经元层的参数是从优化的人为神经元中独立有效地进修的，而不是从海量数据集中进修，这可以进一步加速搜集训练。

搜集规模、训练进修速度提升，清华团队在大规模光电智能估计方向取得进展