编辑 | 紫罗
随着大模型等人为智能技术的突破与发展,算法复杂度剧增,对传统估计芯片带来了算力和功耗的双重挑战。近年来,以光估计为基础、通过光电融合的方式构建光电神经搜集的估计处理方法已经成为国际热点钻研问题,有望完成估计性能的颠覆性提升。
然而,光电神经搜集的前向数学模型由对光场的精准物理建模得到,估计复杂度高、参数冗余度大;其进修机制沿用人为神经搜集常用的梯度下降算法,面向大规模光电神经搜集时优化速度慢、资源消耗高、收敛效果差。因此,现有进修架构仅能支撑小规模光电神经搜集的训练,其搜集容量和特征捕获能力不足以有效处理 ImageNet 等大型复杂数据集。
近日,清华大学电子工程系方璐副教授课题组提出了面向大规模光电智能估计的:光学-人为双神经元进修架构(DuAl-Neuron opTical-artificial lEarning,DANTE)。其中光学神经元精准建模光场估计过程,人为神经元以轻量映射函数建立跳跃连接助力梯度传播,全局人为神经元与局部光学神经元以交替进修的机制进行迭代优化,在确保进修有效性的同时,大大降低了训练的时空复杂度,使得训练更大更深的光电神经搜集成为可能。DANTE 突破了大规模光电神经搜集物理建模复杂、参数优化困难等桎梏,搜集规模提升一至两个数量级,训练进修速度提升两个数量级。
该钻研以《光学-人为双神经元架构训练大规模光电神经搜集》(Training large-scale optoelectronic neural networks with dual-neuron optical-artificial learning)为题,于 11 月 4 日发表于《自然·通讯》(Nature Communications)期刊上。
人为神经搜集(ANN)无疑是近年来机械智能钻研领域中最具代表性的技术。在过去的十年中,随着搜集规模、模型参数和数据集大小的增长,人为神经搜集在视觉估计、自然语言处理、机械人等各个领域取得了显著的进步。大规模神经搜集也给现有的电子估计硬件带来了巨大的压力。由于硅基估计设备的性能和能源效率受到摩尔定律停滞期的限制,钻研职员开始将注意力重新转向光学/光电搜集。
光学和光电神经搜集(ONN)具有固有的高速和高能效特性。其中,衍射神经搜集仅通过经过训练的光学调制元件传播编码光来进行估计,可以自然地处理光学图像并完成各种机械视觉任务的光学估计。
然而,现有的衍射神经搜集钻研主要集中在探索新型光学估计硬件或新的搜集结构,而很少关注 ONN 的建模和优化。大多数现有的 ONN 钻研仍在努力解决基本任务和小数据集,例如 MNIST 和 Fashion-MNIST 分类。
受限于算力瓶颈与显存容量,现有的单神经元进修方法仅能完成百万量级神经元的光电神经搜集训练,难以满足 ImageNet 等复杂大规模数据集的训练需求。
在此,钻研职员提出了 DANTE:用于大规模光电机械进修的双神经元光学人为进修。
具体来说,硬件搜集由光学神经元层和人为神经元层建模。光学神经元层精确地模拟光场的衍射和调制过程,人为神经元层使用轻量级函数近似估计量大的光学神经元层光学衍射建模。与单神经元进修方法不同,DANTE 通过采用迭代全局人为进修步骤和局部光学进修步骤来解耦所有光学神经元。通过在全局人为进修步骤中引入人为神经元,显著减少了优化空间和估计内存需求,完成了端到端搜集进修更快更好的收敛。而在局部光学进修中,光学神经元层的参数是从优化的人为神经元中独立有效地进修的,而不是从海量数据集中进修,这可以进一步加速搜集训练。
图 1:光学-人为双神经元进修架构(DANTE)。(来历:论文)
钻研职员在空间光智能估计平台上开展了大量仿真与物理实验验证,将现有百万量级光电神经元搜集的训练时间从数十小时级缩短到了分钟级。
在模拟实验中,与单神经元进修方法相比,DANTE 在 CIFAR-10 基准上完成了约 200 倍的训练加速,准确率提高了约 10%。
图 2:使用 DANTE 改进 ONN 训练。(来历:论文)
更重要的是,DANTE 能够训练具有 150 M 神经元的大规模 ONN,在现代 ImageNet 基准上完成与代表性 VGG 搜集相当的性能。搜集规模大约是现有大型 ONN 的 10 倍。
图 3:DANTE 支持的大规模 ONN。(来历:论文)
在物理实验中,钻研职员开发了一个两层物理 ONN 系统,能够有效提取特征以增强自然图像的分类(CIFAR-10 和 ImageNet),作为 DANTE 物理可行性的验证。
图 4:物理 ONN 系统上的 DANTE。(来历:论文)
钻研职员进一步基于 DANTE,首次完成了亿级神经元的大规模光电神经搜集训练与推理,在 CIFAR-10、ImageNet等多个数据集上完成了与经典人为神经搜集 VGG-11 和 VGG-16 相当的准确率。
值得强调的是,在 ImageNet 基准上成功训练光电神经搜集具有重要意义。这展现了 DANTE 在支撑大规模光电神经搜集训练进修上的巨大潜力,有望推动光电智能估计从基于 MNIST 基准的原型验证阶段迈入到使用现代 ImageNet 基准来解决大规模现实问题的全新时代。
图 5:DANTE 在 CIFAR-10 和 ImageNet 数据集上的训练与推理性能评测。(来历:论文)
总之,DANTE框 架有效地解决了 ONN 面临的进修挑战,这些挑战源于光学衍射建模中复杂的空间和时间复杂性。因此,该钻研在训练大规模 ONN 方面取得了显著的成功,而以前认为使用现有方法不可能训练这些 ONN。
实验结果证明了 ONN 在高级机械视觉任务中的巨大潜力。钻研职员坚信,该钻研将为大规模 ONN 的训练和部署奠定坚实的理论基础,为 ONN 解决大规模实际问题的新时代铺平道路。
论文链接:https://www.nature.com/articles/s41467-023-42984-y
参考内容:https://www.tsinghua.edu.cn/info/1175/107842.htm