低耗能高速度,EPFL和微软研究团队的新方法:深度物理神经网络的无反向传播训练

编辑 | 萝卜皮随着大规模深度神经网络(NN)和其他人工智能(AI)应用的最新发展,人们越来越担心训练和操作它们所需的能源消耗。物理神经网络可以成为这个问题的解决方案,但传统算法的直接硬件实现面临着多重困难。使用传统反向传播算法训练神经网络会面临一些挑战,例如缺乏可扩展性、训练过程中操作的复杂性以及对数字训练模型的依赖。洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)和微软研究团队(Microsoft Research)等机构组成的合作团队提出了一种通过

图片

编辑 | 萝卜皮

随着大规模深度神经网络(NN)和其他人工智能(AI)应用的最新发展,人们越来越担心训练和操作它们所需的能源消耗。

物理神经网络可以成为这个问题的解决方案,但传统算法的直接硬件实现面临着多重困难。使用传统反向传播算法训练神经网络会面临一些挑战,例如缺乏可扩展性、训练过程中操作的复杂性以及对数字训练模型的依赖。

洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)和微软研究团队(Microsoft Research)等机构组成的合作团队提出了一种通过物理局部学习(PhyLL)算法增强的简单深度神经网络架构,该架构可以对深度物理神经网络进行监督和无监督训练,而无需详细了解非线性物理层的属性。

利用这种方法,研究人员在元音和图像分类实验中训练了多种基于波的物理神经网络,并展示了该方法的普遍性。该团队的方法比其他硬件感知训练方案具有优势,可以提高训练速度、增强稳健性;同时,通过消除系统建模的需要来降低功耗,从而减少数字计算需求。

该研究以「Backpropagation-free training of deep physical neural networks」为题发,于 2023 年 11 月 23 日发布在《Science》。

图片

深度学习已成为一项取得了巨大成功的突破性技术,主要在传统的冯·诺依曼计算硬件上运行。该技术目前面临高能耗(例如 GPT-3 的 1.3  GWh 用电量)和低计算速度的问题。

由于这些挑战,科学家正在探索人工神经网络(ANN)的替代物理平台,包括光学、自旋电子学、纳米电子设备、光子硬件和声学系统。

目前,局部学习已被广泛研究用于训练数字神经网络,从早期的 Hopfield 模型中的 Hebbian 对比学习工作到最近的生物学合理框架、块式 BP 和对比表示学习。

受这一概念的启发,为了解决基于 BP 的 PNN 训练的局限性,EPFL 等机构的研究人员提出了一种简单且物理兼容的 PNN 架构,并通过物理局部学习 (PhyLL) 算法进行了增强。

图片

图:Deep PNNs。(来源:论文)

该方法能够在本地对任意 PNN 进行监督和无监督对比学习训练,而无需了解非线性物理层并训练数字孪生模型。在这种无 BP 方法中,通常由数字计算机执行的标准后向传递被替换为通过物理系统的附加单个前向传递。

这种替代可以消除由于其他硬件感知框架中存在的数字孪生建模阶段而产生的额外开销,从而提高基于波的 PNN 训练阶段的训练速度、功耗和内存使用率。

图片

图:Acoustic-PNN。(来源:论文)

该方法即使在暴露于不可预测的外部扰动的系统中,依然能保持稳健性和适应性。

图片

图:Deep PNN 对不可预测的外部扰动的稳健性。(来源:论文)

为了展示该方法的普遍性,研究人员使用三个基于波的系统进行了实验元音和图像分类,这三个系统在潜在的波现象和所涉及的非线性类型方面有所不同。

图片

图:Microwave-PNN。(来源:论文)

由于人工神经网络规模空前增长,例如预计将不断增加的大型语言模型(LLM),这些网络的训练和推理阶段的成本呈指数级增长。

PNN 等专用硬件有可能大幅降低这些成本。之前 Anderson 团队曾经预测,与未来大型 Transformer 模型的数字电子处理器相比,推理时间能效优势约为 8000 倍。EPFL 团队提出的训练方法可以作为训练这些光学 LLMs 的可行候选方法,有可能提供显著的能源效率和速度优势。

图片

图:Optics-PNN。(来源:论文)

利用光学实现大规模 LLM 仍然面临一些挑战,例如当前的 SLM 容量仅限于几百万个参数,远低于所需的数十亿个参数。然而,实现十亿参数光学架构和节能 PNN 并不存在根本障碍。

《Science》杂志副主编 Yury Suleymanov 评价道:「该研究是优化神经网络中的能源密集型训练步骤的重要一步,从而为现代人工智能系统提供更有效的解决方案。」

论文链接:https://www.science.org/doi/10.1126/science.adi8474

相关资讯

大视觉语言模型基准数据集ReForm-Eval:新瓶装旧酒,给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

概要复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每个维度提供足量的评测数据(平均每个维度4000余条);具有统一的评测问题形式(包括单选题和文本生成问题);方便易用,评测方法可靠高效,且无需依赖ChatGPT等外部服务;高效地利用了现存的数据资源,无需额外的人工标注,并

Copilot 正在吞噬世界,与 ChatGPT 一起

机器之能报道编辑:SIa2023 年属于 AI (尤其是生成式 AI ),几乎每个人都或多或少尝试过大型语言模型 ( LLM ),无论是教师、政客、脱口秀甚至儿童活动支持人。凭借每周超过 1 亿的活跃用户,ChatGPT 跻身当之无愧的顶流。不过,很多日常用例只触及了可能性表面。透过表面,那些真正从事技术工作的人们正在使用广泛 AI 工具来改造产品、重构业务,或者以前所未有的方式提供客户体验.......至少,大家承诺如此。那么,真实情况是什么呢?8月,低代码开发平台独角兽 Retool 对 1,578 名技术人员

BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素分割模型

编辑 | ScienceAI上周,北京智源人工智能研究院(BAAI)、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同,SegVol 是第一个能够同时支持 box,point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具,研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol,欢迎大家使用。目前开源的模型权重文件包括(1)使用 96k CTs 预训练 2