光芯片能否代替电子芯片?破解 AI 「算力荒」

编辑 | ScienceAI摩尔定律的描述已经非常快了——计算机芯片每两年左右就会安装两倍数量的晶体管,从而在速度和效率上产生重大飞跃。但深度学习时代的计算需求增长速度更快——这种速度可能不可持续。论文链接:,2026 年人工智能消耗的电力将是 2023 年的 10 倍,而当年的数据中心消耗的能源将相当于日本一个国家一年的能源消耗。报告链接:「人工智能所需的[计算能力]每三个月就会翻一番,速度远远快于摩尔定律的预测。」 计算硬件公司 Lightmatter 的创始人兼首席执行官 Nick Harris 表示,「这会

光芯片能否代替电子芯片?破解 AI 「算力荒」

编辑 | ScienceAI

摩尔定律的描述已经非常快了——计算机芯片每两年左右就会安装两倍数量的晶体管,从而在速度和效率上产生重大飞跃。但深度学习时代的计算需求增长速度更快——这种速度可能不可持续。

图片

论文链接:https://arxiv.org/abs/2202.05924

国际能源署预测,2026 年人工智能消耗的电力将是 2023 年的 10 倍,而当年的数据中心消耗的能源将相当于日本一个国家一年的能源消耗。

图片

报告链接:https://www.iea.org/reports/electricity-2024

「人工智能所需的[计算能力]每三个月就会翻一番,速度远远快于摩尔定律的预测。」 计算硬件公司 Lightmatter 的创始人兼首席执行官 Nick Harris 表示,「这会破坏公司和经济。」

最有前景的方法之一是不使用电子来处理信息(电子在计算领域占据了 50 多年的主导地位),而是使用光子流(即微小的光包)。近期的研究表明,对于现代人工智能的某些基础计算任务,基于光的「光学计算机」可能具有优势。

剑桥大学物理学家 Natalia Berloff 表示,光计算的发展「为人工智能等需要高速、高效处理的领域的突破铺平了道路」。

最佳光学

理论上,光有许多潜在好处。其一,光信号比电信号可以携带更多信息——它们有更多的带宽。其二,光频率也比电频率高得多,因此光系统可以在更短的时间内以更少的延迟运行更多的计算步骤。

还有效率问题。除了相对浪费的电子芯片造成的环境和经济成本之外,它们的运行温度也非常高,以至于只有一小部分晶体管(所有计算机核心的微小开关)可以随时处于活动状态。理论上,光学计算机可以同时进行更多操作,在消耗更少能源的同时处理更多数据。斯坦福大学电气工程师 Gordon Wetzstein 说:「如果我们能够利用」这些优势,「这将带来许多新的可能性。」

图片

图:Nick Harris 创立了一家公司,其芯片使用光子而不是电子。

注意到潜在的优势之后,研究人员一直在尝试将光用于人工智能这个计算需求量很大的领域。例如,在 20 世纪 80 年代和 90 年代,研究人员使用光学系统构建了一些最早的神经网络。Demetri Psaltis 和加州理工学院的两名同事使用这些早期光学神经网络 (ONN) 之一创建了一个巧妙的面部识别系统。

图片

论文链接:https://opg.optica.org/ao/abstract.cfm?uri=ao-32-26-5026

他们将一个受试者(实际上是研究人员之一)的图像作为全息图存储在光折变晶体中。研究人员使用全息图来训练 ONN,然后 ONN 可以识别研究人员的新图像并将他与同事区分开来。

但光也有缺点。至关重要的是,光子通常不会相互作用,因此一个输入信号很难控制另一个信号,而这正是普通晶体管的本质。晶体管也工作得非常好。现在,它们被放置在硬币大小的芯片上,这是数十年渐进改进的产物。

但近年来,研究人员发现了光学计算的杀手级应用:矩阵乘法。

一些简单的数学

矩阵或数字数组相乘的过程是大量重型计算的基础。具体来说,在神经网络中,矩阵乘法是如何在旧数据上训练网络以及如何在经过训练的网络中处理新数据的基本步骤。光可能是比电更好的矩阵乘法媒介。

这种人工智能计算方法在 2017 年爆发,当时麻省理工学院的 Dirk Englund 和 Marin Soljačić 领导的团队描述了如何在硅芯片上构建光学神经网络。

图片

论文链接:https://www.nature.com/articles/nphoton.2017.93

研究人员将他们想要相乘的各种量编码成光束,然后将光束发送通过一系列改变光束相位(光波振荡方式)的组件,每个相位改变代表一个乘法步骤。通过反复分裂光束、改变相位、重新组合,可以使光有效地进行矩阵乘法。在芯片的末端,研究人员放置了光电探测器来测量光束并揭示结果。

图片

图:Lightmatter 的 Passage 芯片预计将于 2026 年准备就绪,它将电子硬件与基于光的互连相结合。

研究人员教他们的实验设备识别口语元音,这是神经网络的常见基准任务。凭借光的优势,它可以比电子设备更快、更有效地完成这一任务。其他研究人员已经知道光有利于矩阵乘法;2017 年的论文展示了如何将其付诸实践。

这项研究「激起了人们对 ONN 的巨大兴趣。」康奈尔大学光子学专家 Peter McMahon 表示,「那个人影响力非常大。」

聪明的想法

自 2017 年那篇论文发表以来,随着各种研究人员提出了新型光学计算机,该领域取得了稳步进展。Englund 和几位合作者最近推出了一种名为 HITOP 的新型光网络,该网络结合了多项先进技术。最重要的是,它的目标是随着时间、空间和波长的增加计算吞吐量。

前麻省理工学院博士后、现任职于南加州大学的 Zaijun Chen 表示,这有助于 HITOP 克服光学神经网络的缺点之一:将数据从电子元件传输到光学元件需要大量能量,反之亦然。

但 Chen 说,通过将信息打包到光的三个维度中,它可以更快地通过 ONN 推送更多数据,并将能源成本分散到许多计算中。这降低了每次计算的成本。研究人员报告说,HITOP 可以运行比以前基于芯片的 ONN 大 25,000 倍的机器学习模型。

图片

论文链接:https://arxiv.org/abs/2401.18050

需要明确的是,该系统仍远未达到其电子前身的水平。Chen 表示,HITOP 每秒执行约 1 万亿次运算,而先进的 Nvidia 芯片可以处理 300 倍的数据,他希望扩大该技术的规模,使其更具竞争力。但光学芯片的效率令人信服。「我们的目标是将能源成本降低 1000 倍。」Chen 说。

其他小组已经创建了具有不同优势的光学计算机。2023 年,宾夕法尼亚大学的一个团队描述了一种新型 ONN,它提供了不同寻常的灵活性。

图片

论文链接:https://www.nature.com/articles/s41566-023-01205-0

这种基于芯片的系统将激光照射到构成电子芯片的半导体部分上,从而改变半导体的光学特性。激光有效地映射了光信号的路径,从而完成了它执行的计算。这使得研究人员可以轻松地重新配置系统的功能。这与大多数其他基于芯片的系统(光学和电子系统)有着明显的区别,在这些系统中,路线是在制造工厂中仔细制定的,并且很难改变。

图片

图:Bhavin Shastri 帮助开发了一种光学神经网络,可以克服不同无线信号之间的干扰。

该研究的主要作者 Tianwei Wu 说:「我们所拥有的东西非常简单。我们可以重新编程,动态改变激光图案。」 研究人员利用该系统设计了一个成功区分元音的神经网络。

大多数光子系统在构建之前都需要进行训练,因为训练必然涉及重新配置连接。但由于该系统很容易重新配置,研究人员在将模型安装到半导体上后对其进行了训练。他们现在计划增加芯片的尺寸,并用不同颜色的光编码更多信息,这应该会增加它可以处理的数据量。

即使是在 90 年代创建面部识别系统的 Psaltis 也对这一进步感到印象深刻。「与实际发生的事情相比,我们 40 年前最疯狂的梦想显得非常渺小。」

第一缕曙光

尽管光学计算在过去几年中发展迅速,但它仍远未取代在实验室外运行神经网络的电子芯片。论文宣布光子系统比电子系统工作得更好,但它们通常使用旧的网络设计和较小的工作负载运行小型模型。

加拿大安大略省女王大学的 Bhavin Shastri 表示,许多有关光子霸权的报道数据并不能说明全部情况。「很难与电子产品进行同类比较。」他说,「例如,当他们使用激光时,他们并没有真正谈论为激光提供动力的能量。」

实验室系统需要扩大规模才能显示出竞争优势。「你需要做到多大才能获得胜利?」McMahon 问道。答案是:特别大。这就是为什么没有人可以与 Nvidia 制造的芯片相媲美。一路上有大量的工程难题需要解决——电子方面已经解决了几十年的问题。「电子行业一开始就有很大的优势。」McMahon 说。

一些研究人员认为,基于 ONN 的人工智能系统将首先在具有独特优势的专业应用中取得成功。Shastri 表示,一种有前途的用途是抵消不同无线传输之间的干扰,例如 5G 蜂窝塔和帮助飞机导航的雷达高度计。

图片

论文链接:https://www.nature.com/articles/s41377-023-01362-5

今年年初,Shastri 和几位同事创建了一个 ONN,可以整理不同的传输并实时挑选出感兴趣的信号,处理延迟低于 15 皮秒(15 万亿分之一秒)——不到电子系统所需时间的千分之一,而功耗不到电子系统的 1/70。

但 McMahon 表示,宏伟的愿景——一种可以超越通用电子系统的光学神经网络——仍然值得追求。去年,他的团队进行的模拟显示,十年内,足够大的光学系统可以使某些人工智能模型的效率比未来电子系统的效率提高 1000 倍以上。

「现在很多公司都在努力争取 1.5 倍的收益。一千倍的好处,那就太神奇了。」他说,「如果成功的话,这可能是一个为期 10 年的项目。」

相关报道:https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-based-chips-help-20240520/

相关资讯

网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展

编辑 | 紫罗随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。然而,光电神经网络的前向数学模型由对光场的精准物理建模得到,计算复杂度高、参数冗余度大;其学习机制沿用人工神经网络常用的梯度下降算法,面向大规模光电神经网络时优化速度慢、资源消耗高、收敛效果差。因此,现有学习架构仅能支撑小规模光电神经网络的训练,其网络容量和特征捕获能力不足以有效处

AI成像新时代,视野扩大271倍,上海理工大学开发超快卷积光学神经网络

编辑 | KX卷积神经网络(CNN)凭借其出色的图像识别能力,在人工智能领域表现出色,尤其是在 ChatGPT 等平台中。近日,上海理工大学团队成功将 CNN 概念引入光学领域,实现卷积全光神经网络,为人工智能成像技术带来了革命性的进步。研究团队开发了一种超快卷积光学神经网络(ONN),该网络无需依赖光学记忆效应,即可实现对散射介质后方物体的高效清晰成像。该神经网络利用强散射过程直接提取特征,实现无记忆图像重建,视野扩大 271 倍,计算速度达到了每秒 1.57 千万亿次运算。该研究以「Memory-less sc

图神经网络准确预测无机化合物性质,加速固态电池的设计

编辑/绿萝大规模从头计算与结构预测的进步相结合,在无机功能材料的发现中发挥了重要作用。目前,在无机材料的广阔化学空间中,只发现了一小部分。实验和计算研究人员都需要加速探索未知的化学空间。来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研究人员展示了一种可以准确预测无机化合物性质的机器学习方法。展示了基态(GS)和更高能量结构的平衡训练数据集,对使用通用图神经网络(GNN)架构准确预测总能量的重要性。该研究可加速固态电池的设计。该研究以「Predicting energy and stabi