编辑 | ScienceAI
摩尔定律的描述已经非常快了——盘算机芯片每两年左右就会安装两倍数量的晶体管,从而在速度和服从上产生重大飞跃。但深度学习时代的盘算需求增长速度更快——这种速度可能不可持续。
论文链接:https://arxiv.org/abs/2202.05924
国际能源署预测,2026 年人工智能消耗的电力将是 2023 年的 10 倍,而当年的数据中心消耗的能源将相当于日本一个国家一年的能源消耗。
报告链接:https://www.iea.org/reports/electricity-2024
「人工智能所需的[盘算能力]每三个月就会翻一番,速度远远快于摩尔定律的预测。」 盘算硬件公司 Lightmatter 的创始人兼首席执行官 Nick Harris 表明,「这会破坏公司和经济。」
最有前景的方法之一是不应用电子来处置惩罚信息(电子在盘算领域占据了 50 多年的主导地位),而是应用光子流(即微小的光包)。近期的研讨表明,对于现代人工智能的某些基础盘算任务,鉴于光的「光学盘算机」可能具有上风。
剑桥大学物理学家 Natalia Berloff 表明,光盘算的发展「为人工智能等需要高速、高效处置惩罚的领域的突破铺平了道路」。
最佳光学
理论上,光有许多潜在好处。其一,光旗号比电旗号可以携带更多信息——它们有更多的带宽。其二,光频率也比电频率高得多,因此光体系可以在更短的时间内以更少的延迟运行更多的盘算步骤。
还有服从问题。除了相对浪费的电子芯片造成的环境和经济成本之外,它们的运行温度也非常高,以至于只有一小部分晶体管(所有盘算机核心的微小开关)可以随时处于活动状态。理论上,光学盘算机可以同时进行更多操作,在消耗更少能源的同时处置惩罚更多数据。斯坦福大学电气工程师 Gordon Wetzstein 说:「如果我们能够利用」这些上风,「这将带来许多新的可能性。」
图:Nick Harris 创立了一家公司,其芯片应用光子而不是电子。
注意到潜在的上风之后,研讨职员一直在尝试将光用于人工智能这个盘算需求量很大的领域。例如,在 20 世纪 80 年代和 90 年代,研讨职员应用光学体系构建了一些最早的神经网络。Demetri Psaltis 和加州理工学院的两名同事应用这些早期光学神经网络 (ONN) 之一创建了一个巧妙的面部识别体系。
论文链接:https://opg.optica.org/ao/abstract.cfm?uri=ao-32-26-5026
他们将一个受试者(实际上是研讨职员之一)的图像作为全息图存储在光折变晶体中。研讨职员应用全息图来训练 ONN,然后 ONN 可以识别研讨职员的新图像并将他与同事区分开来。
但光也有缺点。至关重要的是,光子通常不会相互作用,因此一个输入旗号很难控制另一个旗号,而这正是普通晶体管的本质。晶体管也工作得非常好。现在,它们被放置在硬币大小的芯片上,这是数十年渐进改进的产物。
但近年来,研讨职员发现了光学盘算的杀手级应用:矩阵乘法。
一些简单的数学
矩阵或数字数组相乘的过程是大量重型盘算的基础。具体来说,在神经网络中,矩阵乘法是如何在旧数据上训练网络以及如何在经过训练的网络中处置惩罚新数据的基本步骤。光可能是比电更好的矩阵乘法媒介。
这种人工智能盘算方法在 2017 年爆发,当时麻省理工学院的 Dirk Englund 和 Marin Soljačić 领导的团队描述了如何在硅芯片上构建光学神经网络。
论文链接:https://www.nature.com/articles/nphoton.2017.93
研讨职员将他们想要相乘的各种量编码成光束,然后将光束发送通过一系列扭转光束相位(光波振荡方式)的组件,每个相位扭转代表一个乘法步骤。通过反复分裂光束、扭转相位、重新组合,可以使光有效地进行矩阵乘法。在芯片的末端,研讨职员放置了光电探测器来测量光束并揭示结果。
图:Lightmatter 的 Passage 芯片预计将于 2026 年准备就绪,它将电子硬件与鉴于光的互连相结合。
研讨职员教他们的实验设备识别口语元音,这是神经网络的常见基准任务。凭借光的上风,它可以比电子设备更快、更有效地完成这一任务。其他研讨职员已经知道光有利于矩阵乘法;2017 年的论文展示了如何将其付诸实践。
这项研讨「激起了人们对 ONN 的巨大兴趣。」康奈尔大学光子学专家 Peter McMahon 表明,「那个人影响力非常大。」
聪明的想法
自 2017 年那篇论文发表以来,随着各种研讨职员提出了新型光学盘算机,该领域取得了稳步进展。Englund 和几位合作者最近推出了一种名为 HITOP 的新型光网络,该网络结合了多项先进技术。最重要的是,它的目标是随着时间、空间和波长的增加盘算吞吐量。
前麻省理工学院博士后、现任职于南加州大学的 Zaijun Chen 表明,这有助于 HITOP 克服光学神经网络的缺点之一:将数据从电子元件传输到光学元件需要大量能量,反之亦然。
但 Chen 说,通过将信息打包到光的三个维度中,它可以更快地通过 ONN 推送更多数据,并将能源成本分散到许多盘算中。这降低了每次盘算的成本。研讨职员报告说,HITOP 可以运行比以前鉴于芯片的 ONN 大 25,000 倍的机器学习模型。
论文链接:https://arxiv.org/abs/2401.18050
需要明确的是,该体系仍远未达到其电子前身的水平。Chen 表明,HITOP 每秒执行约 1 万亿次运算,而先进的 Nvidia 芯片可以处置惩罚 300 倍的数据,他希望扩大该技术的规模,使其更具竞争力。但光学芯片的服从令人信服。「我们的目标是将能源成本降低 1000 倍。」Chen 说。
其他小组已经创建了具有不同上风的光学盘算机。2023 年,宾夕法尼亚大学的一个团队描述了一种新型 ONN,它提供了不同寻常的灵活性。
论文链接:https://www.nature.com/articles/s41566-023-01205-0
这种鉴于芯片的体系将激光照射到构成电子芯片的半导体部分上,从而扭转半导体的光学特性。激光有效地映射了光旗号的路径,从而完成了它执行的盘算。这使得研讨职员可以轻松地重新配置体系的功能。这与大多数其他鉴于芯片的体系(光学和电子体系)有着明显的区别,在这些体系中,路线是在制造工厂中仔细制定的,并且很难扭转。
图:Bhavin Shastri 帮助开发了一种光学神经网络,可以克服不同无线旗号之间的干扰。
该研讨的主要作者 Tianwei Wu 说:「我们所拥有的东西非常简单。我们可以重新编程,动态扭转激光图案。」 研讨职员利用该体系设计了一个成功区分元音的神经网络。
大多数光子体系在构建之前都需要进行训练,因为训练必然涉及重新配置连接。但由于该体系很容易重新配置,研讨职员在将模型安装到半导体上后对其进行了训练。他们现在计划增加芯片的尺寸,并用不同颜色的光编码更多信息,这应该会增加它可以处置惩罚的数据量。
即使是在 90 年代创建面部识别体系的 Psaltis 也对这一进步感到印象深刻。「与实际发生的事情相比,我们 40 年前最疯狂的梦想显得非常渺小。」
第一缕曙光
尽管光学盘算在过去几年中发展迅速,但它仍远未取代在实验室外运行神经网络的电子芯片。论文宣布光子体系比电子体系工作得更好,但它们通常应用旧的网络设计和较小的工作负载运行小型模型。
加拿大安大略省女王大学的 Bhavin Shastri 表明,许多有关光子霸权的报道数据并不能说明全部情况。「很难与电子产品进行同类比较。」他说,「例如,当他们应用激光时,他们并没有真正谈论为激光提供动力的能量。」
实验室体系需要扩大规模才能显示出竞争上风。「你需要做到多大才能获得胜利?」McMahon 问道。答案是:特别大。这就是为什么没有人可以与 Nvidia 制造的芯片相媲美。一路上有大量的工程难题需要解决——电子方面已经解决了几十年的问题。「电子行业一开始就有很大的上风。」McMahon 说。
一些研讨职员认为,鉴于 ONN 的人工智能体系将首先在具有独特上风的专业应用中取得成功。Shastri 表明,一种有前途的用途是抵消不同无线传输之间的干扰,例如 5G 蜂窝塔和帮助飞机导航的雷达高度计。
论文链接:https://www.nature.com/articles/s41377-023-01362-5
今年年初,Shastri 和几位同事创建了一个 ONN,可以整理不同的传输并实时挑选出感兴趣的旗号,处置惩罚延迟低于 15 皮秒(15 万亿分之一秒)——不到电子体系所需时间的千分之一,而功耗不到电子体系的 1/70。
但 McMahon 表明,宏伟的愿景——一种可以超越通用电子体系的光学神经网络——仍然值得追求。去年,他的团队进行的模拟显示,十年内,足够大的光学体系可以使某些人工智能模型的服从比未来电子体系的服从提高 1000 倍以上。
「现在很多公司都在努力争取 1.5 倍的收益。一千倍的好处,那就太神奇了。」他说,「如果成功的话,这可能是一个为期 10 年的项目。」
相关报道:https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-based-chips-help-20240520/