编辑 | KX
最近,微软系统故障导致全球大范围宕机。计算已经成为我们生活中不可或缺的一部分。然而,尽管计算机硬件和软件不断改进,但人类大脑仍然是我们所知的最复杂、最强大的计算机。
人类大脑通过数十亿个神经元与数万亿个突触相互作用来共享其计算能力,因此,它不仅可以与最强大的超级计算机相媲美,而且由于其消耗的能量比冰箱中的灯亮所需能量还少,因此,人类大脑在效率方面毫无疑问胜过计算机。
类脑计算是一个不断发展的跨学科研究领域,研究如何将生物大脑的计算原理转化为硬件设计,从而提高能源效率。类脑计算涵盖各种子领域,包括神经形态计算和内存计算,这些领域在执行特定任务方面优于传统数字硬件。
随着对更强大、更节能的大规模人工神经网络硬件的需求不断增长,类脑计算可实现节能计算,并将人工智能扩展到边缘。
然而,与最先进的数字解决方案相比,该领域的广泛范围使得比较和评估解决方案的有效性变得具有挑战性。
荷兰特温特大学和比利时丰田汽车欧洲公司(Toyota Motor Europe)的研究人员在《The European Physical Journal B》发表综述文章《Brain-inspired computing systems: a systematic literature review》,全面概述了类脑计算硬件的最新进展。
首先介绍了关键概念并指出各自的深入专题评论。对主流硬件平台进行分类。重点介绍了可以从类脑计算系统中受益匪浅的各种研究和潜在应用,并比较了它们报告的计算准确性。最后,为了公平比较不同方法的性能,研究人员对文献中报告的能源效率采用了标准化方法进行标准化。
论文链接:https://link.springer.com/article/10.1140/epjb/s10051-024-00703-6
在数据分析的计算模型中,深度神经网络 (DNN) 是目前使用最广泛、最成功的方法。然而,DNN 是计算成本高昂的模型,即需要在相当短的时间内进行大量计算才能满足响应时间要求。
在计算模型开发方面,已经研究了各种方法,例如高效深度学习、神经架构搜索和利用矩阵乘法的稀疏性。然而,这些技术的核心是了解硬件如何完成这些操作。
图 1:DNN 参数大小增长作为计算需求指标(灰线),与硬件性能指标(左轴)和制造成本进行比较。(来源:论文)
仅遵循传统的硬件开发实践不足以满足人工智能 (AI) 系统对高效计算能力的需求,无论它们是部署在数据中心还是边缘。
图 2:非常规计算,包括四个主要的、部分重叠的、受大脑启发的计算框架。(来源:论文)
因此,人们对主要针对人工智能优化的节能硬件越来越感兴趣。从人脑汲取灵感,并将这些见解融入硬件设计或智能材料设计。类脑计算可以被视为非常规计算 (UC) 范式的一个子类。UC 的共同特点是它通常涉及直接操作物理系统来执行计算任务,而不是操纵符号。除了类脑计算之外,它还涉及多种方法,例如分子计算、量子计算、光学计算和热力学计算。
类脑计算的目标是通过从大脑的结构和功能中汲取灵感,创建比现有计算系统更高效、适应性更强、更强大、能够执行复杂认知任务的计算系统。神经形态计算、超维计算、储层计算和内存计算,都是可以被视为类脑计算子领域的计算范式,在某些情况下,它们有重叠。
该综述系统回顾了 2016 年至 2023 年之间的类脑计算出版物,以回答以下关键问题:
1、正在探索哪些不同的类脑计算方法?
2、类脑计算适用于哪些应用?
3、不同方法在能源效率方面的权衡是什么?
文献检索是系统文献综述的第一步,也是确定研究问题的第一步。下图图 3 描述了先前文献综述中每个主题的百分比份额。神经形态和内存计算是研究最多的脑启发方法,占先前文献综述的 50% 以上。
图 3:对先前文献综述所研究的脑启发计算主题的概述。(来源:论文)
首先,对神经形态、内存、储层和超维计算进行了基本介绍。
内存(近内存)计算
冯·诺依曼瓶颈是现代计算机提高性能和能效的一个根本限制。在数字计算机中,不同层次的内存单元主要在物理上与处理单元分离,用于存储数据和指令。考虑到有限的内存响应时间和带宽,数据传输(从内存到处理单元,反之亦然)会产生大量的能源和延迟(响应延迟)成本。此外,内存大小和带宽面临着扩展挑战。
这些限制促使硬件设计师从以处理器为中心的设计迁移到以数据为中心的设计,其中内存系统可以同时存储和处理数据,这种方法称为内存计算。内存计算的灵感来自大脑中的突触操作,旨在整合内存和处理单元,以解决现代计算系统的数据移动瓶颈。
图 4:内存计算,从系统架构设计(左)到器件材料科学(右)。(来源:论文)
与数字解决方案相比,这种非冯·诺依曼方法显著减少了内存访问次数,从而提供了一种大规模并行且更节能的解决方案。然而,值得一提的是,驱动内存计算核心需要外围电路,例如模数转换器和数模转换器 (ADC/DAC)、全局内存和控制器逻辑,这些对芯片的总功耗有显著贡献。相关挑战包括实现更高的计算精度 、设备固有的随机切换及其对可靠性的影响以及并行性水平。
神经形态计算
现代图形处理单元 (GPU) 目前可为数学运算(如 MAC)提供大约每秒数十万亿次浮点运算 (TFLOPS)。另一方面,人类大脑在解决复杂的认知任务方面非常高效,例如人脸识别、驾驶和逻辑决策。据估计,大脑每秒执行约 10^15 次「操作」,消耗约 20 W——明显低于执行类似任务的现代超级计算机。
因此,在过去的几十年里,直接在硬件中模拟脑细胞的功能引起了广泛关注,这一概念被称为神经形态计算。目标是开发受大脑启发的适应性强、可学习且节能的计算系统。
图 5:(a)生物神经元细胞示意图和脉冲的电特性。(b)人工脉冲神经元的简单模型。(c)用于硬件实现神经元模型的简单电子电路。(来源:论文)
脉冲神经网络 (SNN) 是人工神经网络 (ANN) 的一个子类。与传统的 DNN 不同,在传统的 DNN 中,实值信号(例如浮点数)被存储为权重和输入激活,而 SNN 将数据编码为脉冲的时间动态。具体而言,脉冲是时间上的离散事件,信息通常基于这些事件的时间顺序而不是其大小进行编码。SNN 方法的核心概念之一是神经元模型,它代表神经元及其互连的硬件(或计算)模型。
神经形态工程受益于材料科学,可以开发出创新设备,从而提供更高效的解决方案。
储层计算
生物神经网络循环连接中发现的时间动态是储层计算领域的另一个大脑灵感来源。尽管循环神经网络 (RNN) 在时间序列分析任务中表现出色,但由于梯度消失问题,RNN 的训练具有挑战性,并且在时间和功耗方面运行成本高昂。此外,需要更多的循环单元和训练数据才能在复杂任务中实现更高的性能。为了克服这些挑战,储层计算 (RC)作为一种 RNN 计算模型,已被证明是一种有效的工具,解决了 RNN 的计算问题。
RC 是一个广义术语,指的是类似方法,包括回声状态网络 (ESN) 和液态机 (LSM),它们使用不同类型的输入编码。
图 6:高级投影的示例和 RC 系统的广义示意图。(来源:论文)
储层可以在不同的材料系统中实现,例如忆阻器、自旋转矩纳米振荡器和有机电化学装置。储层不需要训练;它利用底层材料系统固有的时间动力学进行高维投影。此外,短期记忆是不同储存器的共同特征,它会在特定时间内消失。
储层的功能不易解释,因为它是一个复杂的动态系统。然而,人们认为不同节点之间的循环连接以及(可变的)时间延迟会导致高维输入映射。然后,高维特征变为线性可分,读出(线性)层将这些特征与所需输出相关联。与 RNN 相比,RC 模型的可学习参数明显较少,仅在读出(线性)层中。因此,对于手势识别等时间任务,RC 方法解决了 RNN 训练阶段成本高昂的问题。
超维计算(矢量符号架构)
人脑在完成复杂认知任务时的能量效率可以归因于大脑处理模式而不是执行精确的数学运算。每个突触操作(神经元相互通信并形成/加强连接)都会消耗少量能量,而使用传统电子电路在硬件中实现神经元模型则需要高出几个数量级的能量。因此,最近出现了一种计算框架,其灵感来自神经回路的属性,而不是单个神经元的建模,即超维计算。
超维计算(HD,也称为矢量符号架构)的核心是维数约为 1000 s 的超向量,它们是(伪)随机的,具有独立且相同的分布(i.i.d)分量;即近似正交向量。例如,在经典计算机中,图像由像素强度矩阵表示,其中更高的强度意味着更亮的像素。但是,图像也可以存储为超维向量(例如,维数为 10,000),这是一种完全整体的表示,超向量中的每个数据单元(二进制数字)都包含与其他数据单元相同的信息量。这种超宽信息表示允许更快但更可靠的机器学习方法。
将信息编码为超向量后,可以定义一组操作来组合、操作和比较超向量 。具体而言,超向量类之间的相似性检查是高清计算中数据分类的重要步骤。此外,超维计算中使用三种操作,即捆绑、绑定和置换,分别用于累积、在保留相似性的情况下组合以及生成新的超向量。
用硬件实现向量符号架构来操作大型超向量可能非常具有挑战性。由于内存访问速度慢,比较和排列 HD 向量很快就会成为瓶颈。因此,内存计算作为一种节能的超维计算方法被广泛研究。
AI 进步
图 7 描述了机器学习和机器学习的脑启发硬件两个领域的已发表文章数量,自 2015 年以来,这两个数字都急剧上升。这种趋势在神经形态、内存和储层计算领域更为明显。
图 7:主流脑启发计算范式的已发表文章数量(使用 IEEE Xplore、Nature 和 ACM 数字图书馆)。(来源:论文)
这种相关性很有趣,原因有二。首先,它表明随着人工智能的进步,以及越来越多的应用程序使用智能数据处理,对能够执行大规模神经网络模型的更高效硬件的需求也在增加。人们寻求新颖的解决方案来帮助人工智能变得更加通用并适用于不同的应用。其次,人工智能的计算需求和研究兴趣都可能继续上升。
能源效率视角
除了计算密度(单位面积性能)和计算精度之外,能源效率是主要的基准指标之一。在此,研究人员建议采用 8 位整数乘法累加(MAC)运算作为标准计算方法,用于比较详细说明其计算系统功耗的研究中效率指标。图 8 总结了综合研究文章的标准化能效报告。
图 8:不同非常规计算方法中标准化为 8 位 MAC 操作的能效报告比较。(来源:论文)
无论使用何种硬件类型(即使用基于 CMOS 的 SRAM 单元还是非易失性忆阻设备),内存计算都能提供最高的能效。这种观察结果可能有两种解释。首先,内存计算(尤其是交叉阵列)可以大规模并行化 MAC 操作。此外,累积操作是基于基尔霍夫定律的电流累积执行的,这有助于随着并行操作数量的增加而降低总体操作成本。
其次,静态随机存取存储器(SRAM)计算受益于成熟的互补金属氧化物半导体(CMOS)技术。这使得外围电路和处理器集成更容易、更高效。此外,各种材料科学研究报告了非易失性存储设备,其中可以实现更高的电阻水平动态范围,从而实现更高的计算精度。这些结果表明,通过更好的架构、材料和软硬件协同设计,内存计算可以为并行处理设定新的标准。
图 8 中进一步突出的是,加速矩阵向量乘法 (MVM) 的光子张量核尽管具有令人钦佩的吞吐量,但报告的能源效率却不高。尽管光子与内存计算的集成引起了人们的广泛关注,但光电源、信号转换和调制器是主要的耗电设备。
降低吞吐量(即单位时间内的操作次数)可以提高光子张量核的能效。图 8 显示了光子张量核的最高能效。然而,随着矩阵矢量加速器的大小(相当于吞吐量)的增加,功耗显著增加。
储层计算实现代表了一种光子计算方法。与光子张量核的结果一致,基于之前提供的相同论据,光学储层实现在能效方面也受到限制。提高效率指标的一种可能方法是将所有存储层(即输入层、存储层和读出层)实现在一个信号域中。这种方法可能会消除一些必要的信号转换并降低总体能耗。因此,可以得出结论,未来的研究应努力通过创新解决方案解决上述挑战,以引入不仅快速而且高效的光子计算机。
最后,研究人员写道:「类脑计算领域具有巨大潜力,有望彻底改变以人脑效率和适应性为目标的计算领域,甚至超越人脑。我们可能很快就能构建不仅功能更强大,而且更节能、更灵活、适应性更强的计算系统,为智能计算的新时代铺平道路。」
参考内容:https://techxplore.com/news/2024-08-brain.html