哈佛、英特尔等60+顶尖机构联手打造：NeuroBench定义神经形态计算评测新范式

2025-02-17 03:01

编辑 | 2049在人工智能快速发展的今天，计算效率成为制约其进一步发展的关键瓶颈。神经形态计算凭借其借鉴生物大脑的创新架构，在能效比和实时处理等方面展现出巨大潜力。然而，该领域长期缺乏统一的评测基准，使得技术创新难以得到客观衡量和有效比较。

编辑 | 2049

在人工智能快速发展的今天，计算效率成为制约其进一步发展的关键瓶颈。神经形态计算凭借其借鉴生物大脑的创新架构，在能效比和实时处理等方面展现出巨大潜力。然而，该领域长期缺乏统一的评测基准，使得技术创新难以得到客观衡量和有效比较。

近日，由哈佛大学领导，来自全球多个顶尖大学、研究机构和公司的研究人员组成的研究团队提出了首个面向神经形态计算的统一评测框架 NeuroBench，该框架通过算法和系统双轨并行评测，为神经形态计算技术的发展提供了共同的评估标准。

NeuroBench 是一个由国际多方合作发起的类脑计算基准测试框架项目，旨在为新兴的类脑计算技术建立统一的评估标准。该项目由 60 多家来自产业界和学术界的机构共同参与，包括英特尔、SynSense、哈佛大学等顶尖科技公司和研究机构。

该研究以「The neurobench framework for benchmarking neuromorphic computing algorithms and systems」为题，发表于 2025 年 2 月 11 日的《Nature Communications》。

论文链接：https://www.nature.com/articles/s41467-025-56739-4

代码地址：https://github.com/NeuroBench/neurobench

研究背景

神经形态计算研究领域目前面临三大挑战：

第一是缺乏正式定义，不同方法对「神经形态」的理解和实现方式差异较大。早期研究主要关注如何在硅基硬件上模拟生物神经元的物理特性，而现今的研究已扩展到更广泛的仿生计算方法，包括算法、硬件和系统层面的创新。

第二是实现工具多样化，各类框架针对不同目标进行优化，导致可移植性和标准化程度较低。有的工具专注于神经科学模拟，有的致力于自动化 SNN 训练，这种多样性虽然促进了不同方法的探索，但也增加了评测难度。

第三是研究进展快速演进，评测体系需要与技术发展同步更新。这些挑战使得技术创新难以得到客观衡量，制约了领域的健康发展。

双轨并行的评测架构设计

针对这些挑战，NeuroBench框架进行了系统性创新，采用算法和系统双轨并行的评测架构。

图示：NeuroBench 框架的双轨设计示意图。（来源：论文）

算法评测轨道

算法评测轨道主要评估硬件无关的算法性能，包含四个基准任务：少样本连续学习（FSCIL）、事件相机目标检测、运动皮层解码和混沌函数预测。

FSCIL 任务基于多语言语音关键词数据集（MSWC），要求模型在仅有少量样本的情况下逐步学习新语言的关键词，同时保持对已学习语言的识别能力。
事件相机目标检测任务使用 Prophesee 1MP 汽车数据集，评估模型处理高动态范围和时间分辨率数据的能力。
运动皮层解码任务基于非人灵长类动物的运动皮层记录数据，测试模型对生物神经信号的处理能力。
混沌函数预测则使用 Mackey-Glass 时间序列，为小型混合信号系统原型提供评测基准。

每个任务都设计了多维度的评估指标，包括正确率、参数量、连接稀疏度和激活稀疏度等。

例如，在 FSCIL 任务中，M5 ANN 基线和 SNN 基线在 100 个基础类别上分别达到 97.09% 和 93.48% 的准确率。在增量学习阶段，原型网络方法使 ANN 和 SNN 分别实现了 89.27% 和 75.27% 的平均准确率。在系统规模方面，SNN 基线的参数量为 1.36 × 10^7 字节，模型执行率为 200 Hz，而 ANN 基线为 6.03 × 10^6 字节，执行率为 1 Hz。

图示：NeuroBench 算法轨道软件架构概述。（来源：论文）

系统评测轨道

系统评测轨道则关注完整部署系统的实际性能。

声学场景分类任务要求系统对来自 DCASE 2020 数据集的 1 秒音频样本进行实时分类。研究团队基于 Xylo 神经形态芯片实现的系统采用了具有多突触时间常数的前馈 SNN 网络。

与 Arduino 基线相比，在相近的分类准确率下（Xylo 79.9% vs Arduino 79.6%），Xylo 系统展现出显著的能效优势：动态功耗从 Arduino 的 21.32 mW 降至 0.341 mW，每次推理的动态能耗从 0.934 mJ 降至 0.028 mJ。

图示：系统评测中的 Xylo 基准系统架构图。（来源：论文）

性能评估

在 QUBO 优化任务中，研究团队将 Loihi 2 神经形态芯片实现的并行模拟退火算法与 CPU 上的传统算法进行了对比。

结果显示，在紧时间约束下（10^-2 秒以内），Loihi 2 可以处理的问题规模是 CPU 的 4 倍。更重要的是，Loihi 2 的功耗仅为 CPU 最佳求解器的 1/37，展现出显著的能效优势。这一结果证明了神经形态计算在组合优化问题上的潜力。

为确保评测的客观性和可重复性，NeuroBench 对评测流程和指标进行了规范化设计。

算法评测要求提供完整的复杂度分析，包括参数量、连接稀疏度、激活稀疏度等静态指标，以及基于工作负载的动态指标。

系统评测则强调端到端性能，要求测量包括数据预处理在内的完整处理链路的执行时间和功耗。所有基准任务和评测工具均开源托管，并提供详细文档，确保实验可重复性。

图示：QUBO 优化任务的性能对比结果。（来源：论文）

未来展望

NeuroBench 的推出标志着神经形态计算评测进入新阶段。该框架通过算法和系统双轨并行评测，既支持基础研究探索，又推动实用系统发展。

未来框架将持续扩展，计划加入闭环基准测试等新任务，以更全面地评估神经形态系统在实际场景中的适应性和鲁棒性。

哈佛校长辞职：被指学术不端，史上在位时间最短

学术抄袭丑闻已经严重影响了学校的运转。哈佛大学和美国高等教育界，近期面临着前所未有的挑战和不断升级的争议。本周二，哈佛大学校长克洛迪娜・盖伊（Claudine Gay）发表声明，宣布辞去哈佛大学校长一职。盖伊于去年 7 月起出任哈佛大学校长，最终任期仅 6 个月零两天，是哈佛大学历史上任职时间最短的校长。去年，盖伊的任命被视为哈佛大学的突破性时刻。她不仅是首位黑人校长和第二位女性校长，更以海地移民的女儿和政府中少数群体代表专家的身份，在美国最高法院驳回了哈佛大学等高校歧视种族的招生的标志性时刻走马上任。盖伊的倒台部

1/3/2024 3:40:00 PM

机器之心

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。最近，许多机构在训练 SOTA 生成式 AI 模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的 PaLM 模型训练过程中出现了多达 20 次的损失尖峰。数值偏差是造成这种训

5/13/2024 11:01:00 AM

机器之心