AI在线 AI在线

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

作者:量子位
2025-04-15 09:24
来自国内的光电混合芯片技术,登上最新顶刊Nature! 这次的成果主要聚焦在了自主研发的光子计算处理器——PACE(Photonic Arithmetic Computing Engine)。 简单来说,PACE是一种基于光电混合的架构,它通过光执行矩阵向量乘法,可以实现超低延迟和高能效的计算。

来自国内的光电混合芯片技术,登上最新顶刊Nature!

图片

这次的成果主要聚焦在了自主研发的光子计算处理器——PACE(Photonic Arithmetic Computing Engine)。

简单来说,PACE是一种基于光电混合的架构,它通过光执行矩阵向量乘法,可以实现超低延迟和高能效的计算。

根据论文中公开的数据显示,PACE在解决组合优化问题(如伊辛问题和最大割/最小割问题)时,计算延迟低至3纳秒,比传统GPU快了两个数量级。

这一突破的核心在于PACE的高度集成设计

这个系统集成了超过16000个光子组件,并通过创新的2.5D混合先进封装技术,将光子集成电路(PIC)与电子集成电路(EIC)无缝集成。

这种设计不仅解决了大规模光电系统集成中的技术难题,更为商业化落地奠定了基础。

而这个芯片技术,正是来自国内初创企业曦智科技

据了解,这是继八年前曦智科技创始人沈亦晨博士在Nature发表封面论文后,再一次登上这一顶刊。

那么PACE如此的速度,到底是如何做到的呢?

首次公开:16000个光子组件的高度集成

随着人工智能的快速发展,计算需求呈爆发式增长,传统电子计算面临着功耗、速度等方面的瓶颈。

光子计算凭借光的独特性质,如同时进行乘法和累加过程、数据传输能耗低、避免电阻损耗和发热问题等,成为极具潜力的替代方案,受到全球广泛关注。

然而,光子计算在发展过程中面临诸多挑战。一方面,集成光子学制造相对不成熟,缺乏先进的封装解决方案,导致大规模集成光子系统在性能提升、标准设计与验证以及封装等方面困难重重。

另一方面,光子计算在光学存储、计算精度(尤其在大规模复杂电路中)以及适配模型和算法等方面存在不足,限制了其商业化进程。

为此,曦智科技提出的PACE采用混合架构(首次对外公开),将光子集成电路(PIC)和电子集成电路(EIC)集成在一个系统级封装(SiP)中。

图片

△PACE系统部署

PIC 负责执行光矩阵向量乘法(oMAC)操作,EIC则处理控制、迭代逻辑、数据输入输出、存储以及时钟控制等功能。

这种架构设计充分发挥了光子计算在速度和低延迟方面的优势,以及电子计算在逻辑处理和存储方面的长处。

在PIC中,团队设计了1×64光学数据模块和64×64权重模块执行oMAC操作。

光信号通过高性能光栅耦合器从外部激光阵列耦合进入电路,经过向量调制器阵列和权重调制器模块进行调制,最后在光电探测器阵列进行信号转换和合并。

EIC基于28-nm商业CMOS技术设计,PIC则是基于65-nm硅光子技术构建,单个芯片集成了超过16000个光子组件,实现了高度集成。

这种混合架构充分发挥了光计算的并行优势:光信号在波导中传输时天然完成乘加运算(oMAC),而电子电路则处理逻辑控制与数据存储。

实验数据显示,64×64矩阵运算延迟仅3纳秒,比传统GPU快500倍

图片

除此之外,研究团队创造性地将光学矩阵运算应用于组合优化问题。

通过设计”噪声驱动递归算法”,PACE系统能够高效求解伊辛模型:

图片

在求解63节点Max-cut问题时,系统经过平均537次迭代(耗时2.7μs)即可达到92.7%的收敛率,相比NVIDIA A10 GPU提速295倍。

更引人注目的是”图像搜索”演示,系统能从随机初始状态收敛到预设的”猫”图像目标。

图片图片

Nature审稿人对曦智科技团队在光子计算工程化方面作出的努力给予了高度肯定:

在光子计算领域,通常会通过小规模的演示对大规模系统性能进行乐观推断,但本文中的数据均来自整个PACE计算系统的实测性能,作者们工程化地实现了一个超大规模光子矩阵计算系统,可谓“壮举”。

还全球首发了新一代光电计算卡

就在前不久的3月25日,曦智科技还正式推出全新一代光电混合计算卡 ——曦智天枢

图片

曦智天枢深度融合了光芯片与电芯片的优势,采用先进的3D封装技术,是一款高度可编程的光电混合计算卡。

与前代产品相比,其在光电集成度、光子矩阵规模、计算精度及可编程性等方面均实现了显著提升。

它不仅支持科学计算(如伊辛算法),还增强了对ResNet50等商业算法的适配性,进一步拓宽了应用场景。

曦智天枢采用非相干架构设计,具备出色的抗干扰能力和高计算精度。

其核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,通过3D先进封装技术实现协同工作,主频速率达1GHz,输出精度为8bit。

光芯片面积提升至600平方毫米,器件数量超过四万个,集成度大幅提高。

此外,其最大支持128x128矩阵规模,运算能力和灵活性均得到显著增强。用户可通过API自由配置计算矩阵系数,实现更高效的优化与适配。

在软件方面,产品搭载了曦智光电混合计算软件栈,支持主流框架如PyTorch和ONNX,用户可通过曦智编译器灵活构建高效的应用模型。

不仅如此,平台还支持用户自定义算子,进一步扩展了算法开发的灵活性。

对此,沈亦晨博士表示:

曦智天枢首次实现了光电混合计算在复杂商业化模型中的应用,是曦智科技光电混合算力技术在产品化和商业化进程中的重要突破。

我们坚信,光电混合将会为人工智能、大语言模型、智能制造等领域带来算力革新。

光+电,会是未来的答案。

相关标签:

相关资讯

重磅!量子科技再突破:中国科学家光量子芯片登上Nature

2025年2月20日,北京大学物理学院现代光学研究所王剑威教授和龚旗煌教授课题组与山西大学苏晓龙教授课题组合作,在国际顶级学术期刊《自然》(Nature)上发表一项以《基于集成光量子频率梳芯片的连续变量多体量子纠缠》(“Continuous-variable multipartite entanglement in an integrated microcomb”)为题的突破性研究成果Nature审稿人高度评价并指出:“这项工作首次在光学芯片上实现多比特连续变量量子纠缠,这一成果为可扩展量子信息处理奠定了重要里程碑。 ”(This is the first time that multipartite entanglement is realized on an optical chip, which constitutes an important milestone for scalable quantum information)这是在国际上首次实现了基于集成光量子芯片的连续变量簇态量子纠缠,为光量子芯片的大规模扩展及其在量子计算、量子网络和量子信息等领域的应用奠定了重要基础我们一起扒一扒这篇论文:划重点:关键词一: 集成微梳(Integrated Microcomb) 这次的量子纠缠,是在一个 集成了微梳的微型芯片 上实现的。 微梳就像一个精密的“频率梳子”,能产生多频率的光,为量子信息的编码和处理提供了强大的工具关键词二: 连续变量(Continuous-Variable)别再只盯着“量子比特”啦!
2/24/2025 10:09:18 AM
AI寒武纪

「对中国半导体实施卡脖子战略」:美国通过756页AI战略报告

由众多硅谷科技巨头 CEO、首席科学家们组成的 NSCAI 委员会,建议通过卡住半导体出口的方式防止中国在未来新技术发展中占据主导地位。
3/2/2021 2:40:00 PM
机器之心

手掌大小芯片碾压全球算力!微软量子计算核弹级突破,纳德拉:构建全新物质状态

想象一下,一个放在手掌上的芯片,能解决当今地球上所有计算机加起来都无法解决的问题。 Nature报道:量子计算,再迎新突破——微软推出Majorana 1,这是首款基于新型拓扑核心架构的量子芯片。 官方称,有望在数年内实现能够解决工业级别规模问题的量子计算机。
2/20/2025 1:20:00 PM
量子位