架构

线性化注意力综述:突破Softmax二次复杂度瓶颈的高效计算方案

大型语言模型在各个领域都展现出了卓越的性能,但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。 本文将深入探讨如何通过替代方案实现线性时间复杂度,从而突破这一计算瓶颈。 注意力机制基础理论本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transformer架构原理。

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

大模型Scaling Law终结,前段时间曾被吵得沸沸扬扬。 面对诸多的质疑,硅谷巨头们用行动给出了截然不同的答案。 谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

一文读懂 GPU 资源动态调度

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。 众所周知,随着人工智能、深度学习以及高性能计算(HPC)的快速发展,GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。

1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

量化到1 bit的LLM还能再突破? 这次,他们对激活值下手了! 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值:图片论文地址:,激活值量化通常是比较难办的。

Hymba:结合注意力头和SSM头的创新型语言模型方案

近年来,大语言模型(LLM)在各个领域取得了显著成效。 但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。 而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。

重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能

就在昨天,Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来! 有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。 小编立马求证了一番,的确Github上有提到:Mooncake 正在服务Kimi平台。

一夜小模型王座易主!英伟达发布超强小模型,新混合架构威力超Transformer,性能、速率、缓存全面超越Llama3.2!

编辑 |言征小模型王座一夜易主了! 冷不防,英伟达就丢出了一个新混合架构,以后不再只是Transformer的天下了。 日前,NVIDIA刚刚发布了Hymba-1.5B-Base,这是一个将Transformer注意力机制与状态空间模型(SSM)集成的小型语言模型。

Transformer为什么一定要添加一个Positional Encoding模块?

之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。 为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式先说结论:没有Positional Encoding的transformer架构具有置换等变性。 证明如下:1.

架构赋能 AI:知识工程推动下的软件架构数字化

TL;DR:我们试验了将 AI 应用到基于 Protobuf 的微服务架构中,基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中,构建了一套完整的 AI4SE 原型,在需求、设计、开发、测试和运维等阶段,这里是我们的思考和实践。 过去几个月里,我们在各大技术大会上频繁看到生成式 AI 的应用,很多研发组织都在尝试将其引入开发的各个环节。 然而,随着 AI 技术的深入应用,不少组织也发现了基础知识工程方面的种种挑战。

英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47

科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。T

30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线

感谢首个国产纯自研视频大模型 Vidu 上线,目前向用户开放了文生视频、图生视频两大核心功能,提供 4 秒和 8 秒两种时长选择,分辨率最高为 1080P。用户无需申请,使用邮箱注册即可体验。 AI在线附 Vidu 官网:www.vidu.studioVidu 模型于今年 4 月在 2024 中关村论坛首次亮相,由清华大学与生数科技联合发布,其核心技术 U-ViT 架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与 Transformer 融合的架构。▲

华为云 CEO 张平安:中国的 AI 应追求在行业领域构筑大模型的全球领先地位

感谢2024 世界人工智能大会今日在上海世博中心开幕,华为常务董事、华为云 CEO 张平安表示,中国的 AI 发展离不开算力基础设施的创新,并且要敢于开放行业场景,让 AI 在行业应用上领先。张平安提出,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。以钢铁行业为例,目前盘古大模型已经在宝钢的一条热轧生产线上线,预测钢板精度提高 5%,每年有望多生产 2 万吨钢板,增收 9000 多万元。

小鹏技术标签又添新成员,携手大众通过EEA定义下一代智能汽车

在智能化、网联化技术变革的席卷下,车辆已不再是简单的交通工具,而是变成独立可移动的服务空间。在这一过程中,中国新能源汽车无疑跑在了世界前列,一个最明显的标志就是中国汽车工业曾经的学习对象——大众汽车,已经开始反向学习“取经”。今年4月,小鹏汽车与大众汽车集团签订EEA电子电气架构技术战略合作框架协议,双方将基于小鹏汽车最新一代电子电气架构,联合开发并将其集成到大众汽车在中国的CMP平台上。双方联合开发的电子电气架构预计将从2026年起应用于在中国生产的大众汽车品牌电动车型。这是继“股权投资”合作、“联合采购”合作后

中国首个 Sora 级模型 Vidu 发布:可生成最长 16 秒、最高 1080P 视频

感谢生数科技今天出席中关村论坛未来人工智能先锋论坛,携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu,被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。 根据官方描述,Vidu 模型融合 Diffusion 与 Transformer,开创性创建了 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。官方表示 Vidu 不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生

极氪发布浩瀚-M架构并全球首秀极氪MIX,未来电动车架构打造未来的家

今日,2024(第十八届)北京国际汽车展览会(简称:北京车展)盛大开幕,正值成立三周年的极氪智能科技携旗下全系车型亮相北京车展,并正式发布浩瀚-M架构。同时,基于该架构打造的首款家庭出行产品极氪 MIX迎来全球首秀,重新构建未来出行空间新体验。极氪发布浩瀚-M架构 极氪MIX全球首秀在极氪展台的发布会上,极氪智能科技副总裁杨大成回顾了浩瀚架构的进化历程,作为全球最大带宽的纯电架构,四年前正式发布的SEA浩瀚架构赋予极氪产品“天生好底子”;从极氪首款车型极氪001,到最新发布的极氪009光辉,极氪的每一款车型都在各自

「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资

近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股

岩芯数智推出非Attention机制大模型,支持离线端侧部署

1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大