
岩芯数智推出非Attention机制大模型,支持离线端侧部署
作者:机器之心
2024-01-25 09:27
1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大
1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。
岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。“在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对 Transformer架构的过度依赖,寻求更优的办法替代 Transformer。就连Transformer 的论文作者之一Llion Jones也在探索‘Transformer 之后的可能’,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。”在发布会上,岩芯数智称,在同等资源条件下,Yan架构的模型,训练效率和推理吞吐量分别是Transformer架构的7倍及5倍,并使记忆能力得到3倍提升。Yan架构的设计,使得Yan模型在推理时的空间复杂度为常量,因此针对Transformer面临的长序列难题,Yan模型同样表现优异。对比数据表明,在单张4090 24G显卡上,当模型输出token的长度超出2600时,Transformer的模型会出现显存不足,而Yan模型的显存使用始终稳定在14G左右,理论上能够实现无限长度的推理。

相关标签:
相关资讯
与其造神,不如依靠群体的力量:这家公司走出了一条不同于OpenAI的AGI路线
看过剧版《三体》的读者或许都记得一个名场面:来自三体的智子封锁了人类科技,还向地球人发出了「你们是虫子」的宣告。但没有超能力的普通人史强却在蝗群漫天飞舞的麦田中喊出:「把我们人类看成是虫子的三体人,他们似乎忘了一个事实,那就是虫子从来就没有被真正地战胜过」。三体人看到的是单个虫子脆弱的一面 —— 你可以轻松踩死一只蚂蚁,打死一只蝗虫、蜜蜂。但他们没有看到的是,当这些虫子集结在一起时,它们可以涌现出远超个体简单相加的力量。科学家们很早就发现了这种力量,并将其命名为「群体智能」(Swarm Intelligence)。
9/27/2024 1:03:00 PM
机器之心
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。T
10/9/2024 10:44:18 AM
故渊
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo
4/12/2024 7:43:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
人形机器人
苹果
深度学习
AI视频
模态
字节跳动
xAI
驾驶
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
大型语言模型
训练