新一代注意力体制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
Lightning Attention-2 是一种新型的线性注意力体制,让长序列的训练和推理成本与 1K 序列长度的一致。大谈话模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大谈话模型均采用的 Transformer 架构有着相对于序列长度的二次盘算复杂度。这意味着随着序列长度的增加,需要的盘算资源成几何倍…- 10
- 0
Lightning Attention-2
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!