研究职员推出 xLSTM 神经网络 AI 架构:并行化处置 Token、有望迎战 Transformer

研究职员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期影象(Long short-term memory,LSTM)神经网络布局,可用来处理轮回神经网络(RNN)长期影象能力不足的问题。而最近 Sepp Hochreiter 在 arXiv 上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以处理 LSTM 长期以来“只能按照时序处置信息”的“最大痛点”,从而“迎战”目前广受欢迎的 Transformer 架构。IT之家

研究职员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期影象(Long short-term memory,LSTM)神经网络布局,可用来处理轮回神经网络(RNN)长期影象能力不足的问题。

而最近 Sepp Hochreiter 在 arXiv 上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以处理 LSTM 长期以来“只能按照时序处置信息”的“最大痛点”,从而“迎战”目前广受欢迎的 Transformer 架构。

研究职员推出 xLSTM 神经网络 AI 架构:并行化处置 Token、有望迎战 Transformer

IT之家从论文中获悉,Sepp Hochreiter 在新的 xLSTM 架构中采用了指数型门控轮回网络,同时为神经网络布局引入了“sLSTM”和“mLSTM”两项影象规则,从而允许相关神经网络布局能够有效地利用 RAM,实现类 Transformer“可同时对所有 Token 举行处置”的并行化操作。

研究职员推出 xLSTM 神经网络 AI 架构:并行化处置 Token、有望迎战 Transformer

团队使用了 150 亿个 Token 训练基于 xLSTM 及 Transformer 架构的两款模型举行测试,在评估后发现 xLSTM 表现最好,尤其在“语言能力”方面最为突出,据此研究职员认为 xLSTM 未来有望能够与 Transformer 举行“一战”。

参考

xLSTM: Extended Long Short-Term Memory

给TA打赏
共{{data.count}}人
人已打赏
AI

科大讯飞:与华为、韩端机器人在人工智能领域始终保持良好的分工与交流

2024-5-13 7:54:47

AI

可用 AI 写 Java 顺序,甲骨文推出 Oracle Code Assist 编程助理

2024-5-13 9:34:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索