比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等言语模型到 SAM 和 Stable Diffusion 等图象模型,Transformer 正以锐不可当之势席卷这个世界,但人们也不禁会问:Transformer 是唯一选择吗?斯坦福大学和纽约州立大学布法罗分校的…- 4
- 0
Monarch Mixer (M2)
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!