矩阵
首款大模型杀进C-Eval榜单前三,这家仅成立两个月的初创公司凭什么?
半年多来,国内大型模型如火如荼发展,已催生出「百模大战」的景象。
比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了
一年时间,斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进,对大模型的适用性也更强了。
10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本
2019 年,纽约大学、亚马逊云科技联手推出图神经网络框架 DGL (Deep Graph Library)。如今 DGL 1.0 正式发布!
- 1