阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

感谢通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下:5 个尺寸的预训练和指令微调模型,席卷 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B在中文英语的基础上,训练数据中增加了 27 种谈话相关的高质量数据;多个评测基准上的抢先表现;代码和数学能力明显提升;增大了上下文长

感谢通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

IT之家附上 Qwen 2.0 主要内容如下:

5 个尺寸的预训练和指令微调模型,席卷 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上,训练数据中增加了 27 种谈话相关的高质量数据;

多个评测基准上的抢先表现;

代码和数学能力明显提升;

增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中席卷 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B参数量0.49B1.54B7.07B57.41B72.71B非 Embedding 参数量0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTie EmbeddingTrueTrueFalseFalseFalse上下文长度32K32K128K64K128K

在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。这一次,所有尺寸的模型都使用了 GQA,以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。

模型评测

相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。

在针对预训练谈话模型的评估中,对比当前最优的开源模型,Qwen2-72B 在席卷自然谈话理解、知识、代码、数学及多谈话等多项能力上均明显超越当前抢先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

IT之家附上参考地址

你好,Qwen2

给TA打赏
共{{data.count}}人
人已打赏
AI

挑战英伟达 AMD,背靠高通和富士康的初创公司耐能发布笔记本 NPU 新品

2024-6-6 23:35:57

AI

支付宝推出 AI 毛发自测工具:上传照片可测脱发程度

2024-6-7 7:44:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索