阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美

感谢阿里巴巴日前宣布,开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B,该模型在根蒂根基能力评价中与 Meta-Llama3-70B 相媲美,在 Chat 评价中表现出色,包括 MT-Bench 和 AlpacaEval 2.0。IT之家汇总主要内容:据介绍,Qwen1.5-110B 与其他 Qwen1.5 模型相似,采用了相同的 Transformer 解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效。该模型支持 32K tokens 的上下文长度,同时它仍然是多言语的,支持英、

感谢阿里巴巴日前宣布,开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B,该模型在根蒂根基能力评价中与 Meta-Llama3-70B 相媲美,在 Chat 评价中表现出色,包括 MT-Bench 和 AlpacaEval 2.0。

IT之家汇总主要内容:

据介绍,Qwen1.5-110B 与其他 Qwen1.5 模型相似,采用了相同的 Transformer 解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效。该模型支持 32K tokens 的上下文长度,同时它仍然是多言语的,支持英、中、法、西、德、俄、日、韩、越、阿等多种言语。

阿里 Qwen1.5-110B 模型与最近的 SOTA 言语模型 Meta-Llama3-70B 以及 Mixtral-8x22B 进行了比较,结果以下:

阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美

上述结果显示,新的 110B 模型在根蒂根基能力方面至少与 Llama-3-70B 模型相媲美。在这个模型中,阿里巴巴没有对预训练的方法进行大幅改变,因此他们认为与 72B 相比的机能提升主要来自于增加模型规模。

阿里还在 MT-Bench 和 AlpacaEval 2.0 上进行了 Chat 评价,结果以下:

阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型,与 Meta Llama3-70B 相媲美

阿里巴巴表示,与之前发布的 72B 模型相比,在两个 Chat 模型的基准评价中,110B 表现显著更好。评价结果的持续改善表明,即使在没有大幅改变后训练方法的情况下,更强大、更大规模的根蒂根基言语模型也可以带来更好的 Chat 模型。

最后,阿里方面表示,Qwen1.5-110B 是 Qwen1.5 系列中规模最大的模型,也是该系列中首个拥有超过 1000 亿参数的模型。它在与最近发布的 SOTA 模型 Llama-3-70B 的机能上表现出色,并且明显优于 72B 模型。

给TA打赏
共{{data.count}}人
人已打赏
AI

清华大学建立人工智能学院,图灵奖获得者姚期智任院长

2024-4-27 16:35:38

AI

搭载星火 AI 大模型,科大讯飞下月将推出语音台历产品

2024-4-28 7:32:08

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索