阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

感谢阿里巴巴日前宣布，开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B，该模型在根蒂根基能力评价中与 Meta-Llama3-70B 相媲美，在 Chat 评价中表现出色，包括 MT-Bench 和 AlpacaEval 2.0。IT之家汇总主要内容：据介绍，Qwen1.5-110B 与其他 Qwen1.5 模型相似，采用了相同的 Transformer 解码器架构。它包含了分组查询注意力（GQA），在模型推理时更加高效。该模型支持 32K tokens 的上下文长度，同时它仍然是多言语的，支持英、

感谢阿里巴巴日前宣布，开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B，该模型在根蒂根基能力评价中与 Meta-Llama3-70B 相媲美，在 Chat 评价中表现出色，包括 MT-Bench 和 AlpacaEval 2.0。

IT之家汇总主要内容：

据介绍，Qwen1.5-110B 与其他 Qwen1.5 模型相似，采用了相同的 Transformer 解码器架构。它包含了分组查询注意力（GQA），在模型推理时更加高效。该模型支持 32K tokens 的上下文长度，同时它仍然是多言语的，支持英、中、法、西、德、俄、日、韩、越、阿等多种言语。

阿里 Qwen1.5-110B 模型与最近的 SOTA 言语模型 Meta-Llama3-70B 以及 Mixtral-8x22B 进行了比较，结果以下：

阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

上述结果显示，新的 110B 模型在根蒂根基能力方面至少与 Llama-3-70B 模型相媲美。在这个模型中，阿里巴巴没有对预训练的方法进行大幅改变，因此他们认为与 72B 相比的机能提升主要来自于增加模型规模。

阿里还在 MT-Bench 和 AlpacaEval 2.0 上进行了 Chat 评价，结果以下：

阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

阿里巴巴表示，与之前发布的 72B 模型相比，在两个 Chat 模型的基准评价中，110B 表现显著更好。评价结果的持续改善表明，即使在没有大幅改变后训练方法的情况下，更强大、更大规模的根蒂根基言语模型也可以带来更好的 Chat 模型。

最后，阿里方面表示，Qwen1.5-110B 是 Qwen1.5 系列中规模最大的模型，也是该系列中首个拥有超过 1000 亿参数的模型。它在与最近发布的 SOTA 模型 Llama-3-70B 的机能上表现出色，并且明显优于 72B 模型。

{{userData.name}}已认证

阿里巴巴通义千问开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

清华大学建立人工智能学院，图灵奖获得者姚期智任院长

搭载星火 AI 大模型，科大讯飞下月将推出语音台历产品

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！