开源 AI 大模型“洗牌”：阿里通义千问 Qwen2-72B 成“王者”，傲视 Meta Llama-3、微软 Phi-3 等群雄

2024-06-28 07:49

感谢Hugging Face 联合创始人兼首席执行 Clem Delangue 于 6 月 26 日在 X 平台发布推文，表示阿里云开源的通义千问（Qwen）指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。Hugging Face 公布了全新的开源大语言模型排行榜，通过 300 片英伟达 H100 GPU，重新运行 MMLU-pro 等标准评估目前主流的大语言模型，并在其要点介绍中称 Qwen2-72B 为“王者”，并表示中国的诸多开源模型在榜单上有一席之位。他表示，为了提供全新的开源大模型排行榜，使

感谢Hugging Face 联合创始人兼首席执行 Clem Delangue 于 6 月 26 日在 X 平台发布推文，表示阿里云开源的通义千问（Qwen）指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。

Hugging Face 公布了全新的开源大语言模型排行榜，通过 300 片英伟达 H100 GPU，重新运行 MMLU-pro 等标准评估目前主流的大语言模型，并在其要点介绍中称 Qwen2-72B 为“王者”，并表示中国的诸多开源模型在榜单上有一席之位。

他表示，为了提供全新的开源大模型排行榜，使用了 300 块 H100 对目前全球 100 多个主流开源大模型，例如，Qwen2、Llama-3、mixtral、Phi-3 等，在 BBH、MUSR、MMLU-PRO、GPQA 等基准测试集上进行了全新评估。

阿里巴巴开源的 Qwen-2 72B 模型在激烈竞争中脱颖而出，不仅超越了科技巨头 Meta 的 Llama-3，还超越了法国知名大模型平台 Mistralai 的 Mixtral，成为了新的行业领军者。IT之家援引官方博文附上榜单排行如下：

排名新的榜单排名⭐Qwen/Qwen2-72B-Instruct2meta-llama/Meta-Llama-3-70B-Instruct3microsoft/Phi-3-medium-4k-instruct401-ai/Yi-1.5-34B-Chat5CohereForAI/c4ai-command-r-plus6abacusai/Smaug-72B-v0.17Qwen/Qwen1.5-110B8Qwen/Qwen1.5-110B-Chat9microsoft/Phi-3-small-128k-instruct1001-ai/Yi-1.5-9B-Chat

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

感谢通义千问（Qwen）今天宣布经过数月的努力，Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级，并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下：5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B在中文英语的基础上，训练数据中增加了 27 种语言相关的高质量数据；多个评测基准上的领先表现；代码和数学能力显著提升；增大了上下文长

6/7/2024 7:42:41 AM

故渊

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试

6/22/2024 8:17:14 PM

满河（实习）

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama

感谢在今天的 2024 云栖大会上，阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5，其中，旗舰模型 Qwen2.5-72B 号称性能超越 Llama 405B。Qwen2.5 涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，每个尺寸都有基础版本、指令跟随版本、量化版本，总计上架 100 多个模型。Qwen2.5 语言模型：0.5B、1.5B、3B、7B、14B、32B 以及 72B;Qwen2.5-Coder 编程模型：1.5B、7B 以及即将推出的 32B;Qwen2.5-Math 数

9/19/2024 2:21:51 PM

汪淼

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

开源 AI 大模型“洗牌”：阿里通义千问 Qwen2-72B 成“王者”，傲视 Meta Llama-3、微软 Phi-3 等群雄

相关资讯

阿里云通义千问系列 AI 开源模型升至 Qwen2：5 个尺寸、上下文长度最高支持 128K tokens

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama