在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

大模型格局又变了？刚刚，国内 AI 领域传来一则重要消息。头部大模型创业公司阶跃星辰，凭借万亿参数大语言模型 Step-2，在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩，成为了前十名之内唯一的国产大模型。

大模型格局又变了？

刚刚，国内 AI 领域传来一则重要消息。

头部大模型创业公司阶跃星辰，凭借万亿参数大语言模型 Step-2，在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩，成为了前十名之内唯一的国产大模型。

排在阶跃星辰 Step-2 身前的，只剩下 OpenAI 和 Anthropic 两家公司。

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

榜单地址：https://livebench.ai/#

LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的，今年六月才首次上线。

它旨在消除现有 LLM 基准的局限性，被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

LiveBench 提出了一种创新的基准测试方法，其中包含 6 大类 18 项任务。

为了避免大模型「作弊」，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案，这样就可以在不使用 LLM 评审员的情况下，对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法，LiveBench 提供了一个公平、准确的评估平台，还同时推动了 LLM 的持续改进和社区参与。

此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五，已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是，在这次提交的成绩中，Step-2 的指令跟随（IF Average）得分全榜排名第一，展示了对语言生成细节的强大控制力。具体来说，该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事，但须遵守一项或多项指令，例如字数限制或在答辩中纳入特定元素。

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

不断进化的 Step-2 万亿参数大模型

自从最初的预览版发布以来，Step-2 一直在经历快速的技术迭代，迅速缩短与国际最顶级大模型的差距。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间，阶跃星辰发布了 Step-2 万亿参数语言大模型正式版，在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来，Step-2 万亿参数语言大模型有两大亮点：采用 MoE 架构，万亿参数。

训练 MoE 模型主要有两种方式：基于已有模型通过 upcycle（向上复用）开始训练，或者从头开始训练。upcycle 方式对算力的需求低、训练效率高，但上限低（比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重）。如果选择从头开始训练 MoE 模型，虽然训练难度高，但能获得更高的模型上限。

阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练，通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个「专家模型」都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外，从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中，阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，成功完成了 Step-2 的每一次升级。

基于 Scaling Law，在模型参数达到万亿规模之后，数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。

不断进化的 Step-2 万亿参数语言大模型，已经接入了阶跃星辰 C 端智能助手「跃问」，在跃问 App 和跃问网页端（https://yuewen.cn）都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司，阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办，于去年 4 月成立，今年 3 月才开始崭露头角。

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

阶跃星辰创始人、CEO 姜大昕，曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。

但这家公司却在短短几个月时间站稳了国内 AI 创业公司的第一梯队，并在一年内快速发布了包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V、图像生成模型 Step-1X 在内的 Step 系列模型 “全家桶”。

从 AGI 技术路线上看，阶跃星辰的选择是：单模态 – 多模态 – 统一多模态理解和生成 – 世界模型 – 通用人工智能（AGI）。

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

在快速迭代模型的同时，这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前，阶跃星辰已经完成了自身的大模型 + 产品矩阵，呈现出强势崛起的姿态。

{{userData.name}}已认证

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

微软将举办大型线下黑客大会，400 万美元悬赏云计算与 AI 软件漏洞

月之暗面 Kimi 创始人杨植麟称 AI 人才回流大厂是行业规律，已主动做业务减法

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 可“听”出电池起火征兆，准确率达 94%

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片