在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

大模型格局又变了? 刚刚,国内 AI 领域传来一则重要消息。 头部大模型创业公司阶跃星辰,凭借万亿参数大语言模型 Step-2,在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩,成为了前十名之内唯一的国产大模型。

大模型格局又变了?

刚刚,国内 AI 领域传来一则重要消息。

头部大模型创业公司阶跃星辰,凭借万亿参数大语言模型 Step-2,在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩,成为了前十名之内唯一的国产大模型。

排在阶跃星辰 Step-2 身前的,只剩下 OpenAI 和 Anthropic 两家公司。

图片

榜单地址:https://livebench.ai/#

LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。

它旨在消除现有 LLM 基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

图片

LiveBench 提出了一种创新的基准测试方法,其中包含 6 大类 18 项任务。

为了避免大模型「作弊」,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案,这样就可以在不使用 LLM 评审员的情况下,对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法,LiveBench 提供了一个公平、准确的评估平台,还同时推动了 LLM 的持续改进和社区参与。

此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五,已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是,在这次提交的成绩中,Step-2 的指令跟随(IF Average)得分全榜排名第一,展示了对语言生成细节的强大控制力。具体来说,该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事,但须遵守一项或多项指令,例如字数限制或在答辩中纳入特定元素。

图片

不断进化的 Step-2 万亿参数大模型

自从最初的预览版发布以来,Step-2 一直在经历快速的技术迭代,迅速缩短与国际最顶级大模型的差距。

今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间,阶跃星辰发布了 Step-2 万亿参数语言大模型正式版,在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来,Step-2 万亿参数语言大模型有两大亮点:采用 MoE 架构,万亿参数。

训练 MoE 模型主要有两种方式:基于已有模型通过 upcycle(向上复用)开始训练,或者从头开始训练。upcycle 方式对算力的需求低、训练效率高,但上限低(比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重)。如果选择从头开始训练 MoE 模型,虽然训练难度高,但能获得更高的模型上限。

阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,让 Step-2 中的每个「专家模型」都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外,从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中,阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,成功完成了 Step-2 的每一次升级。

基于 Scaling Law,在模型参数达到万亿规模之后,数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。

不断进化的 Step-2 万亿参数语言大模型,已经接入了阶跃星辰 C 端智能助手「跃问」,在跃问 App 和跃问网页端(https://yuewen.cn)都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司,阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办,于去年 4 月成立,今年 3 月才开始崭露头角。

图片

                                    阶跃星辰创始人、CEO 姜大昕,曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。

但这家公司却在短短几个月时间站稳了国内 AI 创业公司的第一梯队,并在一年内快速发布了包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V、图像生成模型 Step-1X 在内的 Step 系列模型 “全家桶”。

从 AGI 技术路线上看,阶跃星辰的选择是:单模态 - 多模态 - 统一多模态理解和生成 - 世界模型 - 通用人工智能(AGI)。

图片

在快速迭代模型的同时,这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型 + 产品矩阵,呈现出强势崛起的姿态。

相关资讯

微软官方亲自出教程,拿捏「Prompt工程」高级玩法

几个月来,ChatGPT、GPT-4 等大模型陆续发布。这些模型表现出了强大的涌现能力,但模型生成的结果是随机的,时好时坏,部分原因与 Prompt 的设计密切相关。

简化芯片设计传统,AI训练的新型算法正改变芯片研发范式

编辑丨&自1971年第一个商用微处理器的草图面世以来,芯片设计已经取得了长足的进步。 但是,随着芯片变得越来越复杂,设计人员必须解决的问题也越来越复杂。 而我们目前的工具并不总是能胜任这项任务。

消息称英伟达有意收购 AI 基础设施虚拟化创企 Run:ai,交易金额最高十亿美元

据外媒 SiliconANGLE 报道,英伟达有意收购 AI 基础设施虚拟化初创企业 Run:ai,交易金额最高可达 10 亿美元(IT之家备注:当前约 72 亿元人民币)。Run:ai 的同名工作负载管理平台近日率先获得英伟达 DGX SuperPOD 认证。其 AI 编排技术可帮助用户轻松运行 AI 和机器学习项目,满足对生成式 AI 和大模型不断增长的要求。Run:ai 由其 CEO 奥姆里・盖勒(Omri Geller)和 CTO 罗宁・达尔(Ronen Dar)于 2018 年创立。两人是在特拉维夫大学电