100天后,阶跃星辰交出了第二份答卷

今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版,正式进入大众视野,并成功跻身国内六大大模型独角兽行列。 另外五家分别是月之暗面、智谱、MiniMax、百川、零一万物。 当然,这一份成绩很是亮眼,一举将国内大模型卷到万亿参数赛道(预览版)。

今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版,正式进入大众视野,并成功跻身国内六大大模型独角兽行列。

另外五家分别是月之暗面、智谱、MiniMax、百川、零一万物。

当然,这一份成绩很是亮眼,一举将国内大模型卷到万亿参数赛道(预览版)。可即便如此,阶跃星辰依旧低调。

进入 2024 年以来,大模型行业的热闹明显更为多样化,大模型落地应用的主旋律下,行业模型、端侧模型变热;世界模拟器 Sora 的亮相,引爆多模态大模型的流行;走得更早更靠前的 OpenAI 迟迟没有将 GPT-5 公之于众,发布的 GPT-4o,虽然有强大交互能力,但也未能化解大众对其技术进化速度放缓的质疑、失望……

围绕「技术信仰派」VS「市场信仰派」、「模型做大」VS「模型做小」、「Scaling Law 是不是第一性原理」等话题,各路大儒「辩经」不止……

仔细看,阶跃星辰的声音似乎很少。

不过没想到的是,这次「借着」 WAIC 的场子,阶跃星辰又交出了第二份答卷——发布 Step-2 万亿 MoE 语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

而此次的产品升级,距离上次仅仅过去 100 天。

将国内大模型升级到「万亿参数时代」的Step-2长啥样

3 个多月前,当阶跃星辰宣布 Step-2 万亿参数 MoE 语言大模型预览版的时候,大家很是好奇,想一览其真实面目。而今天,在 WAIC 大会现场,吊足了大家胃口的 Step-2 万亿参数 MoE 语言大模型正式版亮相了,它采用当前热门的 MoE (Mixture of Experts)架构,又称「混合专家」,是一种模块化的稀疏激活,可以让模型在增大参数规模的同时,计算成本远低于相同参数规模下的稠密模型,实现高效训练。

目前,在通往 AGI 的道路上,业界大多数人坚信 Scaling Law 定律——模型越大,性能越强,阶跃星辰也是其中一家。但是现实问题是,模型的升级迭代离不开算力的支撑,而算力的不足和匮乏,显然是当下业界为数不多的共识之一。

因此,在意识到 MoE 可以解决这一难题时,一些大模型从业者相继推出基于 MoE 架构的大模型,比如国外的Mistral AI、 xAI,国内的 MiniMax、元象科技、DeepSeek AI、阶跃星辰等。而阶跃星辰是其中少有的、早早将 MoE 架构用在万亿参数规模大模型的玩家。

而在设计 Step-2 MoE 架构的过程中,阶跃星辰还对算法架构进行了创新。

具体而言,当前 MoE 模型的训练方式主要有两种,一种是基于已有模型通过 upcycle(向上复用)开始训练,即将一个已经训练好的大模型的前馈神经网络权重复制若干份,每一份作为一个 expert(专家),组合后就可以把一个非 MoE 模型变成 MoE 模型,参数量增大的同时,算力需求会小几个量级,训练效率高。但弊端是上限低,基于拷贝复制得到的 MoE 模型容易造成专家同质化严重。

另一种是从头开始训练,很显然,缺点在于训练难度高,但优势是能够获得更高的模型上限。

而阶跃星辰的选择是完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,让 Step-2 中的每个“专家模型”都得到充分训练。结果就是不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了当前市面上的大部分 Dense 模型。

此外,在 Step-2 训练过程中,阶跃星辰系统团队还突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,让整体的训练过程更为高效。

据阶跃星辰透露,目前,Step-2 万亿参数 MoE 语言大模型在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近 GPT-4。

100天后,阶跃星辰交出了第二份答卷

此次,除了 Step-2 万亿参数 MoE 语言大模型,阶跃星辰还发布了 Step-1.5V 多模态大模型,在多模理解和生成统一的技术路线上实现了快速突破。

在理解上,相较于此前的 Step-1V 多模态大模型, Step-1.5V 的优势主要体现在三个方面。

一是感知能力全面提升,创新图文混排训练方法;能够理解复杂图表、流程图、准确感知物理空间复杂的几何位置;能够处理高分辨率和极限长宽比的图像。二是基于最新的 Step-2 万亿参数模型当老师,推理能力大幅提升,能够根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。三是具备出色的视频理解能力,不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。

在生成上,阶跃星辰发布 Step-1X 图像生成大模型,全链路自研的 DiT(Diffusion Models with transformer)模型架构, 可支持 600M、2B 和 8B 三种不同的参数量;具备更好的文本 prompt 和生成图片的语义对齐能力、 指令跟随能力。另外,该模型还支持针对中国元素的深度优化,使生成内容更适合国人的审美风格。

比如,阶跃星辰在会场展示的「AI+大闹天宫」现场互动,游戏背后调用了多个阶跃星辰自研的 Step 系列大模型,融合了图像理解、风格迁移、图像生成、剧情创作等多种能力,丰富立体地展现了阶跃星辰行业领先的多模态水平。

动画片《大闹天宫》大家一定很熟悉,而今年正是《大闹天宫》制作完成 60 周年之际。

因此,在这一具有重要纪念意义的时刻,阶跃星辰团队联合上影推出了「AI+大闹天宫」这一款 AI 互动体验产品,试图将最先进的 AIGC 和大模型技术与《大闹天宫》情境深度融合,用当代的全新视角来展现中国传统文化的魅力、回顾经典动画作品的艺术成就,同时也为广大创作者打开更为广阔的想象空间、创作空间。

具体而言,在互动过中,用户需要上传一张个人照片,基于大模型生成的剧情选择角色,并与之交谈,算法会识别照片的特征,然后结合《大闹天宫》的画风和角色进行风格迁移生成新的肖像。同时,还将根据用户的选择和回答进一步分析用户的「MBTI」人格,给用户在天庭「安排」一个差事。

整体交互过程好玩有趣,且极具个性化,吸引了现场大量观众的参与互动。

感兴趣的朋友,可以扫描下方图片二维码参与互动体验,「测测你是哪路神仙」。

100天后,阶跃星辰交出了第二份答卷

阶跃星辰攀顶 AGI 的决心

阶跃星辰在 3 月推出的 Step 系列模型,是将近酝酿了一年的成果,而现在距离上一次不过一百天,就实现了对Step 系列模型矩阵的全新升级。可以看出来,在通往 AGI 的漫长旅途中,阶跃星辰这是从「走路入场」变为「跑步前进」了。

当前,尽管业界一次次探讨、争论 AGI 的定义、路径,但不可否认,在这两个问题上,至今并未形成一个明确而具体的共识,甚至在未来的一段时间内也不会有,每个路线上的攀登者都认为自己将会是最终达到 AGI 终点的选手。姜大昕也是这样认为的。

从成立一开始,阶跃星辰就明确了自身通往 AGI 的路线图——单模态—多模态—多模态理解和生成的统一—世界模型—AGI。

换句话说,就是以实现 AGI 为目标,专注研发多模态基础大模型,基于自研基础大模型打造新一代「AI +」应用。

在这过程中,姜大昕认为,攀登 AGI 巅峰「万亿参数」和「多模融合」缺一不可!

怎么理解?

一方面,多模态理解和生成的统一是通向 AGI 的必经之路。

另一方面,模型参数量决定模型能力上限,Scaling Law 全面跨入万亿参数是通向 AGI 的另一核心。这也是为什么当初在完成 Step 系列千亿模型的训练后,阶跃星辰就马不停蹄开始训练万亿模型。

据了解,此次阶跃星辰 Step 系列通用大模型获得了 WAIC 2024 SAIL 之星称号。SAIL 奖(Super AI Leader,卓越人工智能引领者)是 WAIC 最高奖项,致力于从全球范围发掘在人工智能领域中具有高度认可和美誉、并具有提升人类福祉意义的项目。

不仅是模型要做好,在应用上,阶跃星辰也没有松懈。从成立之初,阶跃星辰的策略就是技术和产品「两手抓」。因为姜大昕坚信,模型需要应用作为牵引和数据的补充,具体到某个应用的时候一定要通过模型与它深度绑定,这样应用才能做到极致,反之亦然。

「我不觉得一个光做应用的公司,没有一个模型跟它深度绑定的话,它能做到极致。」

为此,基于 Step 系列大模型,阶跃星辰通过自研产品和生态合作产品逐渐形成丰富的产业应用生态圈,并在重点行业领先落地。

比如跃问和冒泡鸭,这是阶跃星辰自研产品的两个代表。跃问是一款 AI 聊天类应用,定位为个人效率助手;冒泡鸭则是一款由剧情和角色构成的 AI 开放世界,可以为用户提供娱乐和社交。据了解,目前,两款产品均已全面开放使用。

而在生态合作方面,阶跃星辰已在金融、网络文学、知识服务、游戏、数字人、影视等领域与合作伙伴达成深度合作,共同探索面向 C 端用户的创新应用。

比如这次现场展示的「大闹天宫」AI 互动体验,就是阶跃携手上影在影视领域达成的生态合作伙伴关系,全程由AI 多模态大模型生成,以大闹天宫 IP 动画为情景,以 AI + IP 生动展示多模态大模型的底座能力。

接下来,阶跃星辰还将继续积极探索,并持续扩大生态圈,结交更多生态伙伴。

写在最后

今年 3 月份,阶跃星辰作为新星正式亮相时,凭借在大模型领域的技术实力,一举改变了彼时大模型的「五虎」格局,成功上位,成为「六大独角兽」一员。

如今,阶跃星辰的万亿参数大模型正式亮相,并不断获得行业、资本市场的认可,或许在不久后,国内大模型的格局、位置,又该动一动了。

相关资讯

启明创投发布2024生成式AI十大展望

7月6日,由启明创投主办的2024世界人工智能大会(WAIC)“启明创投·创业与投资论坛——超级模型、超级应用、超级机遇”在上海世博中心红厅成功举办。 大语言模型、多模态模型、具身智能和生成式AI应用领域的著名专家与学者,顶尖投资人和领军创业者汇聚一堂,围绕生成式AI基础技术进展、商业应用前景和创业投资生态等主题展开分享与交流。 启明创投从2013年开始系统性布局人工智能领域,从AI 1.0到AI 2.0,经过十余年的深耕与前沿洞察,启明创投在AI领域投资了众多项目,多家上市或成长为独角兽企业。

在 ICLR 2024,看见中国大模型的力量

作者 | 赖文昕编辑 | 陈彩娴近日(5.7-5.11),第十二届国际学习表征会议(ICLR)在奥地利维也纳的展览会议中心召开。 ICLR 2024 的论文终审工作自 1 月份启动以来,共收到了7262篇提交论文,相较于上一年度的 4966 篇,增幅达到了 46.1%,接近翻了一番。 在严格的评审过程中,大会最终接受了 2260 篇论文,整体接收率维持在 31%,与去年的31.8%基本持平,其中 Spotlights 和 Oral 两种类型的论文展示分别有 367 篇(占5%)和 86 篇(占1.2%)论文获选。

o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型

o3在超难推理任务ARC-AGI上的成绩,属实给人类带来了不少震撼。 但有人专门研究了它不会做的题之后,有了更有趣的发现——o3之所以不会做这些题,原因可能不是因为太难,而是题目的规模太大了。 来自英国的ML工程师Mikel Bober-Irizar(不妨叫他米哥),对ARC题目进行了细致观察。