首款大模型杀进C-Eval榜单前三,这家仅成立两个月的初创公司凭什么?

半年多来,国内大型模型如火如荼发展,已催生出「百模大战」的景象。

C-Eval 是全面的中文基础模型评估套件,覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。不仅包含广泛的 NLP 任务,还能从众多高级 LLM 能力上对 LLM 进行评估。

就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。

图片

榜单地址:https://cevalbenchmark.com/static/leaderboard.html

一、来自大湾区的大模型黑马

事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入榜团队,也是当时前十名中唯一的初创团队作品。

近日,共生矩阵又推出了全新的 GS-LLM-Beta 版本,发布即超越众多大模型产品,占据 C-Eval 榜单第三的位置。

图片

GS-LLM-Beta 此次入榜,也从侧面印证了共生矩阵团队的技术实力。

首先,大模型领域的竞争格局是飞速变化的,我们也能看到日新月异的技术进展。在 GS-LLM-Alpha 发布仅仅 24 天后,共生矩阵就发布了更强大的 GS-LLM-Beta,并在性能上胜过大多数同类产品,展现出了作为「国内大模型硬核黑马」的研发速度和实力。

其次,自 C-Eval 榜单发布以来,一般排位五以下时常有变动,而在这之上的位置却很难撼动。目前性能超越共生矩阵的模型,包括智谱、GPT-4 和 APUS,都是千亿级别的模型,远大于共生矩阵的模型尺寸。能取得与这些「巨模型」媲美的性能,同样能够印证共生矩阵对大模型的驾驭能力完全具备领先水准。

据了解,共生矩阵还同时推出了 GS-LLM-mini 版本,旨在适配硬件条件有限的情况,更好地满足市场需求。

二、黑马是如何诞生的

一支名不见经传的黑马团队,如何在短期内直达榜单最前沿?这要从大模型技术的特殊性、共生矩阵团队的技术积淀两方面说起。

不同于传统的 NLP/CV 技术,大模型是近两年才崛起的技术,与以往的技术相比更为独立。就国内来说,真正具备大模型经验的队伍极少。而对于研发大模型来说,顶尖的人才与完整的技术体系积累是起到决定作用的。

共生矩阵团队成员在过去两年不仅在大模型工程上有着深厚积累,而且在理论方面也不逊于任何一支国内顶尖的大模型队伍。虽然只有不到十人的团队,但在近一年内累计发表了近二十篇顶级论文,甚至获得了大模型最前沿会议 ACL 的最佳论文提名,参与的大模型开源项目也获得了较高的下载量。

过硬的技术积累是共生矩阵团队取得成绩的坚实基础。大模型入榜的背后是来自于共生矩阵团队成熟的大模型技术体系的支撑,涵盖了从高效的训练框架到生成行为控制新技术。该框架能够自适应不同参数量级的模型,从 1B 到 200B 都可以兼容。为提高生成可控性,共生矩阵模型研发了独特的可控技术,做到灵活切换数据领域,该技术可以极大降低训练成本

此外,共生矩阵团队的自动化数据处理体系也是技术生态的重要一环,能高效、安全地获取高质量训练数据,能够持续支持大模型高效训练。

相比之下,国内众多知名团队在今年 ChatGPT 之后才开始涉足大模型领域,共生矩阵的技术优势显而易见,近期的一系列结果也应证了他们的实战能力。

换个角度看,共生矩阵的进展也再次说明了大模型竞争的核心在于人,人才密度决定其发展上限,资本不可或缺,但仅决定其发展下限。

三、起点还是终局?

共生矩阵的 CEO 张林博士认为,大模型的竞赛才刚刚开始,无论是技术还是商业化,都远不是资本市场认为的已定格局,用过去互联网发展的思维看待大模型是刻舟求剑,需要基于对技术深刻理解的基础上进行预判。

图片

共生矩阵 CEO 张林。

从技术角度看,张林认为人类信息时代以来的发展可以总结为三个阶段:信息收集、信息传播和信息压缩,分别对应 PC 时代、移动互联网时代和今天的通用智能时代。第一阶段解决了如何获取信息,第二阶段实现了信息的低成本传播,直接导致今天面临的系统性信息过载,这也催生了以信息压缩为内核的通用智能时代。人类大脑容积几乎不变,如何把海量数据低损耗的压缩到大脑内是人类具备智能的基础,大模型是目前最好的信息压缩机。通用智能技术的发展方向要朝着更高效的压缩模型前进!

从商业角度看,革新性技术必然催生新的商业模式。然而当前大模型公司普遍定位为 MaaS 服务,这必然会走向失败的,因为边际成本过高。更致命的错误是,这种思维是将大模型当成独立软件来看,依此将大模型商业化定位互联网时代的软件进行售卖。大模型要发挥价值,必然不能以孤立系统存在,而是成体系的生态,大模型的商业化也必然立足于某种生态系统来构建。

四、市场的噪声

然而,大模型初创公司也面临着一系列的挑战,特别是目前大模型市场混乱,各种真假难辨的大模型,以及开源模型的出现,诸如 Llama-2,给消费市场和投资人造成了相当程度上的认知错乱。撇开所谓套壳子的大模型团队,更多的舆论来自于开源 Llama-2 的影响。

某种意义上说,开源 Llama-2 系列的价值或许没有想象中巨大,特别是对具备自研能力的团队没有任何实质性的冲击。因为大模型涉及到一个体系,包括模型优化,人类行为对齐,模型压缩,模型控制等,这些都是 Llama-2 没办法提供的。在整个大模型研究和应用的流程中,Llama-2 只解决了最开始的部分,那就是预训练,而这一步是全流程中技术最简单、价格最便宜的一个环节。要把大模型落地实现商业价值,仅仅依赖开源的预训练结果是远远不够的,必须要体系化的技术支撑,预训练之后环节更难也更考验能力。

从实际结果来看,大模型市场并没有因为 Llama-2 的开源带进来新的实力玩家,目前开源仅有 Meta 一家,OpenAI、谷歌、Anthropic 占据闭源生态。效果上 Meta 的模型比其他几家弱很多,所以绝大部分的大模型核心技术无法通过开源获得。投资人也并没有因为 Llama-2 开源给 Meta 更多的投资,反而是其他几个闭源玩家获得大额投资。作为自研团队,共生矩阵不纠结开源与否,坚持以用户的体验为第一目标,将通用智能服务到千行百业。

五、通用智能的下一站,谁主沉浮?

大模型之战,源起 OpenAI 的 ChatGPT。ChatGPT 固然带来了巨大的提升,但只是代表了现阶段人工智能的发展程度,我们所期待的通用智能远不止于此。

ChatGPT 为代表的大模型存在的固有问题,难以在原有框架打补丁即可解决。譬如序列逐词生成的范式难以做到高效的生成可控,需要在理论层面有较大突破才行。

谁会是下一个理论突破者呢?面对这个问题,真正的答案未必是某一家科技巨头和今天所看到的明星公司,但肯定会是一支拥有硬核研发能力的团队。

当然,未来的探索之路还很漫长。底层研发能力是共生矩阵团队的长期优势所在,也是今后取得重大突破的必要性条件。我们也希望中国的科研人员能够引领下一阶段人工智能技术的突破。

五月,在深圳南山的一家汉堡王店,一群年轻人讨论着通用智能技术的未来,不满足于只是追随他人,他们希望打造中国的通用智能技术旗帜,于是共生矩阵团队诞生了。他们说创业的每一天都很难,但每一天都充满着希望。

图片

不到一个月就取得了排名前三的亮眼成绩,共生矩阵展示了他们强大的算法能力,和对大模型的控制力。但他们认为模型任然有不少改进的空间,接下来几个月他们会做一些更有意思的事情。

相关资讯

10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本

2019 年,纽约大学、亚马逊云科技联手推出图神经网络框架 DGL (Deep Graph Library)。如今 DGL 1.0 正式发布!

比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了

一年时间,斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进,对大模型的适用性也更强了。

国内发布首个孤独症垂类大语言模型Starlight

在第16个世界孤独症关注日到来之际,位于中国科学院合肥创新工程院的星元智能AI团队发布了国内首个孤独症垂类大语言模型Starlight。孤独症是一类先天性的神经发育障碍,患者会出现社会交往障碍、兴趣局限和刻意重复的行为。近年来研究显示,其患病率逐渐上升,根据美国疾控中心(CDC)公布最新的孤独症患病率筛查数据显示,每36名8岁儿童中就有1名为谱系障碍(2.8%),且至今病因不明,症状将伴随终身,孤独症患者的康复程度关乎千万家庭的生活品质。近些年随着AI技术的不断突破,给孤独症康复难题的攻克带来了更多的可能性。在一次