首款大模型杀进C-Eval榜单前三，这家仅成立两个月的始创公司凭什么？

半年多来，国内大型模型如火如荼发展，已催生出「百模大战」的景象。

C-Eval 是全面的中文基础模型评估套件，覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代 …），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集。不仅包含广泛的 NLP 任务，还能从众多高级 LLM 才智上对 LLM 进行评估。

就在最近，排行榜 C-Eval 杀出一匹黑马，一家成立仅两个月的始创公司 —— 共生矩阵，一路高歌猛进，杀入排位三（并列）。

榜单地址：https://cevalbenchmark.com/static/leaderboard.html

一、来自大湾区的大模型黑马

事实上，共生矩阵的大模型首次上榜是在七月末，颁布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入榜团队，也是当时前十名中唯一的始创团队作品。

近日，共生矩阵又推出了全新的 GS-LLM-Beta 版本，颁布即超越众多大模型产品，占据 C-Eval 榜单第三的位置。

首款大模型杀进C-Eval榜单前三，这家仅成立两个月的始创公司凭什么？

GS-LLM-Beta 此次入榜，也从侧面印证了共生矩阵团队的技能实力。

首先，大模型领域的竞争格局是飞速变化的，我们也能看到日新月异的技能进展。在 GS-LLM-Alpha 颁布仅仅 24 天后，共生矩阵就颁布了更强大的 GS-LLM-Beta，并在性能上胜过大多数同类产品，展现出了作为「国内大模型硬核黑马」的研发速度和实力。

其次，自 C-Eval 榜单颁布以来，一般排位五以下时常有变动，而在这之上的位置却很难撼动。目前性能超越共生矩阵的模型，包括智谱、GPT-4 和 APUS，都是千亿级别的模型，远大于共生矩阵的模型尺寸。能取得与这些「巨模型」媲美的性能，同样能够印证共生矩阵对大模型的驾驭才智完全具有领先水准。

据了解，共生矩阵还同时推出了 GS-LLM-mini 版本，旨在适配硬件条件有限的情况，更好地满足市场需求。

二、黑马是如何诞生的

一支名不见经传的黑马团队，如何在短期内直达榜单最前沿？这要从大模型技能的特殊性、共生矩阵团队的技能积淀两方面说起。

不同于传统的 NLP/CV 技能，大模型是近两年才崛起的技能，与以往的技能相比更为独立。就国内来说，真正具有大模型经验的队伍极少。而对于研发大模型来说，顶尖的人才与完整的技能系统积累是起到决定作用的。

共生矩阵团队成员在过去两年不仅在大模型工程上有着深厚积累，而且在理论方面也不逊于任何一支国内顶尖的大模型队伍。虽然只有不到十人的团队，但在近一年内累计发表了近二十篇顶级论文，甚至获得了大模型最前沿会议 ACL 的最佳论文提名，参与的大模型开源项目也获得了较高的下载量。

过硬的技能积累是共生矩阵团队取得成绩的坚实基础。大模型入榜的背后是来自于共生矩阵团队成熟的大模型技能系统的支撑，涵盖了从高效的训练框架到生成行为控制新技能。该框架能够自适应不同参数量级的模型，从 1B 到 200B 都可以兼容。为提高生成可控性，共生矩阵模型研发了独特的可控技能，做到灵活切换数据领域，该技能可以极大降低训练成本。

此外，共生矩阵团队的自动化数据处理系统也是技能生态的重要一环，能高效、安全地获取高质量训练数据，能够持续支持大模型高效训练。

相比之下，国内众多知名团队在今年 ChatGPT 之后才开始涉足大模型领域，共生矩阵的技能优势显而易见，近期的一系列结果也应证了他们的实战才智。

换个角度看，共生矩阵的进展也再次说明了大模型竞争的核心在于人，人才密度决定其发展上限，资本不可或缺，但仅决定其发展下限。

三、起点还是终局？

共生矩阵的 CEO 张林博士认为，大模型的竞赛才刚刚开始，无论是技能还是商业化，都远不是资本市场认为的已定格局，用过去互联网发展的思维看待大模型是刻舟求剑，需要基于对技能深刻理解的基础上进行预判。

首款大模型杀进C-Eval榜单前三，这家仅成立两个月的始创公司凭什么？

共生矩阵 CEO 张林。

从技能角度看，张林认为人类信息时期以来的发展可以总结为三个阶段：信息收集、信息传播和信息压缩，分别对应 PC 时期、移动互联网时期和今天的通用智能时期。第一阶段解决了如何获取信息，第二阶段实现了信息的低成本传播，直接导致今天面临的系统性信息过载，这也催生了以信息压缩为内核的通用智能时期。人类大脑容积几乎不变，如何把海量数据低损耗的压缩到大脑内是人类具有智能的基础，大模型是目前最好的信息压缩机。通用智能技能的发展方向要朝着更高效的压缩模型前进！

从商业角度看，革新性技能必然催生新的商业模式。然而当前大模型公司普遍定位为 MaaS 服务，这必然会走向失败的，因为边际成本过高。更致命的错误是，这种思维是将大模型当成独立软件来看，依此将大模型商业化定位互联网时期的软件进行售卖。大模型要发挥价值，必然不能以孤立系统存在，而是成系统的生态，大模型的商业化也必然立足于某种生态系统来构建。

四、市场的噪声

然而，大模型始创公司也面临着一系列的挑战，特别是目前大模型市场混乱，各种真假难辨的大模型，以及开源模型的出现，诸如 Llama-2，给消费市场和投资人造成了相当程度上的认知错乱。撇开所谓套壳子的大模型团队，更多的舆论来自于开源 Llama-2 的影响。

某种意义上说，开源 Llama-2 系列的价值或许没有想象中巨大，特别是对具有自研才智的团队没有任何实质性的冲击。因为大模型涉及到一个系统，包括模型优化，人类行为对齐，模型压缩，模型控制等，这些都是 Llama-2 没办法提供的。在整个大模型研究和应用的流程中，Llama-2 只解决了最开始的部分，那就是预训练，而这一步是全流程中技能最简单、价格最便宜的一个环节。要把大模型落地实现商业价值，仅仅依赖开源的预训练结果是远远不够的，必须要系统化的技能支撑，预训练之后环节更难也更考验才智。

从实际结果来看，大模型市场并没有因为 Llama-2 的开源带进来新的实力玩家，目前开源仅有 Meta 一家，OpenAI、谷歌、Anthropic 占据闭源生态。效果上 Meta 的模型比其他几家弱很多，所以绝大部分的大模型核心技能无法通过开源获得。投资人也并没有因为 Llama-2 开源给 Meta 更多的投资，反而是其他几个闭源玩家获得大额投资。作为自研团队，共生矩阵不纠结开源与否，坚持以用户的体验为第一目标，将通用智能服务到千行百业。

五、通用智能的下一站，谁主沉浮？

大模型之战，源起 OpenAI 的 ChatGPT。ChatGPT 固然带来了巨大的提升，但只是代表了现阶段人工智能的发展程度，我们所期待的通用智能远不止于此。

ChatGPT 为代表的大模型存在的固有问题，难以在原有框架打补丁即可解决。譬如序列逐词生成的范式难以做到高效的生成可控，需要在理论层面有较大突破才行。

谁会是下一个理论突破者呢？面对这个问题，真正的答案未必是某一家科技巨头和今天所看到的明星公司，但肯定会是一支拥有硬核研发才智的团队。

当然，未来的探索之路还很漫长。底层研发才智是共生矩阵团队的长期优势所在，也是今后取得重大突破的必要性条件。我们也希望中国的科研人员能够引领下一阶段人工智能技能的突破。

五月，在深圳南山的一家汉堡王店，一群年轻人讨论着通用智能技能的未来，不满足于只是追随他人，他们希望打造中国的通用智能技能旗帜，于是共生矩阵团队诞生了。他们说创业的每一天都很难，但每一天都充满着希望。

首款大模型杀进C-Eval榜单前三，这家仅成立两个月的始创公司凭什么？

不到一个月就取得了排名前三的亮眼成绩，共生矩阵展示了他们强大的算法才智，和对大模型的控制力。但他们认为模型任然有不少改进的空间，接下来几个月他们会做一些更有意思的事情。

{{userData.name}}已认证

首款大模型杀进C-Eval榜单前三，这家仅成立两个月的始创公司凭什么？

千亿级、数学专用，MathGPT大模型开始公测了

凉宫春日、李云龙等32个人物都能扮演，这个谈天机器人很懂剧情，代码可商用

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

OpenAI 呼吁建立“北美人工智能联盟”，好与中国竞争

全球首个：英伟达与软银试运行“AI+5G” 电信网络，号称投资 1 美元收入 5 美元

遏制电话诈骗新招：AI 老奶奶“废话反击”，40 分钟搞崩诈骗者心态

编程利器：OpenAI 升级 ChatGPT 应用，可配合 Xcode 等工具使用简化开发流程

超 12000 公里，国产腔镜手术机器人完成远程手术、加速出海