从 Moonshot 崛起看中国大模型：资本其实没有大家想的那么急

近期，自月之暗面宣布 Kimi 可支持 200 万汉字的无损上下文输入能力后，Kimi 相关热点先后两次登上微博热搜。第一次是“Kimi 概念股”。在 200 万汉字上下文输入能力正式官宣后，A 股市场与 Kimi 存在关联关系的多只个股，包括掌阅科技、华策影视、超讯通信、中广天择、世纪天鸿、海天瑞声、九安医疗等等相继涨停。

近期，自月之暗面宣布 Kimi 可支持 200 万汉字的无损上下文输入能力后，Kimi 相关热点先后两次登上微博热搜。

第一次是“Kimi 概念股”。在 200 万汉字上下文输入能力正式官宣后，A 股市场与 Kimi 存在关联关系的多只个股，包括掌阅科技、华策影视、超讯通信、中广天择、世纪天鸿、海天瑞声、九安医疗等等相继涨停。

第二次是关于“Kimi 获客成本”。报道称，根据 Kimi 投放广告的成本、拉新后用户问答互动产生的算力成本，以及在第三方平台的下载量估算，近一个月来 Kimi 每天的获客成本至少达到 20 万元。

这也使得月之暗面（Moonshot AI）成为自 2023 年 GPT 热潮席卷以来，第一家凭借自身产品“破圈出道”，走进大众视野，在路人面前怒刷存在感的大模型独角兽公司。甚至，由于用户激增、大流量，Kimi 服务器一度宕机。

Kimi 是真火了。

但若细看月之暗面的崛起，除去资本的轰抢与市场的高度关注，在一众中国超 20 亿美元估值的大模型公司中，月之暗面的路径实则别具一格。因为支撑月之暗面高关注度的两大要素——技术进展与商业节奏，其实在一众竞争对手中并不明显：

首先，相比其他的大模型公司，包括智谱 AI、MiniMax、深言科技、面壁智能、百川智能，甚至光年之外（后被美团收购）在内，月之暗面的成立时间要晚得多，团队磨合、技术进展也自然相对滞后。尽管杨植麟的技术实力受到广泛认可，但根据 SuperCLUE 的评测，目前 Moonshot 的综合能力仅超过 GPT-3.5，仍在追赶 GPT-4。

其次，月之暗面的大模型产品与商业化节奏并不算快。以智谱为例，智谱在去年就开始组建商业化团队，探索基座大模型的商业服务，而月之暗面主打 To C，目前推出 Kimi 智能助手，但商业色彩并不浓厚。

但月之暗面却能在短时间内获得多轮投资，后来居上，一跃跻身于中国大模型初创企业的第一梯队。有消息甚至称，月之暗面的估值已经超过智谱 AI。2023 年过去，当大多数大模型公司都在经历“商业化”的灵魂拷问、被质疑“如果再不商业化、2023 年的融资也许只能烧到 2024 年年底”时，同样聚焦基座大模型的月之暗面显得更加突出。

而杨植麟与月之暗面，给了他们这份信心。

被看好、短期内资本大量累积

仔细算下来，如今频频活跃在热度榜首的月之暗面距离成立还不到一年。

月之暗面正式成立是在 2023 年 4 月，同年 10 月推出首款大模型产品 Kimi 智能助手，最高可支持输入 20 万汉字，是彼时全球范围内 AI 大模型产品中所能支持的最长上下文输入长度。

据悉，按照 OpenAI 的计算标准，一般情况下，1 个汉字约等于 2 个 token，那么月之暗面的 20 万汉字约为 40 万 token，而同期 Anthropic 的 Claude 大模型支持的最大长文本为 10万 token。

2024 年 2 月，Kimi 对网站、多问题搜索能力进行迭代升级，可用性表现能力持续提升。

今年 3 月 18 日，月之暗面再度刷新记录，宣布 Kimi 在大模型长上下文窗口技术上取得新突破，可支持 200 万字超长无损上下文，并于即日起开启产品内测。

从 Moonshot 崛起看中国大模型：资本其实没有大家想的那么急月之暗面宣布 Kimi 可支持 200 万字超长无损上下文

月之暗面的首轮融资发生在2023年4月，彼时月之暗面刚从循环智能拆分出来。

循环智能（ Recurrent AI ）是一家专注于销售科技的企服，2016 年杨植麟以联合创始人的身份参与创立，主要业务是运用 NLP、语音、多模态、大模型等 AI 技术打造“销售科技”解决方案。资料显示，循环智能曾获得红杉中国、真格基金等投资方的多轮投资。

月之暗面完成第一轮融资后，估值达到 3 亿美元，投资方包括红杉中国、真格基金、励思资本。

2023 年 6 月，月之暗面进行第二轮融资，投前估值 6 亿美元，投后估值 7.7 亿美元。这一轮的投资方包括蚂蚁、阿里、美团、FunPlus，以及部分阿里战投部的成员。据悉，这一轮，由蚂蚁、阿里、美团领投。

月之暗面的第三轮融资的投资方包括云久资本、五源资本等，本轮融资后，估值约为10亿美元。

据了解，月之暗面的第三轮融资是与第四轮融资同时期谈的，也就是前不久月之暗面获得的超10亿美元这一轮。

这一轮阿里投资了 8 亿美元（更准确的数字是 7.9 亿美元），其中有超过 40% 的金额是作为阿里与月之暗面的共管账户，用来作为月之暗面买云、用云的资金。

另外，砺思资本投资 1000 万美元，其他老股东凑了 2 亿多美元，总体算下来，该轮总金额超 10 亿美元。

也就是在这一轮投资后，月之暗面的估值达到了25亿美元。

作为一家 AI 大模型初创公司，月之暗面凭什么能够吸引这么多投资者的目光？

长文本（Long Context）是大语言模型（LLM）的基础能力，但是如果上下文过长，模型会过多地将注意力放在文本的开头和结尾部分，忽略中间部分的信息，从而导致模型难以找到并利用放在长文中部的相关信息。

因此，如何在做到文本足够长的同时，能够保证“没有损失”变得关键。

“Lossless long context is everything。”

杨植麟曾不止一次地公开表示过，“通往通用人工智能（AGI）的话，无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化。”

而这也是月之暗面从成立就聚焦在长文本上的初心所在。

至于 ToC 的路线，这是 AI 大模型落地过程中，最有可能跑出来超级应用的方向，也是杨植麟从一开始就坚定想要做的事情。

当然，除了技术和路线，更重要的还有杨植麟的个人能力。

“这一波 AI 是技术驱动的，（如果投资）首要考虑的就是去找技术上最强、最相关的那个人。”而当前 AI 大模型的主流架构 Transformer 曾是杨植麟之前的研究领域。杨植麟曾以第一作者发表了 Transformer-XL 和 XLNet 两篇重要论文，且学术引用量自 2019 年起已超 2 万余次，在技术上的实力自然毋庸置疑。

而且，作为创业者，杨植麟的人才号召力也很强，能够吸引到许多年轻、优秀的工业界人才，比如月之暗面的联合创始人、在各大 AI 公司浸染历练后选择加入月之暗面的员工等。

另外，杨植麟做的事情很纯粹，就是要做中国的 AGI。一位投资者表示，他聊过很多年轻的、资深的AI创业者，而杨植麟是自己见过技术上讲得最清楚、最有愿景的人。

“我们聊过好几次，现在每次聊几句话就说清楚了，他就是要做中国的 AGI。”

投资者认为，这一轮 AI 创业潮中，那些曾经在互联网时代乘风破浪的大佬的经验，有时候未必是加分项，甚至可能是包袱。因为在新的 AI 时代，所有的东西都是新的，而新的组织、新的人来做这件事，更有机会带来新的想象力。

而以上这些，都是月之暗面虽不具备先发优势，却能后来居上的原因所在，是偶然中的必然。

抢滩全球 AGI 的野心

近日，一微软工程师曝出为 GPT-6 搭建 10 万个 H100 训练集群，却导致整个电网崩溃的消息，再度重申了通往 AGI 之路仍需破解电力难题的困惑，却也释放出一个信号：虽然 GPT-4.5 泄露事件纷纷扬扬、GPT-5 还未发布，但 GPT-6 已经在路上。

深度学习的发展已经过去十年，较之上一波AI浪潮，这一波大模型的投资者更懂技术。他们无比清晰地认识到大模型是一门流动的、仍在继续成长的技术，GPT-4 不是终点。而“即使是 OpenAI 的路线，也并不一定是 AGI 的最终路线”。

更多阅读见 AI 科技评论近期发布：《谁将替代 Transformer？》

尤其对知名投资机构来说，他们想要投出的，并不只是中国范围内的“最强大模型”，而是有资格、有潜力参与竞争“全球范围内最强 AGI”的大模型团队。在一次访谈中，杨植麟也曾公开表示，“AI 不是我在接下来一两年找到什么PMF，而是接下来十到二十年如何改变世界。”

如果跳出国内大模型鏖战的视角，站在全球视野来看，作为典型的技术信仰派的代表，月之暗面抢滩全球 AGI 的优势或许是以下几点：

首先，月之暗面是全球化教育下的产物，视野更广阔。创始人杨植麟毕业于清华大学计算机科学与技术系，后赴卡内基梅隆大学语言技术研究所（LTI）攻读博士，师从苹果AI研究负责人Ruslan Salakhutdinov、谷歌首席科学家 William Cohen，对国外技术的发展有着敏锐的意识与极高的关注。（AI 科技评论近期将推出《CMU LTI 华人成长史》的群像文，感兴趣的读者可添加微信 Fiona190913 交流）

实战经验方面，杨植麟曾就职于 Google Brain 和 FAIR，参与过 Google Gemini、Google Bard、“盘古”“悟道”等多个大模型的研发，更加了解国内外大模型发展的技术差距与步伐节奏，更清楚该如何在国内发展一家具有国际视野的 AI 大模型公司。

不仅是杨植麟，另外两位联合创始人周昕宇和吴育昕，也都毕业于清华大学，具备 Meta、旷视科技等知名AI公司的就职经历。

此外，据一位月之暗面的员工描述，杨植麟对具有“硅谷范”的公司十分向往，月之暗面也想往这样的风格发展。

其次，月之暗面坚定以 ToC 路线入局。一方面，AI 大模型的落地应用过程中，相较于 ToB，似乎 ToC 更有可能“跑”出来超级应用。其实还有更深层次的考量，即在迈向 AGI 的过程中，数据飞轮至关重要，基于此，ToC 路线就是必然选择。

杨植麟曾提到，对于月之暗面来说，AGI 和产品都是追求的目的，而历史上几乎所有互联网产品要“跑”出来，最终都要靠用户数据的 Scale。

也许由于发展阶段的关系，早期会依靠基础模型的 Scaling law，但拉长时间线，未来最终还是要转向用户的 Scaling law。

综合各种维度来看，ToC 路径是目前公认最适合的路径，天花板也更高。

另外，即便现在 GPT-4 的性能表现已经让人类惊呼，但大模型的想象空间仍旧很大。

而基于这种共识，能否坚定自己对 AGI 的独特理解，拥有长远的方向规划和清晰的逻辑就显得尤为关键。

对于这一点，杨植麟有自己的节奏。

基于此，将视野跳出国内，放眼全球来看，月之暗面角逐全球 AGI 的可能性又多了几分，而红杉中国等全球知名的资本选中月之暗面，或许也有这样的考量——留给月之暗面的时间还有很多。

而将目光聚焦在国内来看，在目前的几家 AI 大模型初创公司中，月之暗面的优势也很明显。

技术方面，月之暗面的技术团队曾参与国内外等多个大模型的研发工作，较之 MiniMax、百川智能等估值相当的公司，经验更丰富。

而技术上能与月之暗面媲美的另一家估值相当的大模型公司智谱 AI，其先发优势与成熟度或许是成立还不足一年的月之暗面所不具备的，但两者路线的不同，也决定了双方大概率不会在同一条赛道“狭路相逢”。在投资者看来，智谱 AI 的定位是“复刻 OpenAI”、坚定 To B 与 To G 路线，走信创道路。

资本方面，最早与杨植麟同时期入局大模型的智源团队中，如清华 THUNLP 走出的两家公司——深言科技与面壁智能，虽然也具备技术实力，但融资节奏远远不如月之暗面。目前深言科技的融资进行到 A+ 轮、面壁智能则进行到 Pre A。

人才储备方面，月之暗面的人才密度高，杨植麟个人的技术号召力强，公司仍处于快速发展、扩张的过程中，虽然总人数仍不过百，但人才密度在大模型初创企业中或许仅次于智谱 AI。

综合来看，月之暗面的重心在技术而非商业化，所以不管是月之暗面花重金招聘人才、每日接近砸 20 万元的成本获客、坚定 To C 与长文本路线、做超强基座大模型……都在情理之中，因为投资方“没有那么着急”，不要求月之暗面此时此刻就开始思考商业化。

也许，2024 年商业化是国内大多数 AI 大模型公司的主旋律、主线任务，但不是月之暗面的。

写在最后

诚然，在理念、技术、人才、资本的累积上，月之暗面身上的优势明显，长板很长，但也有一些短板上的隐忧。

关于第一点，凭借杨植麟的个人能力与号召力或许能扭转局势，但未来仍不确定；关于第二点，目前月之暗面仍在不断开放融资，希望可以降低阿里系在内部的话语权，而这对于其他资本力量来说也是利好。

“他能号召顶级聪明的年轻人，但能否吸引到更高级别的人才，还不确定，毕竟他年轻，而那些（AI Infra 领域的）都是江湖上的前辈，大家是否愿意跟着他干？”

但可以确定的是，目前月之暗面的长板足够长，长到可以遮盖短期的不足，让投资方愿意买单，等待月之暗面带来不一样的 AGI 叙事方式。

本文作者（vx：youlinancy）长期关注月之暗面等 AI 初创公司的大模型叙事，不止于技术发展、人物故事、行业动态，欢迎交流！

{{userData.name}}已认证

从 Moonshot 崛起看中国大模型：资本其实没有大家想的那么急

看视频、画CAD、运动想像鉴别！75B的多模态产业大模型太能干了

万字干货！Stable Diffusion基础入门+案例实操+参数讲解+工具模型

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！