从 Moonshot 崛起看中国大模型:资本其实没有大家想的那么急

近期,自月之暗面宣布 Kimi 可支持 200 万汉字的无损上下文输入能力后,Kimi 相关热点先后两次登上微博热搜。 第一次是“Kimi 概念股”。 在 200 万汉字上下文输入能力正式官宣后,A 股市场与 Kimi 存在关联关系的多只个股,包括掌阅科技、华策影视、超讯通信 、中广天择、世纪天鸿、海天瑞声、九安医疗等等相继涨停。

近期,自月之暗面宣布 Kimi 可支持 200 万汉字的无损上下文输入能力后,Kimi 相关热点先后两次登上微博热搜。

第一次是“Kimi 概念股”。在 200 万汉字上下文输入能力正式官宣后,A 股市场与 Kimi 存在关联关系的多只个股,包括掌阅科技、华策影视、超讯通信 、中广天择、世纪天鸿、海天瑞声、九安医疗等等相继涨停。

第二次是关于“Kimi 获客成本”。报道称,根据 Kimi 投放广告的成本、拉新后用户问答互动产生的算力成本,以及在第三方平台的下载量估算,近一个月来 Kimi 每天的获客成本至少达到 20 万元。

这也使得月之暗面(Moonshot AI)成为自 2023 年 GPT 热潮席卷以来,第一家凭借自身产品“破圈出道”,走进大众视野,在路人面前怒刷存在感的大模型独角兽公司。甚至,由于用户激增、大流量,Kimi 服务器一度宕机。

Kimi 是真火了。

但若细看月之暗面的崛起,除去资本的轰抢与市场的高度关注,在一众中国超 20 亿美元估值的大模型公司中,月之暗面的路径实则别具一格。因为支撑月之暗面高关注度的两大要素——技术进展与商业节奏,其实在一众竞争对手中并不明显:

首先,相比其他的大模型公司,包括智谱 AI、MiniMax、深言科技、面壁智能、百川智能,甚至光年之外(后被美团收购)在内,月之暗面的成立时间要晚得多,团队磨合、技术进展也自然相对滞后。尽管杨植麟的技术实力受到广泛认可,但根据 SuperCLUE 的评测,目前 Moonshot 的综合能力仅超过 GPT-3.5,仍在追赶 GPT-4。

其次,月之暗面的大模型产品与商业化节奏并不算快。以智谱为例,智谱在去年就开始组建商业化团队,探索基座大模型的商业服务,而月之暗面主打 To C,目前推出 Kimi 智能助手,但商业色彩并不浓厚。

但月之暗面却能在短时间内获得多轮投资,后来居上,一跃跻身于中国大模型初创企业的第一梯队。有消息甚至称,月之暗面的估值已经超过智谱 AI。2023 年过去,当大多数大模型公司都在经历“商业化”的灵魂拷问、被质疑“如果再不商业化、2023 年的融资也许只能烧到 2024 年年底”时,同样聚焦基座大模型的月之暗面显得更加突出。

而杨植麟与月之暗面,给了他们这份信心。

被看好、短期内资本大量累积

仔细算下来,如今频频活跃在热度榜首的月之暗面距离成立还不到一年。

月之暗面正式成立是在 2023 年 4 月,同年 10 月推出首款大模型产品 Kimi 智能助手,最高可支持输入 20 万汉字,是彼时全球范围内 AI 大模型产品中所能支持的最长上下文输入长度。

据悉,按照 OpenAI 的计算标准,一般情况下,1 个汉字约等于 2 个 token,那么月之暗面的 20 万汉字约为 40 万 token,而同期 Anthropic 的 Claude 大模型支持的最大长文本为 10万 token。

2024 年 2 月,Kimi 对网站、多问题搜索能力进行迭代升级,可用性表现能力持续提升。

今年 3 月 18 日,月之暗面再度刷新记录,宣布 Kimi 在大模型长上下文窗口技术上取得新突破,可支持 200 万字超长无损上下文,并于即日起开启产品内测。

从 Moonshot 崛起看中国大模型:资本其实没有大家想的那么急月之暗面宣布 Kimi 可支持 200 万字超长无损上下文

月之暗面的首轮融资发生在2023年4月,彼时月之暗面刚从循环智能拆分出来。

循环智能( Recurrent AI )是一家专注于销售科技的企服,2016 年杨植麟以联合创始人的身份参与创立,主要业务是运用 NLP、语音、多模态、大模型等 AI 技术打造“销售科技”解决方案。资料显示,循环智能曾获得红杉中国、真格基金等投资方的多轮投资。

月之暗面完成第一轮融资后,估值达到 3 亿美元,投资方包括红杉中国、真格基金、励思资本。

2023 年 6 月,月之暗面进行第二轮融资,投前估值 6 亿美元,投后估值 7.7 亿美元。这一轮的投资方包括蚂蚁、阿里、美团、FunPlus,以及部分阿里战投部的成员。据悉,这一轮,由蚂蚁、阿里、美团领投。

月之暗面的第三轮融资的投资方包括云久资本、五源资本等,本轮融资后,估值约为10亿美元。

据了解,月之暗面的第三轮融资是与第四轮融资同时期谈的,也就是前不久月之暗面获得的超10亿美元这一轮。

这一轮阿里投资了 8 亿美元(更准确的数字是 7.9 亿美元),其中有超过 40% 的金额是作为阿里与月之暗面的共管账户,用来作为月之暗面买云、用云的资金。

另外,砺思资本投资 1000 万美元,其他老股东凑了 2 亿多美元,总体算下来,该轮总金额超 10 亿美元。

也就是在这一轮投资后,月之暗面的估值达到了25亿美元。

作为一家 AI 大模型初创公司,月之暗面凭什么能够吸引这么多投资者的目光?

长文本(Long Context)是大语言模型(LLM)的基础能力,但是如果上下文过长,模型会过多地将注意力放在文本的开头和结尾部分,忽略中间部分的信息,从而导致模型难以找到并利用放在长文中部的相关信息。

因此,如何在做到文本足够长的同时,能够保证“没有损失”变得关键。

“Lossless long context is everything。”

杨植麟曾不止一次地公开表示过,“通往通用人工智能(AGI)的话,无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化 。”

而这也是月之暗面从成立就聚焦在长文本上的初心所在。

至于 ToC 的路线,这是 AI 大模型落地过程中,最有可能跑出来超级应用的方向,也是杨植麟从一开始就坚定想要做的事情。

当然,除了技术和路线,更重要的还有杨植麟的个人能力。

“这一波 AI 是技术驱动的,(如果投资)首要考虑的就是去找技术上最强、最相关的那个人。”而当前 AI 大模型的主流架构 Transformer 曾是杨植麟之前的研究领域。杨植麟曾以第一作者发表了 Transformer-XL 和 XLNet 两篇重要论文,且学术引用量自 2019 年起已超 2 万余次,在技术上的实力自然毋庸置疑。

而且,作为创业者,杨植麟的人才号召力也很强,能够吸引到许多年轻、优秀的工业界人才,比如月之暗面的联合创始人、在各大 AI 公司浸染历练后选择加入月之暗面的员工等。

另外,杨植麟做的事情很纯粹,就是要做中国的 AGI。一位投资者表示,他聊过很多年轻的、资深的AI创业者,而杨植麟是自己见过技术上讲得最清楚、最有愿景的人。

“我们聊过好几次,现在每次聊几句话就说清楚了,他就是要做中国的 AGI。”

投资者认为,这一轮 AI 创业潮中,那些曾经在互联网时代乘风破浪的大佬的经验,有时候未必是加分项,甚至可能是包袱。因为在新的 AI 时代,所有的东西都是新的,而新的组织、新的人来做这件事,更有机会带来新的想象力。

而以上这些,都是月之暗面虽不具备先发优势,却能后来居上的原因所在,是偶然中的必然。

抢滩全球 AGI 的野心

近日,一微软工程师曝出为 GPT-6 搭建 10 万个 H100 训练集群,却导致整个电网崩溃的消息,再度重申了通往 AGI 之路仍需破解电力难题的困惑,却也释放出一个信号:虽然 GPT-4.5 泄露事件纷纷扬扬、GPT-5 还未发布,但 GPT-6 已经在路上。

深度学习的发展已经过去十年,较之上一波AI浪潮,这一波大模型的投资者更懂技术。他们无比清晰地认识到大模型是一门流动的、仍在继续成长的技术,GPT-4 不是终点。而“即使是 OpenAI 的路线,也并不一定是 AGI 的最终路线”。

更多阅读见 AI 科技评论近期发布:《谁将替代 Transformer?》

尤其对知名投资机构来说,他们想要投出的,并不只是中国范围内的“最强大模型”,而是有资格、有潜力参与竞争“全球范围内最强 AGI”的大模型团队。在一次访谈中,杨植麟也曾公开表示,“AI 不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。”

如果跳出国内大模型鏖战的视角,站在全球视野来看, 作为典型的技术信仰派的代表,月之暗面抢滩全球 AGI 的优势或许是以下几点:

首先, 月之暗面是全球化教育下的产物,视野更广阔。创始人杨植麟毕业于清华大学计算机科学与技术系,后赴卡内基梅隆大学语言技术研究所(LTI)攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov、谷歌首席科学家 William Cohen,对国外技术的发展有着敏锐的意识与极高的关注。(AI 科技评论近期将推出《CMU LTI 华人成长史》的群像文,感兴趣的读者可添加微信 Fiona190913 交流)

实战经验方面,杨植麟曾就职于 Google Brain 和 FAIR,参与过 Google Gemini、Google Bard、“盘古”“悟道”等多个大模型的研发,更加了解国内外大模型发展的技术差距与步伐节奏,更清楚该如何在国内发展一家具有国际视野的 AI 大模型公司。

不仅是杨植麟,另外两位联合创始人周昕宇和吴育昕,也都毕业于清华大学,具备 Meta、旷视科技等知名AI公司的就职经历。

此外,据一位月之暗面的员工描述,杨植麟对具有“硅谷范”的公司十分向往,月之暗面也想往这样的风格发展。

其次,月之暗面坚定以 ToC 路线入局。一方面,AI 大模型的落地应用过程中,相较于 ToB,似乎 ToC 更有可能“跑”出来超级应用。其实还有更深层次的考量,即在迈向 AGI 的过程中,数据飞轮至关重要,基于此,ToC 路线就是必然选择。

杨植麟曾提到,对于月之暗面来说,AGI 和产品都是追求的目的,而历史上几乎所有互联网产品要“跑”出来,最终都要靠用户数据的 Scale。

也许由于发展阶段的关系,早期会依靠基础模型的 Scaling law,但拉长时间线,未来最终还是要转向用户的 Scaling law。

综合各种维度来看,ToC 路径是目前公认最适合的路径,天花板也更高。

另外,即便现在 GPT-4 的性能表现已经让人类惊呼,但大模型的想象空间仍旧很大。

而基于这种共识,能否坚定自己对 AGI 的独特理解,拥有长远的方向规划和清晰的逻辑就显得尤为关键。

对于这一点,杨植麟有自己的节奏。

基于此,将视野跳出国内,放眼全球来看,月之暗面角逐全球 AGI 的可能性又多了几分,而红杉中国等全球知名的资本选中月之暗面,或许也有这样的考量——留给月之暗面的时间还有很多。

而将目光聚焦在国内来看,在目前的几家 AI 大模型初创公司中,月之暗面的优势也很明显。

技术方面,月之暗面的技术团队曾参与国内外等多个大模型的研发工作,较之 MiniMax、百川智能等估值相当的公司,经验更丰富。

而技术上能与月之暗面媲美的另一家估值相当的大模型公司智谱 AI,其先发优势与成熟度或许是成立还不足一年的月之暗面所不具备的,但两者路线的不同,也决定了双方大概率不会在同一条赛道“狭路相逢”。在投资者看来,智谱 AI 的定位是“复刻 OpenAI”、坚定 To B 与 To G 路线,走信创道路。

资本方面,最早与杨植麟同时期入局大模型的智源团队中,如清华 THUNLP 走出的两家公司——深言科技与面壁智能,虽然也具备技术实力,但融资节奏远远不如月之暗面。目前深言科技的融资进行到 A+ 轮、面壁智能则进行到 Pre A。

人才储备方面,月之暗面的人才密度高,杨植麟个人的技术号召力强,公司仍处于快速发展、扩张的过程中,虽然总人数仍不过百,但人才密度在大模型初创企业中或许仅次于智谱 AI。

综合来看,月之暗面的重心在技术而非商业化,所以不管是月之暗面花重金招聘人才、每日接近砸 20 万元的成本获客、坚定 To C 与长文本路线、做超强基座大模型……都在情理之中,因为投资方“没有那么着急”,不要求月之暗面此时此刻就开始思考商业化。

也许,2024 年商业化是国内大多数 AI 大模型公司的主旋律、主线任务,但不是月之暗面的。

写在最后

诚然,在理念、技术、人才、资本的累积上,月之暗面身上的优势明显,长板很长,但也有一些短板上的隐忧。

关于第一点,凭借杨植麟的个人能力与号召力或许能扭转局势,但未来仍不确定;关于第二点,目前月之暗面仍在不断开放融资,希望可以降低阿里系在内部的话语权,而这对于其他资本力量来说也是利好。

“他能号召顶级聪明的年轻人,但能否吸引到更高级别的人才,还不确定,毕竟他年轻,而那些(AI Infra 领域的)都是江湖上的前辈,大家是否愿意跟着他干?”

但可以确定的是,目前月之暗面的长板足够长,长到可以遮盖短期的不足,让投资方愿意买单,等待月之暗面带来不一样的 AGI 叙事方式。

本文作者(vx:youlinancy)长期关注月之暗面等 AI 初创公司的大模型叙事,不止于技术发展、人物故事、行业动态,欢迎交流!

给TA打赏
共{{data.count}}人
人已打赏
应用

看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

2024-3-28 15:10:00

应用

万字干货!Stable Diffusion基础入门+案例实操+参数讲解+工具模型

2024-3-29 8:16:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索