「所有投资者都在押注应用层…… 对训练能力存在强烈的负面偏见…… 我担心这是一场冒险赌注和市场误判。」这是一篇标题为「The Model is the Product(模型即产品)」的文章的主要观点。
文章指出,当前很多企业都以集成商的形式在提供 AI 服务,也就是调用 OpenAI、Anthropic 等大公司模型的 API。未来,这将是一种非常危险的做法,因为这些大公司掌握了模型更新的主动权,未来他们也将进入应用层,并有可能在未来 2-3 年内停止销售 API。如果按照这种趋势发展,这些公司将拿走大部分利润,而现在的集成商实际上在为他们做免费的市场调研,甚至是免费的数据设计和生成服务。
他还举了一些例子来证明自己的观点,比如 OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。DeepSearch 不通过 API 提供,只用于为高级订阅创造价值。Claude 3.7 在 Claude Code 中能完美运行,但 Cursor 却在集成它时遇到困难,已经有一些高端用户因此取消了他们的 Cursor 订阅。
因此,集成商们现在面临一个艰难选择:到底是自己训练模型,还是用别人已经训练好的模型。作者显然更倾向于前者。但现在的投资现状是:选择自己训练模型没有那么容易融资。
文章作者 Alexander Doria 是 AI 科技公司 Pleias 的联合创始人,同时也是一位专注于大语言模型(LLM)研究的机器学习工程师。
以下是博客原文:
模型即产品
过去几年里,关于 AI 发展下一个周期会是什么,人们有很多猜测:Agent(智能体)?Reasoner(推理器)?真正的多模态?
我认为是时候下定论了:模型即产品。当前研究和市场发展的所有因素都指向这个方向。
通用模型的 scaling 正在停滞。这正是 GPT-4.5 发布背后传达的信息:能力在线性增长,而计算成本却呈几何曲线增长。即使过去两年训练和基础设施效率的提升不小,OpenAI 也无法部署这个巨型模型 —— 至少定价远远不是用户能承受的。
某些已有方法的训练效果远超预期。强化学习和推理的结合意味着模型突然开始学习任务。这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。甚至是小模型的数学能力也突然变得好得吓人。这让编程模型不再仅仅生成代码,而是自己管理整个代码库。这能让 Claude 在上下文信息很少且没有专门训练的情况下玩《宝可梦》游戏。
推理成本急剧下降。DeepSeek 最近的优化意味着所有可用的 GPU 加起来可以支撑全球用户每天让前沿模型输出 10k token。我们现在还远没有这么大的需求。对模型提供商来说,卖 token 赚钱的思路不再有效了:他们必须向价值链的更高处移动。
这也是一个令人不安的方向。所有投资者都在押注应用层。在 AI 进化的下一阶段,应用层可能是最先被自动化和颠覆的。
未来模型的形态
过去几周,我们看到了两个「模型即产品」的重要新案例:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。
我读到了很多关于 DeepResearch 的误解,而这些误解并没有因为开源和闭源版本的克隆增多而得到澄清。OpenAI 并没有在 O3 之上构建一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:
DeepResearch 不是标准的 LLM,也不是标准的聊天机器人。它是一种新形式的研究语言模型,专为端到端执行搜索任务而设计。对认真使用它的人来说,区别立即变得明显:模型生成具有一致结构和底层源分析过程的长篇报告。相比之下,正如 Hanchung Lee 强调的,所有其他 DeepSearch—— 包括 Perplexity 和 Google 的变体只是你通常的模型加上一些调整:
Anthropic 一直在更清晰地阐述他们当前的愿景。在 12 月,他们引入了一个有争议但在我看来是正确的智能体模型定义。类似于 DeepSearch,智能体必须在内部执行目标任务:它们「动态指导自己的处理过程和工具使用,保持对如何完成任务的控制」。
大多数智能体初创公司目前正在构建的不是智能体,而是工作流,即「通过预定义的代码路径编排 LLM 和工具的系统」。工作流仍可能带来一些价值,尤其是在垂直领域的适应性方面。然而,对于那些在大型实验室工作的人来说,一个显而易见的事实是,所有关于自主系统的重大进展都将首先通过重新设计模型本身来实现。
我们在 Claude 3.7 发布时看到了这方面的一个非常具体的演示,这是一个主要为复杂代码用例而训练的模型。所有像 Devin 这样的工作流适应在 SWE 基准测试上都有了重大提升。
再举一个规模小得多的例子:在 Pleias,我们目前正在研究如何自动化 RAG。现有的 RAG 系统是由许多相互关联但又脆弱的工作流组成的,比如路由、分块、重排序、查询解析、查询扩展、来源上下文化、搜索工程化等。随着训练技术栈的不断发展,我们真的有可能将所有这些流程整合到两个相互关联但又独立的模型中,一个用于数据准备,另一个用于搜索 / 检索 / 报告生成。这需要一个精心设计的合成数据管道,以及为强化学习设计的全新奖励函数。这才是真正的训练,真正的研究。
这一切在实践中意味着什么?转移复杂性。训练过程会预先考虑广泛的行动和边缘情况,从而使部署变得更加简单。但在这一过程中,大部分价值是在训练阶段创造的,并且最终很可能会被模型训练者所捕获。简而言之,Claude 的目标是破坏和取代当前的工作流,比如 llama index 中的这个基本「智能体」系统:
取而代之的是:
自己训练模型,还是用别人训练好的模型?
重申一下:大型实验室不是带着隐藏议程前进的。虽然他们有时可能不透明,但他们公开地展示了一切:他们将捆绑,他们将进入应用层,他们将尝试在那里捕获大部分价值。商业后果相当明确。Databricks 的 Gen AI 副总裁 Naveen Rao 很好地表达了这一点:
所以,现在发生的一切只是大量的否认而已。模型提供商和集成商(基于大模型 API 构建应用的公司)之间的蜜月期已经结束。事情可能会朝两个方向发展:
Claude Code 和 DeepSearch 是这个方向的早期技术和产品实验。你会注意到 DeepSearch 不通过 API 提供,只用于为高级订阅创造价值。Claude Code 是一个极简的终端集成。奇怪的是,虽然 Claude 3.7 在 Claude Code 中运行完美,但 Cursor 却在集成它时遇到困难,我已经看到一些高端用户因此取消了他们的订阅。真正的 LLM 智能体不关心预先存在的工作流:它们直接替代它。
最高调的集成商现在正在争相成为混合 AI 训练公司。它们确实有一些训练能力,尽管很少宣传。Cursor 的主要资产之一是他们的小型自动补全模型。WindSurf 有他们内部廉价的代码模型 Codium。Perplexity 一直依赖自家的分类器进行路由,最近转向为搜索目的训练自己的 DeepSeek 变体。
对于较小的集成商,情况可能没有太大变化,除非大型实验室完全放弃这一市场,否则它们可能会更多地依赖于中立的推理服务提供商。我也预计会看到对用户界面(UI)的更多关注,因为 UI 仍然被严重低估。随着更通用的模型可能会整合常见的部署任务,尤其是在 RAG 领域,这种情况可能会更加明显。
对于大型 AI 实验室将停止销售 API 的说法,有人提出了不同意见。
简而言之,大多数成功集成商的困境很简单:是自己训练模型,还是依赖于模型提供商的训练成果。目前,他们实际上在为大型实验室做免费的市场调研,甚至是免费的数据设计和生成服务,因为所有最终的输出都是通过模型提供商生成的。
接下来会发生什么,谁也说不准。成功的集成商确实有其优势,比如他们对自己的垂直领域非常了解,并积累了大量宝贵的用户反馈。然而,根据我的经验,从模型层面转向应用层面相对容易,而从头开始构建全新的训练能力则要困难得多。集成商的投资者可能也没有给予他们足够的帮助。据我听到的消息,投资者对训练能力存在如此强烈的负面偏见,以至于集成商几乎不得不隐藏其最具价值的部分:例如,cursor small 和 codium 目前都没有得到适当的文档记录。
强化学习尚未被定价
这让我来到了真正痛苦的部分:目前,所有的人工智能投资都是相互关联的。基金都在以下假设下运作:
真正的价值完全在于一个与模型层无关的应用层,而这一层最有潜力颠覆现有的市场格局。
模型提供商只会以不断降低的价格出售 token,这反过来又会使集成商变得更加有利可图。
闭源模型的集成将满足所有现有需求,即使是在对外部依赖有长期担忧的受监管领域。
建立任何训练能力都只是浪费时间。这不仅包括预训练,还包括所有形式的训练。
我担心这愈发像是一场冒险赌注和市场误判,未能准确评估最新技术发展的价值,特别是在强化学习(RL)领域。在当前的经济生态系统中,风险投资基金本应寻找低相关性的投资组合 。它们可能无法超越标普 500 指数,但这并不是大型机构投资者所追求的:他们希望分散风险,确保在糟糕的一年里至少有一些投资能够取得成功。
模型训练就是一个教科书般的完美例子:在大多数西方经济体走向衰退的背景下,它具有巨大的颠覆潜力。然而,模型训练公司却难以筹集资金,或者至少无法以传统的方式筹集。Prime Intellect 是少数几家具有明确潜力成为前沿实验室的西方新晋 AI 训练公司之一。然而,尽管他们取得了包括训练第一个去中心化大语言模型(LLM)在内的成就,他们仍然难以筹集到比普通集成商更多的资金。
除了这些大型实验室,当前的模型训练生态系统规模极小。几乎可以掰指头数清这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace 预训练团队(实际很小)... 还有一些更学术性的机构(Allen AI、Eleuther 等),他们共同构建并支持了大部分当前开放的训练基础设施。在欧洲,我了解到至少有 7-8 个 LLM 项目将采用 Common Corpus 和我们在 Pleias 开发的预训练工具 —— 其余项目将使用 fineweb,以及可能来自 Nous 或 Arcee 的后训练指令集。
当前的融资环境存在严重问题。就连 OpenAI 现在也意识到了这点。最近,他们对硅谷创业生态中缺乏「垂直强化学习」表示不满。我相信这一信息直接来自 Sam Altman,这可能会影响下一批 YC 孵化公司的选择,但更指向一个更大的转变:不久之后,大型实验室选择的合作伙伴将不再是 API 客户,而是参与早期训练阶段的技术承包商。
如果模型即产品,单打独斗的开发方式将不再可行。搜索和代码领域是容易摘取的果实:作为过去两年的主要应用场景,市场已接近成熟,你可以在几个月内推出新的 cursor 产品。然而,未来许多最具盈利潜力的 AI 应用场景尚未发展到这一阶段 —— 想想那些仍然主导全球经济大部分的基于规则的系统。拥有跨领域专业知识和高度专注的小型团队可能最适合解决这些问题 —— 最终在完成基础工作后成为潜在的收购对象。我们可能会在 UI 领域看到类似的发展路径:一些优先合作伙伴获得闭源专业模型的独家 API 访问权,前提是他们为未来的业务收购做好准备。
至今我还没有提及 DeepSeek 或中国的实验室。原因很简单,DeepSeek 已经更进一步:它不仅是作为产品的模型,而是作为通用基础设施层。与 OpenAI 和 Anthropic 一样,梁文锋公开了他的计划:
在这个阶段,仅专注于应用开发就像是「用上一场战争的将军打下一场战争」。恐怕许多人甚至还没意识到,上一场战争已经结束了。
原文链接:https://vintagedata.org/blog/posts/model-is-the-product