整理 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
刚刚,AI搜索独角兽Perplexity的CEO在采访中给Agent浇了盆冷水!
不同于奥特曼等人的乐观论调。Aravind直言不讳:
任何说Agents今年可用的言论都很可疑。
Anyone saying agents will work in 2025 you should be skeptical of it.
图片
此前,奥特曼曾说,今年Agents将“加入劳动力大军”,并实质性地改变公司的产出方式。Aravind显然无法同意这个观点。在模型厂没有硬件优势的基础上,他们很难突破各种生态限制,让 AI Agent可以同时控制多个应用。
而这将成为AI初创公司打造通用Agents的最大困境。
不过。Aravind已经找到了他认为目前唯一的解法——从零开始自己造浏览器。
Perplexity CEO Aravind表示:目前没有其他方式能让 AI Agent同时控制多个应用,尤其是在 iOS 上,甚至无法访问其他应用,这是苹果生态的限制。而我们不想受制于苹果的规则,所以需要寻找一个变通的方法。在短期内,浏览器是一个非常好的解决方案。因为本质上说,浏览器就是一个操作系统。
Perplexity的这个浏览器,将推动AI走向智能体搜索时代。他们构建的智能Agents将可以帮用户预订、购买商品、制定旅行计划,比如订酒店等等。而且会根据用户的偏好进行个性化设置。(当然,Aravind说这是一个长期愿景,今年的效果不会非常完善。)
顺便说一句,这个2月份预告的浏览器将于下个月正式推出,感兴趣的可以点进他们的Waitlist留个邮箱:
https://www.perplexity.ai/comet
图片
回到这场访谈,还有Aravind大佬还奉上其他精彩的观点,在此画个重点:
- GPT一家独大的时代结束了,模型差异正在走向细分。DeepSeek的横空出世具有革命性意义,其创造的低成本奇迹,让大家都开始思考构建AI业务并不需要烧那么多钱和卡。
- Aravind认为:在 AI 产品中,只有两个核心特性能够真正帮助建立用户信任:公开来源引用和思维链。Perplexity是唯一拥有这两个特性的产品。
- AI安全风险被过度炒作了,不过面对这方面挑战,开源才是唯一行之有效的解法。
- 按照当前的趋势——人工智能的计算成本大约每年降低 8 倍。即使保守估计,这种趋势还能持续两年。这对AI初创扩大产品规模是绝佳机会。
- DeepSeek 在 AWS等云平台使用的的边际成本几乎为零。因此,随着更小、更高效的模型推出,AI 的使用成本就可以接近于零。
此外,Aravind还爆了个有意思的料,他已经一年半没写过代码了,对具体的技术细节已经有些脱节了。因此当DeepSeek的论文火遍硅谷时,他大量使用Perplexity完成整个论文的学习。
以下是访谈的全文整理 enjoy:
图片
1.AI产品获得用户信任的路径:显示引用来源、公开思维链
主持人:很高兴来到这里。我们是 Perplexity 的投资方,不过我们会尽量保持真实,提出一些尖锐的问题,进行一场真实的对话。
很高兴能和你一起交流,Arvind。让我们先来了解一些背景信息,尽管大家可能已经很熟悉 Perplexity 了,但还是先把基本情况讲清楚。
你在印度长大,本科就读于印度理工学院马德拉斯分校(IIT Madras),后来移民到了美国,目前仍在办理相关手续。祝你绿卡申请顺利!
Aravind Srinivas:很快就会有“金卡”了。(编者注:“金卡”是美国政府近期推出的一项新移民计划,外国投资者只需支付500万美元,即可获得美国永久居留权(类似于绿卡),并有机会申请美国国籍。)
主持人:风投界有句话,"Pay to play"(花钱才能入场)。
你拿到了加州大学伯克利分校(UC Berkeley)的计算机科学博士学位,这可是了不起的成就!(Go Bears!)。之后,你进入了 Google DeepMind 和 OpenAI 从事研究工作,作为研究科学家,你在这两个当时最重要的机构里,亲历了早期生成式 AI 模型的发展。
主持人:如今,Perplexity 是一个面向消费者搜索、通用知识学习,以及企业解答的“答案引擎”。目前,每月的查询量已达 5 亿次——这个数据对记者们来说很重要,因为他们需要统计数据。Perplexity 现在已经覆盖全球所有国家和地区,用户遍布世界各地,还有成千上万的企业客户。
最近这几周你们非常忙碌,开展了深入的研究,部署了 DeepSeek 模型,仅用几天时间就开放给开发者。现在,你们又在推出企业版的 Deep Research,速度快得惊人。这是怎么做到的?
Aravind Srinivas:整个 AI 领域的发展速度快得令人惊叹。我认为,目前唯一能保持竞争力的方式就是“跟上这个速度”。这既是好事,也是坏事。坏处是,基本没办法有充足的睡眠,无法过上轻松的生活。好处是,你能体验到这片领域带来的所有创新和不断迭代的产品。
无论用户有什么投诉或发现了哪些 bug,我们都会日夜修复。我觉得这真的很棒。再过五年,知识将变得随手可得,研究成本将大幅降低,软件开发会更加简单,构建产品的速度也会更快。从这个角度来看,这种产品带来的可能性令人惊叹,而行业内的竞争对手们也在不断创新,以保持领先,我觉得这非常棒。
主持人:现在,AI 领域正处于一个有趣的节点。大家都认可 AI 模型的价值,它们积累了大量的价值,并在全球各个组织中产生了巨大影响。而 DeepSeek 似乎正在进一步推动高价值 AI 技术的“商品化”。你怎么看待这场竞争?目前,模型的竞争主要依赖于基准测试(benchmark),但 Perplexity 似乎采取了不同的策略,你更关注应用层。那么,你的愿景是什么?
Aravind Srinivas:关于 AI 模型的“商品化”,我觉得很多人还没有真正理解其影响力。不过,我们不只是听我的看法,而是可以看看那些在这个领域投入了数百亿美元的人的观点。
比如,微软 CEO 萨提亚·纳德拉(Satya Nadella)在最近的多次采访中表示,他们曾经在 GPT-4 时代取得的领先优势已经结束了。过去,我们处于一个只有一个模型遥遥领先的时代,这种领先优势至少持续了一年,甚至一年半。
但现在,这种局面已经改变了,领先优势可能只维持几周,而且在不同领域,各家模型各有所长。比如,Anthropic 的模型在代码生成方面表现最佳,OpenAI 的模型擅长其他任务,Google DeepMind 可能在不同的领域更强,而 DeepSeek 在某些方面更具优势。
因此,模型之间的差异正变得更加细化。所有公司都在围绕相同的基准测试不断优化,填补自身的短板。开源模型的出现,也会迫使闭源模型做出反应。毕竟,闭源模型的商业模式依赖于不断说服投资者投入更多资金,以构建更大规模的计算集群,训练更强大的模型。如果无法保持领先,而开源模型又能被轻松微调,那么想要持续筹集 100 亿甚至 1000 亿美元的投资就会变得更加困难。
DeepSeek 这一事件确实具有革命性意义。无论他们是否真的只花了 600 万美元训练模型(这点仍然有争议),但可以确定的是,他们的投入远低于传统的闭源模型训练成本,却打造出了一个极具竞争力的 AI 模型。这个模型不仅能与最好的闭源模型媲美,还能完整提供推理过程,即“透明的推理链路”(transparent chain of thought)。
在 AI 产品中,只有两个核心特性能够真正帮助建立用户信任:
- 来源引用(Source Citations)——AI 模型需要告诉用户,它的信息是从哪里来的。否则,用户无法判断答案的真实性,也不知道如何使用这个答案。
- 推理链路(Reasoning Trace)——完整透明的推理过程,展示 AI 是如何得出答案的。
目前,我们是唯一真正同时提供这两个特性的产品。
封闭实验室不提供推理链的原因,是因为他们要在模型中保护自己的知识产权(IP),所以他们不想免费公开这些内容。但开源模型没有这种限制,比如 DeepSeek 并不需要保护任何 IP,它直接免费开放了模型权重。
然后你可以基于这些权重进行定制,弥补模型的盲点,移除审查机制,甚至在某些基准测试(比如金融领域的查询)上优化模型表现,而不需要投入太多资金。你可以在任何数据中心托管这些模型,或者使用 Fireworks 这样的模型提供商快速部署。这种趋势迫使封闭模型的公司降低 API 价格,或者推出更优的替代方案。
而作为一个对模型保持中立的产品,如果你直接面向用户,持续增长用户群体,快速迭代产品,不断修复问题,并为全球知识工作者提供价值,你就有很大的机会胜出。
主持人:还有一个有趣的点,特别是对于企业用户来说,不仅仅是面向消费者。当企业有敏感的专有数据,并希望将其用作 AI 的数据来源进行检索(RAG),在模型和应用层之间建立抽象层就显得尤为重要。这样可以确保信任,比如 Perplexity 这样的公司可以在 ChatGPT 或 Claude 的服务条款中明确这一点,而这种抽象层实际上划定了明确的边界。
Aravind Srinivas:无论是消费者还是企业用户,其实没有人在乎自己用的是哪个具体的模型,人们真正抱怨的是:为什么它无法连接我的 Google 或 Microsoft 数据?为什么它不能按照我想要的格式输出结果?我想直接点击文件,在站内查看;我希望它能帮我创建工单……人们只是希望能使用最好的模型,而且他们不想操心技术细节。
这些问题是产品构建者需要解决的。因此,我们的独特优势在于,我们可以用同样的产品满足消费者和企业用户的需求。普通消费者可以直观地理解哪些模型在哪些任务上表现良好,而企业用户则需要额外的安全合规性保障,以及与各类数据源的集成。
过去,面向消费者和企业的技术栈通常是完全不同的,比如用于网页搜索的检索机制,并不适用于企业的内部搜索。
但大语言模型的出现,使得“研究代理”(Research Agent)成为可能——它可以一次性处理多个文件,提取相关段落,进行推理,并按照用户需要的格式返回答案,同时具备对话能力。这种方式将网页搜索和企业内部搜索统一了起来,最终成为一个知识管理和研究工具,整合了不同的数据集和模型,并将它们封装在一个统一的体验中——这正是 Perplexity 在做的事情。
2.开闭源之争:开源是AI安全的唯一解,将带来应用爆发
主持人:我们再聊聊开源 vs. 封闭模型的问题。我认为这是当前基础模型领域最重要的话题之一。在当前的政治环境下,开源模型是一把双刃剑。好处是任何人都可以下载、使用权重、微调模型,并将其托管在美国的数据中心,而不受模型最初来源的限制。但同时,也有人担忧,开源模型若落入不当之人之手,或来自“敌对国家”,可能会带来安全风险。因此,封闭模型实验室正在游说政府反对开源,这其实就是典型的政府-企业博弈。
那么从长远来看,你如何看待开源 vs. 封闭模型?Perplexity 作为一个保持中立的公司,如何在其中找到平衡?从社会竞争和技术发展角度来看,你觉得哪种模式更好?
Aravind Srinivas:我们今天使用的很多技术——手机、笔记本电脑、互联网——都是基于开源软件和协议构建的。整个世界都依赖于这些技术,比如 Linux、Android,它们都是开源项目。互联网本身就是建立在早期开源协议上的。所以,如果我们关注的是安全性和信任,那么开源才是唯一行之有效的路径。AI 领域也应该如此。
我很喜欢 Bill Gurley 说过的一句话:如果某种技术真的很危险,那就应该让更多人来审视它,而不是让更少的人掌控它。否则,技术的安全性将完全取决于某个小群体的判断,尤其是当这个群体正积极游说封禁开源时,那显然存在利益冲突。毕竟,他们的商业模式依赖于开源被封禁,这样他们就能筹集更多资本,建立更大的数据中心,并提高 API 价格。
而所谓的安全性担忧,可能根本站不住脚。即便这些担忧属实,开源模型的公开可见性使得更多人可以共同验证其安全性。如果有广泛共识认为某种技术确实危险,我们可以采取措施确保其安全发展。
目前来看,所谓的“AI 安全风险”被过度炒作了。除非 AI 发展到超级智能(superintelligence)的水平,能够成为国家级威胁(比如一个由多个强大 AI 组成的集群),否则对开源模型的恐慌是不合理的。
所以目前我非常支持开源,我相信这将促进应用层的繁荣,会有更多公司能够以可持续的方式提供这些模型,建立自己的业务,直接为用户创造价值,并有效地实现盈利,从而创造大量的经济价值,这是件了不起的事情。而我们正在尝试这么做,我也看到有几家公司在做类似的事情。在未来五年内,我希望能有更多 AI 原生的应用,为人们带来巨大的价值。
3.一切都是套壳,能为用户提供价值的就是好产品
主持人:以一个与模型无关的方式来看,回顾 2023 年初或年中,我记得我们是在 Perplexity 上认识的。当时人们说,这只是一个很棒的 AI 套壳(wrapper)。
套壳(wrapper)。这种说法有点贬低的意味,意思是所有的价值最终都会集中到大型语言模型(LLMs)上,而这些只是封装层。即使到现在,人们仍然倾向于将世界分为两类:一类是 LLMs,另一类是产品或应用,无论是硬件还是软件。但我知道你对 Perplexity 有不同的看法。在这个框架下,你如何看待 Perplexity,或者说你是否打破了这个框架?
Aravind Srinivas:我之前说过一句话,甚至广泛传播开了:到头来,一切都是套壳(wrap)。确实有一些公司在训练自己的模型,但它们没有自己的芯片,没有自己的数据中心,只有 Google 拥有完整的一套芯片、数据中心和所有基础设施。甚至就连芯片,你自己也不会去制造,而是交给别人代工。所以,从某种程度上来说,一切都是套壳,只是抽象层次不同罢了。
关键在于,你是否能大规模地为终端用户提供真正的价值,并在此基础上构建一个持续增长的业务。而如果你所依赖的基础设施正在逐渐变成商品化的东西,那就太棒了。这正是当前的趋势——人工智能的计算成本大约每年降低 8 倍,每个季度降低 2 倍,或者说每 4 个月降低 2 倍。目前的估算是,即使保守估计这种趋势还能持续两年,我们也会看到成本下降 20 到 50 倍。这意味着在当前相同的价格下,我们可以为 50 倍的用户提供服务,并在更高的规模上建立更强的业务,这是一个极好的机会。
另一方面,我还想补充一点:一旦这些模型能够真正对用户的数据进行上下文理解,核心价值将不再是模型本身的权重,而是如何获取并整理这些数据,为用户提供真正有用的服务。
比如,模型能调用用户的 Google Drive、Gmail、旅行信息、购物记录,甚至整合来自各种社交媒体和在线活动的信息。真正的价值在于如何打包所有这些数据,为用户提供精准的个性化辅助,而不仅仅是模型本身的参数。
实际上,模型只是一个信息转换器——它在进行推理、对话,并保持上下文一致性,但核心价值来自于它对用户(或企业)的了解。这正是我们希望构建护城河和核心价值的地方。如果能在大规模上实现这一点,我们将会是一家极具价值的公司。
4.Perplexity做浏览器:构建Agents的唯一方式
主持人:我们来谈谈护城河吧。这个世界变化很快,几乎每天都有新模型发布,未来的公司在解决知识获取问题后,会逐步进入 AI 代理(Agent)时代,以执行具体任务。不同的 AI 形式也在发展,比如 iOS、Android、Windows、Mac 等等。在这样一个框架下,你认为企业需要做出选择吗?Perplexity 在这个生态中如何定位?
Aravind Srinivas:我认为目前所有的 AI 公司都在尽力覆盖所有平台。我们有 Mac 端应用,其他公司也有。我看到微软今天刚推出了他们的 Mac 应用。我们也即将推出 Windows 端应用,同时也在网页端提供服务。
此外,我们还有 iOS 和 Android 端的移动应用,在 Android 端甚至可以作为原生助手(Assistant)运行,无需打开 App。我们还宣布下个月将推出自己的浏览器。
本质上来说,浏览器就是一个操作系统。你可以在浏览器里完成几乎所有的知识型工作。这其实也是 Google 当初推出 Chrome OS(Chromebook)的概念:操作系统本质上就是浏览器。这意味着我们可以基于浏览器构建许多 AI 代理(Agent),并且能够从各种来源提取数据。
我们之所以要做浏览器,是因为目前没有其他方式能让 AI 代理同时控制多个应用,尤其是在 iOS 上,甚至无法访问其他应用,这是苹果生态的限制。而我们不想受制于苹果的规则,所以需要寻找一个变通的方法。在短期内,浏览器是一个非常好的解决方案。
我们正在构建的智能体(agents)将允许你预订、购买商品、制定旅行计划,比如订酒店。而且它会根据你的偏好进行个性化设置,比如你喜欢住哪些酒店、偏好的房型、喜欢什么样的景观等等。基本上,我们是在为你打造一个私人助理或者是执行助理(executive assistant)。
当然,你仍然可以有一个真人助理(EA),但有些人负担不起。而这个产品可以成为他们的“80/20”方案(指以较低成本提供大部分核心价值)。现实中,人们为私人助理支付的薪资通常在 10 万到 20 万美元之间。如果我们能以 10 到 100 倍更低的价格提供 80% 的价值,那将是一个很好的商业模式。
我们希望通过这种方式,让我们的核心产品——这个问答引擎(answer engine),能够尽可能广泛地可访问,并且免费提供给用户。这是一个长期愿景,不会在今年实现。目前任何人声称 2025 年的智能体(agents)可以完全投入使用,都应该持怀疑态度。但我们正在尝试找出一些可以率先落地的简单场景,比如让用户购买商品时无需手动输入信用卡信息和收货地址等。这类简单的工作流程,我们希望在 Perplexity 上进行抽象化处理。
5.随着模型的轻量、高效化,使用AI的成本可以接近于零
主持人:如果你考虑未来的模型发展方向,现在的 AI 实验室(labs)已经开始构建产品了。他们意识到,像 ChatGPT 这样的产品占据了 OpenAI 收入的主要部分,而不是开发者 API 请求带来的收入。
Anthropic 非常专注于企业市场,而 Mistral 也是类似的情况。DeepSeek 既希望发展企业市场,也希望面向消费级用户。他们正在筹集大量资金,也有丰富的算力资源。不过这对他们来说既是优势也是劣势,因为他们被自己的模型所绑定。那么,作为一家初创公司,你们如何与这些融资数十亿美元的 AI 巨头竞争呢?
Aravind Srinivas:关键在于资金的使用方式。他们可能筹集了 10 倍甚至 100 倍的资金,但其中 80% 可能只是用于建造数据中心。那么,我们真的需要那么多资源吗?DeepSeek 让整个行业都开始思考这个问题。
或许,我们可以把那些超大规模的模型进行蒸馏(distill),变成更小但依然高效的版本,并将其投入生产环境。如果这些模型是开源的,或者能以合理价格通过 API 提供,即使那些 AI 巨头不愿意这么做,云计算巨头(hyperscalers)也愿意这样做。毕竟,他们追求的是规模经济(economies of scale)。如果能有一种成本低廉、价格亲民的模型,云计算厂商一定会推动它的发展。事实上,DeepSeek 已经在 AWS 和 Azure 上提供,它们的边际成本几乎为零,用户只需要支付服务器费用。
所以,如果有类似的更小、更高效的模型,AI 的使用成本就可以接近于零。而在这样的情况下,创业公司所筹集的资金就可以真正用来打造更好的产品、招募优秀的人才,开发下一代产品和新功能,而不是把钱都砸在数据中心上。
有人会嘲笑我们免费提供 Pro 版本,但这其实是一种战略。类似于当年 Google 通过向网站支付费用,换取他们在页面上嵌入 Google 搜索框的策略,我们也在“为查询买单”。只是我们的成本是计算资源,而不是直接支付广告费(CA)。如果未来模型的成本继续降低,我们的查询成本也会随之下降。
当我们积累了足够大的用户群,并让用户养成使用习惯,同时不断收集数据来优化产品、实现更个性化的服务,我们将处于一个非常有利的位置。届时,我们可以根据需求切换不同的模型,甚至基于开源模型训练我们自己的模型——这也是我们正在做的事情。
我们有一个名为 Sonar 的模型,也提供 API 接口。此外,我们特别专注于搜索增强(search grounding),这使得我们的成本比其他公司低得多。那些想要集成网络搜索的公司往往需要向 Bing 等数据提供商支付高昂的 API 费用,而我们避免了这些成本。
6.Perplexity的下一步:成为个人化助理
主持人:在座的各位应该都用过 Perplexity 。你是怎么使用它的?
Aravind Srinivas:我用它来做各种事情。我甚至可以直接读出我的查询历史,比如理解我完全不熟悉的概念。我在经营这家公司,但在管理或领导方面完全没有经验,所以……(笑)我不是谦虚,是真的没有经验。
比如,每次我们进行融资,我都会用 Perplexity 来写投资备忘录(investment memo)。这不是我在吹嘘自己的产品,而是我真的在用它。我也会用它来收集其他公司的基准数据,比如它们在不同阶段的收入情况,或者像 DeepSeek 论文这样的技术资料。
我以前是个研究员,但在过去一年半几乎没写过代码,所以现在对具体的技术细节有点脱节了。所以当(DeepSeek的论文)出来时,我把它上传到Perplexity,并针对它提了很多问题,这样我就能同时从网页和论文中提取信息并阅读。这对我来说是个很棒的知识助手。我还用它来分析我们的指标数据,比如我会上传数据,然后询问“这个图表的问题在哪里?”——各种各样的事情。所以它已经成为我生活的一部分,没有它真的不太方便。
主持人:所以你是自己产品的深度用户,那么有没有哪个功能是你特别希望有但还没有的?有没有什么痛点?
Aravind Srinivas:我希望Perplexity能真正理解我的全部上下文。目前它还是一个“用户无差别”的产品——对你和对别人来说,它的运作方式是一样的。从提供真实、无偏见的答案来看,这确实很好。
下一步我们需要让它回答与你个人相关的问题,比如你的航班信息、即将到来的旅行计划、你的会议安排等。还能在会议前拉取你要见的人的简介,帮你准备会议需要说的内容。
要让它更有用,就需要让它掌握更多个人化的上下文,而这意味着我们要做很多集成工作,比如你看到的Google Drive(整合)。顺便说一句,面向个人用户的Google集成比企业集成要困难得多,因为Google对API的要求很严格,所以我们正在想办法绕开这些限制。但所有这些能力都是必须的。
此外,它还应该能真正帮你执行任务,比如我不需要总是去查Google Maps、打电话给餐厅预订,或者让我的助理帮我做这些事情。这些都很耗时间,我希望Perplexity可以帮我完成这些琐碎事务。
主持人:所以,长期记忆、个性化、以及一个真正能执行任务的智能助手?
Aravind Srinivas:对,所有这些流行的概念,但真正的挑战是把它们做出来。这就是我们要努力的方向。