先进的基础模型将如何扩展AI的功能以及对2025年的其他预测

为何要读非Sam Altman和非AI博士的AI预测?其实,早期风投每天与比我们聪明得多的人打交道,这些人在AI可能性的最前沿工作,这让我们得以一窥未来的某种面貌。 在我30多年的技术生涯中,我从未见过一项技术——尤其是基础模型及其周边技术的进步——能在如此多的方面产生如此迅速且巨大的影响,它重塑了我对团队构建方式和公司创造价值方式的预期。 我们尝试限制AI我喜欢Mustafa Suleyman提出的AI数字物种推论,因为它恰当地框定了限制AI的问题。

先进的基础模型将如何扩展AI的功能以及对2025年的其他预测

为何要读非Sam Altman和非AI博士的AI预测?其实,早期风投每天与比我们聪明得多的人打交道,这些人在AI可能性的最前沿工作,这让我们得以一窥未来的某种面貌。

在我30多年的技术生涯中,我从未见过一项技术——尤其是基础模型及其周边技术的进步——能在如此多的方面产生如此迅速且巨大的影响,它重塑了我对团队构建方式和公司创造价值方式的预期。

我们尝试限制AI

我喜欢Mustafa Suleyman提出的AI数字物种推论,因为它恰当地框定了限制AI的问题。当前产品中的许多AI只是提出建议,但越来越多地,AI将代表我们采取行动,我们必须明确我们不希望它做什么。

在这方面,预计会有很多激烈的反对声音。如果我们以加州失败的SB1047法案为风向标,那么Elon Musk的支持监管立场和Trump的反对监管立场将相互抵消。当行业试图通过“自我监管”来确保基础模型的安全,以避免政府监管时,可以关注像打了鸡血的Anthropic宪法模型之类的事物。同样,预计AI安全初创公司将蓬勃发展,帮助实现各种形式的网络限制。

基础模型作为品牌DNA

一些人可能还记得“Intel Inside”那场大型宣传活动,基础模型将为基于其构建的产品积累品牌力量,这超越了语气层面,根据Claude的说法,当前的语气是这样的:

  • GPT-4:高端、沉稳的顾问。
  • Claude:谨慎、有道德顾问。
  • Llama:顽强、灵活的全能选手。

语气是可以调整的,但模型中理解和回忆的应用方式则不然,模型将不可避免地影响产品的“感觉”。

AI冲刺诺贝尔奖

虽然还没到那一步,但科学发现中的迭代能力将大幅提升,如今,AI与人类一起推动突破,我在这一点上同意Vinod Khosla的观点:AI科学家——即超专业化的AI智能体——将很快在发现洞察力方面定期超越其人类同行。

这是因为AI科学家不需要休息,它们对迭代有着无限的耐心,它们对数据有着完美的记忆,而且它们可以全天候工作,我们有望在医疗发现和医疗保健突破中看到这种不懈工作精神的初步迹象,同时涌现出大量初创公司帮助企业利用这些发现。

音频接口重新定义“免提”

如果Alexa、Siri和Google Assistant都是音频接口的1.0版本,那么结合视觉和文本额外上下文的音频将带来全新的产品体验,重新校准我们的标准。

专门的仅音频基础模型正在与更大的基础模型竞相拓展可能性的边界,我们已经在Meta的智能眼镜中看到了巨大的进步,以及它们相比Google Glass的巨大飞跃,“免提”操作将具有全新的含义和预期。

我们在GenAI上跨过信任临界点

我的方向感很好,但我也曾因为几次我不知道的交通堵塞(但我的地图应用知道)而受困,之后才终于屈服,相信地图应用比我更了解路线。

同样的事情也将发生在GenAI输出上,目前,专家仍然能取得更优异的成绩,但这种差距将缩小,我们将屈服于更多通用AI的输出,假设它们至少与专家相当,有时甚至更好,它们将获得认可,就像我们引用他人的话一样。

我们为手工艺支付溢价

随着创作门槛的降低——Dall-E和一系列其他工具能在几秒钟内创建新设计——具有人类创作痕迹的非数字商品将增值。想想原创摄影或视觉设计,还有艺术家手工制作的陶瓷杯,而不是工厂里机器人冲压出来的。

我的成年孩子们对VCR感到惊奇,热爱黑胶唱片,但这不仅仅是复古风潮的酷炫。在一个如此数字化的世界中,模拟和实体将以令人惊讶的方式变得有意义,尤其是对Z世代和Alpha世代而言。

“人类在此”

我的许多朋友喜欢Waymo,因为它不需要他们与任何人交谈,但当关键时刻到来时,能够与一个不基于黑箱逻辑做出判断的人类互动是很重要的。哪种方法——AI优先还是人类优先——更有价值,将成为一条分界线。

预计在客户服务等领域会出现强烈反弹,因为急于采用AI会让许多人感到沮丧。相比完全自主的系统,人们将更倾向于人机协作的系统。公司和消费者将推广并重视这种区别。

我以谦卑的心态结束2024年,并预计2025年将充满混乱,但我是个乐观主义者,并且因为身边仍然围绕着一群非常聪明的人,他们试图建立伟大的公司,让世界变得更好,这让我感到鼓舞。祝愿你在新的一年里保持谦逊、快乐,并从容不迫。

相关资讯

超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文

作者:赖文昕 马蕊蕾编辑:陈彩娴北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文等奖项。 今年共有 2 篇论文获得了这份全球最重要的计算机视觉领域的大奖,团队成员分别来自谷歌研究院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。 本周(6.17-6.21),第四十一届国际计算机视觉与模式识别会议(CVPR)在美国西雅图拉开帷幕。

独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型

前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:  可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。类似的问题其实不仅存在于 DALL・E 3 等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在

CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并