GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

OpenAI 出了个新功能,直接让 ChatGPT 输出的速度原地起飞!这个功能叫做“预测输出”(Predicted Outputs),在它的加持之下,GPT-4o 可以比原先快至多 5 倍。

OpenAI 出了个新功能,直接让 ChatGPT 输出的速度原地起飞!

这个功能叫做“预测输出”(Predicted Outputs),在它的加持之下,GPT-4o 可以比原先快至多 5 倍

以编程为例,来感受一下这个 feel:

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

为啥会这么快?用一句话来总结就是:

跳过已知内容,不用从头开始重新生成。

因此,“预测输出”就特别适合下面这些任务:

  • 在文档中更新博客文章

  • 迭代先前的响应

  • 重写现有文件中的代码

而且与 OpenAI 合作开发这个功能的 FactoryAI,也亮出了他们在编程任务上的数据:

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

从实验结果来看,“预测输出”加持下的 GPT-4o 响应时间比之前快了 2-4 倍,同时保持高精度。

并且官方还表示:

原先需要 70 秒完成的编程任务,现在只需要 20 秒。

值得注意的是,目前“预测输出”功能仅支持 GPT-4o 和 GPT-4o mini 两个模型,且是以 API 的形式。

对于开发者而言,这可以说是个利好消息了。

网友们在线实测

消息一出,众多网友也是坐不住了,反手就是实测一波。

例如 Firecrawl 创始人 Eric Ciarla 就用“预测输出”体验了一把将博客文章转为 SEO(搜索引擎优化)的内容,然后他表示:

速度真的超级快。

它就像在 API 调用中添加一个预测参数一样简单。

另一位网友则是在已有的代码之上,“喂”了一句 Prompt:

change the details to be random pieces of text.

将详细信息更改为随机文本片段。

来感受一下这个速度:

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

也有网友晒出了自己实测的数据:

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

总而言之,快,是真的快。

怎么做到的?

对于“预测输出”的技术细节,OpenAI 在官方文档中也有所介绍。

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

OpenAI 认为,在某些情况下,LLM 的大部分输出都是提前知道的。

如果你要求模型仅对某些文本或代码进行细微修改,就可以通过“预测输出”,将现有内容作为预测输入,让延迟明显降低。

例如,假设你想重构一段 C# 代码,将 Username 属性更改为 Email :

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

你可以合理地假设文件的大部分内容将不会被修改(例如类的文档字符串、一些现有的属性等)。

通过将现有的类文件作为预测文本传入,你可以更快地重新生成整个文件。

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

使用“预测输出”生成 tokens 会大大降低这些类型请求的延迟。

不过对于“预测输出”的使用,OpenAI 官方也给出了几点注意事项。

首先就是我们刚才提到的仅支持 GPT-4o 和 GPT-4o-mini 系列模型。

其次,以下 API 参数在使用预测输出时是不受支持的:

  • n values greater than 1

  • logprobs

  • presence_penalty greater than 0

  • frequency_penalty greater than 0

  • audio options

  • modalities other than text

  • max_completion_tokens

  • tools - function calling is not supported

除此之外,在这份文档中,OpenAI 还总结了除“预测输出”之外的几个延迟优化的方法。

包括“加速处理 token”、“生成更少的 token”、“使用更少的输入 token”、“减少请求”、“并行化”等等。

文档链接放在文末了,感兴趣的小伙伴可以查阅哦~

One More Thing

虽然输出的速度变快了,但 OpenAI 还有一个注意事项引发了网友们的讨论:

When providing a prediction, any tokens provided that are not part of the final completion are charged at completion token rates.

在提供预测时,所提供的任何非最终完成部分的 tokens 都按完成 tokens 费率收费。

有网友也晒出了他的测试结果:

  • 未采用“预测输出”:5.2 秒,0.1555 美分

  • 采用了“预测输出”:3.3 秒,0.2675 美分

GPT-4o 加钱能变快,新功能“预测输出”7 秒完成原先 23 秒的任务

嗯,快了,也贵了。

OpenAI 官方文档:

  • https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs

参考链接:

  • [1]https://x.com/OpenAIDevs/status/1853564730872607229

  • [2]https://x.com/romainhuet/status/1853586848641433834

  • [3]https://x.com/GregKamradt/status/1853620167655481411

本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技

相关资讯

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o

LeCun批评o1根本不像研究,Noam Brown回怼:已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了,这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一,此前他是 Meta FAIR 的一员,主导了曾火遍一时的 CICERO 项目,在 2023 年 6 月加入 OpenAI  。这次吵架的内容就是围绕 o1 展开的。众所周知,从 AI 步入新的阶段以来,OpenAI 一直选择了闭源,o1 的发布也不例外。这也引来了广大网友的吐槽,干脆叫 CloseAI 算了,反观 Meta,在开源领域就做的很好,o1 的发布,更

OpenAI o1 推理模型 API 上线,仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。