大模型指标:RPM、TPM…这些“神秘代码”到底是什么?

一、RPM:每分钟能“说多少话”? 定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。 比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。

一、RPM:每分钟能“说多少话”?

定义:RPM全称是Requests Per Minute(每分钟请求数),表示大模型每分钟能处理的请求次数。比如,某模型设置RPM=300,就意味着每分钟最多响应300次用户提问。

为什么重要?  

  • 防“薅羊毛”:防止用户疯狂刷请求,导致服务器崩溃。
  • 公平分配:像食堂打饭,先到先得,避免有人插队占满资源。

举个🌰:假设你用AI写文案,如果RPM限制是300,那么每分钟最多提交300次请求。如果短时间内发太多,系统可能会提示“请求太频繁”。

二、TPM:每分钟能“写多少字”?

定义:TPM全称是Tokens Per Minute(每分钟处理tokens数),衡量模型每分钟能处理的文本量(包括输入和输出)。例如,TPM=30万,意味着每分钟最多处理30万个“文字单位”(tokens)。

为什么关键?  

  • 长文本处理:输入或输出太长会占用更多tokens,可能触发限额。比如写一篇千字文章,可能比10条短消息更费“额度”。
  • 计费依据:很多平台按TPM收费,控制成本的关键。

举个🌰:如果某模型TPM=30万,而每个汉字≈2个tokens,那么每分钟最多能处理约15万汉字的输入或输出。超过这个量,请求就会被“拒签”。

三、对比“老朋友”QPS:从秒级到分钟级

QPS(Queries Per Second):传统指标,衡量每秒处理请求的能力。比如QPS=5,就是每秒处理5次请求。但大模型处理复杂任务(如逻辑推理、长文本生成)需要更多时间,所以逐渐转向分钟级指标(RPM/TPM)。

四、不同大模型的指标差异

厂商

模型

默认RPM

默认TPM

百度

文心3.5

300

30万

百度

文心4.0

120

12万

阿里云

千问-max

1200

100万

阿里云

千问-plus

15000

120万

火山引擎

豆包-pro-32k

10000

800万

数据来源:百度、阿里、火山引擎等厂商公开信息。

五、如何应对指标限制?

  1. 控制输入长度:精简问题,避免冗长文本。
  2. 错峰使用:避开高峰期,分时段提交请求。
  3. 升级套餐:如果需求大,选择高RPM/TPM的付费服务。

结语

RPM和TPM是大模型时代的“新语言”,理解它们就像掌握新工具的使用说明书。下次看到这些指标时,别慌!记住:RPM管次数,TPM管字数,合理规划就能让AI服务更顺畅~

扩展知识

  • 首Token延时:从发送请求到收到第一个字的时间,直接影响用户体验。
  • 每分钟Token输出:衡量模型生成效率,越高说明“打字越快”。

本文转载自微信公众号「码上烟火」,可以通过以下二维码关注。转载本文请联系码上烟火公众号。

大模型指标:RPM、TPM…这些“神秘代码”到底是什么?

相关资讯

火山豆包大模型价格清单公布:支持“预付 / 后付”双模式,号称“国内最高并发标准”

字节跳动在 5 月 15 日的“春季火山引擎 FORCE 原动力大会”中推出了豆包大模型(原名“云雀”),该模型主要面向行业场景,能够提供多种图文音频生成能力,IT之家整理如下:豆包通用模型 pro:字节跳动自研 LLM 模型专业版,支持 128k 长文本,全系列可精调,具备更强的理解、生成、逻辑等综合能力,适配问答、总结、创作、分类等丰富场景;豆包通用模型 lite:字节跳动自研 LLM 模型轻量版,对比专业版提供更低 token 成本、更低延迟,为企业提供灵活经济的模型选择;豆包・角色扮演模型:个性化的角色创作

豆包大模型公布价格清单,支持国内最高并发标准

近期,火山引擎官网更新了豆包大模型的定价详情,全面展示豆包通用模型不同版本、不同规格的价格信息。在模型推理定价大幅低于行业价格的基础上,豆包通用模型的 TPM(每分钟Tokens)、RPM(每分钟请求数)均达到国内最高标准。以豆包主力模型 pro-32k 为例,价格比行业低99%,TPM限额则高达同规格模型的2.7倍到8倍。图:豆包系列模型“后付费”定价信息官方信息显示:在按照 Tokens 实际使用量计算费用的“后付费”模式下,豆包通用模型-pro、豆包通用模型-lite的 32k 及以下窗口版本,模型限流为 1

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。