Ollama高并发测试

本文主要来测试一下ollama的高并发能力。 具体配置如下:一、Ollama默认参数执行我们打开4个窗口,然后分别让DeepSeek “给我讲一个笑话” ,看下不同窗口的答题顺序。 通过答题顺序可以看到,在不进行参数设置时,模型是一个一个执行。

Ollama高并发测试

本文主要来测试一下ollama的高并发能力。

具体配置如下:

图片

一、Ollama默认参数执行

我们打开4个窗口,然后分别让DeepSeek “给我讲一个笑话” ,看下不同窗口的答题顺序。

图片

通过答题顺序可以看到,在不进行参数设置时,模型是一个一个执行。这样就说明,默认参数下,Ollama并不支持高并发,它会逐个回复我们的请求。

二、调整Ollama高并发参数

在ollama内,有两个参数与高并发有关分别是:

OLLAMA_MAX_LOADED_MODELS:每个模型将同时处理的最大并行请求数,也就是能同时响应几个LLM。

至于应用场景的话,就是我们可以同时在聊天页面调用两个LLM同时聊天,看看不同的LLM会有怎样不同的响应。

当然,这样设置后,不同的用户也可以在同一时间请求不同的模型。

OLLAMA_NUM_PARALLEL:每个模型将同时处理的最大并行请求数,也就是能同时回复多少个LLM。

这个参数对于高并发非常重要,如果你部署好了Ollama,假如有10个人同时请求了你的LLM,如果一个一个回答,每个模型回复10秒钟,那轮到第10个人将会在1分多种后,对于第10个人来说是不可接受的。

以上两个参数应根据自己的硬件条件自行设置。

高并发测试:

我们将以上两个参数添加到电脑的环境变量内,均设置为4。

图片

OLLAMA_MAX_LOADED_MODELS  4
OLLAMA_NUM_PARALLEL 4

设置好后,确认环境变量并重启Ollama,我们来看一下效果。

图片

可以看到,在设置并发数为4之后,模型就能同时响应4个用户的请求。

一般来说,对于中小型的部署,可以采用Ollam当作底座,只需要部署多个服务器,通过反向代理与负载均衡即可实现。

如果要面对更多的并发请求,不建议使用Ollama当作底座,应采用VLLM进行部署。

相关资讯

Deepseek本地部署,培养自己的独有的AI伴侣!

目前我们所知道的AI大部分都是在网页或者APP上直接使用,缺少其独特性,deepseek支持将AI部署在我们的本地电脑,只要你得性能够,就可以创造一个独属于你自己的AI伴侣。 废话不多说直接上操作! 一、配置要求1.

1分钟学会DeepSeek本地部署,小白也能搞定!

DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。 DeepSeek 身上的标签有很多,其中最具代表性的标签有以下两个:低成本(不挑硬件、开源)高性能(推理能力极强、回答准确)一、为什么要部署本地DeepSeek? 相信大家在使用 DeepSeek 时都会遇到这样的问题:图片这是由于 DeepSeek 大火之后访问量比较大,再加上漂亮国大规模、持续的恶意攻击,导致 DeepSeek 的服务器很不稳定。

使用 DeepSeek R1 和 Ollama 搭建一个 RAG 系统(包含完整代码)

你有没有想过,能不能像跟人聊天一样,直接问 PDF 文件或技术手册问题? 比如你有一本很厚的说明书,不想一页页翻,只想问它:“这个功能怎么用? ”或者“这个参数是什么意思?