VLLM

DeepSeek推理引擎开源新路径，助力vLLM生态再升级

最近，DeepSeek 宣布了一项重要决定:将其自研的推理引擎进行开源，但并不会直接向公众开放完整的代码库。相反，他们选择与现有的开源项目 vLLM 合作，致力于分享核心的优化成果。这一举动旨在解决开源社区中普遍存在的代码库分歧、基础设施依赖及维护资源有限等难题。

4/16/2025 2:01:15 PM

AI在线

使用vLLM部署工具加速QWQ，推理速度比ollama更快、并发更高

与传统的HuggingFace Transformers相比，vLLM的吞吐量高达24倍，且无需改变模型架构，它采用创新的PagedAttention算法，优化了注意力键和值的管理，从而提升了推理速度，并且其能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。相比于ollama，vllm输出的速度更快，支持的并发更高，目前也没有遇到安全问题，稳定性非常好，更适合作为服务器的接口服务来部署。但相应的，vllm会把服务器的GPU显存都占满，使得机器无法再部署其他服务，同时ollama部署更加的简单，也是因为这个原因ollama在最近部署deepseek的热潮中被提到的更多一些，因此个人使用可能ollama更合适。

4/9/2025 10:47:02 AM

贝塔街的万事

Ollama与vLLM部署对比：哪个更合适？

Ollama：简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。 Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。

4/9/2025 8:20:00 AM

耗子

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型

vLLM（Virtual Large Language Model）是由加州大学伯克利分校团队开发的高性能大模型推理框架，其核心特点围绕显存优化、高吞吐量、灵活性和易用性展开。对比 ollama 作为个人开发者部署模型工具而言，vLLM 专注于高并发请求和大规模生产环境，适用于企业级应用和需要高效推理的场景。 vLLM 通过优化内存管理和并发处理，适合处理高负载的生产环境。

4/9/2025 3:25:00 AM

使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南

最近，大语言模型（LLM）的部署已经成为 AI 开发者绕不开的核心技能。而 VLLM 作为一款高性能、低延迟的推理引擎，在大模型推理领域迅速崛起。今天，我就带大家从零开始，在 Ubuntu 22.04 RTX 4090 Docker 环境下，部署 DeepSeek模型，并让它跑起来！

3/12/2025 12:37:50 PM

写代码的中年人

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型