SGLang Runtime v0.2
贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
用来运行 Llama 3 405B 优势明显。最近,Meta 开源了最新的 405B 模型(Llama 3.1 405B),把开源模型的性能拉到了新高度。由于模型参数量很大,很多开发者都关心一个问题:怎么提高模型的推理速度?时隔才两天,LMSYS Org 团队就出手了,推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下(运行 Llama 系列
7/27/2024 11:08:00 PM
机器之心
- 1
资讯热榜
罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线,利用语音与大模型互动
类 Mac Mini 大小的个人 AI 超算:英伟达 Project Digits 发布,起价 3000 美元
斯坦福AI科研神器开源,一键成文GPT-4o mini加持!科研写作彻底解放双手
从DeepSeek-V3发布谈大模型的技术突破与未来机遇
3 到 5 秒即可同声传译 40 余种语言,时空壶推出 W4 Pro 实时翻译耳机
全网都在扒的DeepSeek团队,是清北应届生撑起一片天
OpenAI发布新年目标,Agent智能体或将迎来百模大战
Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式
标签云
AI
模型
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
机器人
数据
生成
谷歌
训练
视频
智能
学习
Midjourney
GPT
大模型
用户
AI创作
图像
LLM
微软
开源
技术
Meta
论文
Stable Diffusion
生成式
算法
蛋白质
芯片
马斯克
计算
神经网络
AI设计
Gemini
Sora
研究
腾讯
课程
代码
开发者
场景
伟达
GPU
3D
模态
预测
Transformer
华为
文本
驾驶
英伟达
神器推荐
机器学习
AI视频
语言
干货合集
LLaMA
深度学习
2024
算力
搜索
苹果
科技
视频生成
AI应用场景
应用
百度
写作
特斯拉
机器
安全
具身智能
Copilot
AI for Science
语音
prompt
AGI