三个程序员奋战三天重写推理堆栈,Grok-2 mini直接提速两倍,马斯克亲发贺电

一直在用 Grok-2 的用户可能察觉到,这两天,它好像变快了:上周,xAI 发布了 Grok-2 聊天机器人,并在 X 平台上以每月 8 美元的价格提供服务。用户的感觉也不是错觉,Grok-2 的两个版本 Grok-2 和 Grok-2 mini(后者功能更弱但速度更快),确实都提高了分析信息和输出回复的速度。xAI 的开发人员 Igor Babuschkin 发布了一条动态,揭示了这次提速背后的原因:正如这条动态所说,他和 xAI 的另外两名开发人员 Lianmin Zheng 和 Saeed Maleki 奋

一直在用 Grok-2 的用户可能察觉到,这两天,它好像变快了:

图片

上周,xAI 发布了 Grok-2 聊天机器人,并在 X 平台上以每月 8 美元的价格提供服务。

用户的感觉也不是错觉,Grok-2 的两个版本 Grok-2 和 Grok-2 mini(后者功能更弱但速度更快),确实都提高了分析信息和输出回复的速度。

xAI 的开发人员 Igor Babuschkin 发布了一条动态,揭示了这次提速背后的原因:

图片

正如这条动态所说,他和 xAI 的另外两名开发人员 Lianmin Zheng 和 Saeed Maleki 奋战了三天,用 SGLang 重写了推理技术栈。

图片

这次奋战的结果很理想:在评价人工智能模型性能的第三方 Lmsys Chatbot Arena 排行榜更新中,Grok-2 主模型在 6686 次投票中获得了 1293 分的成绩。这使得 Grok-2 成为世界上最强人工智能模型中的第二名,与谷歌的 Gemini-1.5 Pro 模型并列,仅次于 OpenAI 的最新版本 ChatGPT-4o,且超越了 GPT-4o(2024 年 5 月)。

图片

                                     图源:https://x.com/lmsysorg/status/1827041269534879784

Grok-2-mini 也受益于这次改进,排名上升到第 5 位,从 7266 票中获得了 1268 分的 Arena 分数,仅次于 GPT-4o mini 和 Claude 3.5 Sonnet。

努力没有白费,老板马斯克发来表扬:

图片

根据 Babuschkin 在 X 上的回复,与完整的 Grok-2 模型相比,使用 Grok-2-mini 的主要优势在于速度更快。

图片

Babuschkin 还承诺,xAI 会进一步提高 Grok-2-mini 的处理速度,这将使其成为寻求高性能、低计算开销的用户更有吸引力的选择。同时透露了一些关于 API 的消息:

图片

当然,这让人们有些好奇,SGLang 为什么如此「效果显著」?

今年初,SGLang 刚刚诞生的时候,AI在线曾进行过报道(参见《吞吐量提升 5 倍,联合设计后端系统和前端语言的 LLM 接口来了》)。具体来说,这是一种用于执行复杂的语言模型程序的开源(Apache 2.0 授权)高效系统。SGLang 能够增强与 LLM 的交互,通过联合设计后端运行时系统和前端语言,使 LLM 更快、更可控。

SGLang 由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学的研究人员开发。

SGLang 目前支持 Llama、Mistral 和 LLaVA 等多种模型,兼容 OpenAI 的 GPT-4 等基于 API 的开放式模型。SGLang 能够在单个程序中通过自动缓存重用和并行来优化执行,这使它成为开发人员处理大规模语言模型的强大工具。

7 月底,团队还推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下(运行 Llama 系列模型),它的吞吐量甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。

图片

更多内容,可参见:《贾扬清点赞:3K star 量的 SGLang 上新,加速 Llama 405B 推理秒杀 vLLM、TensorRT-LLM》

相关资讯

马斯克宣布 Grok 聊天机器人将在本周晚些时候向所有 X Premium 订阅用户开放

感谢埃隆・马斯克今日宣布,xAI 公司的 Grok 聊天机器人将在本周晚些时候向所有 X(原推特)Premium 订阅用户开放,而不仅限于 Premium 订阅用户使用。Grok 聊天机器人由 xAI 公司开发,去年 11 月起开始向 X Premium 订阅用户开放。IT之家此前报道,官方在本月早些时候宣布 3140 亿参数的 Grok-1 以 Apache 2.0 协议开源。随着 Grok 向全部 X Premium 用户开放,X Premium 用户将获得新的 Super Grok 模式。马斯克解释道,

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI 表示:“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案

消息称马斯克旗下人工智能公司 xAI 即将完成 60 亿美元最大融资

感谢综合外媒 The Information 和彭博社报道,马斯克旗下人工智能公司 xAI 将在未来两周完成 60 亿美元(IT之家备注:当前约 435 亿元人民币)的新一轮融资。这也是 AI 模型创企中最大的单轮融资之一。xAI 于 2023 年 7 月成立,去年 11 月推出首款产品 Grok 聊天机器人。近期 xAI 展示了 Grok-1.5 Vision 多模态模型,除文本外也可处理图像、文档和表格内容。xAI 的此次融资是以 180 亿美元(当前约 1305 亿元人民币)的估值进行的,参与投资者包括红杉资