GPU

Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开
这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的算计资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时机能可能存在很大差异，这使得选择最佳配置变得困难…
工程
- 10
- 0
机器之心23年12月27日
4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%
呆板之心报道呆板之心编辑部PowerInfer 使得在消费级硬件上运转 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运转 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp…
应用
- 39
- 0
机器之心23年12月20日
你的GPU能跑Llama 2等大模型吗？用这个开源项目上手测一测
你的 GPU 内存够用吗？这有一个项目，可以提前帮你审查。在算力为王的时代，你的 GPU 可以顺畅的运行大模型（LLM）吗？对于这一问题，很多人都难以给出确切的回答，不知该如何计算 GPU 内存。因为审查 GPU 可以解决哪些 LLM 并不像审查模型大小那么容易，在推理期间（KV 缓存）模型会占用大量内存，例如，llama-2-7b 的序列长度为 1000，需要 1GB 的额外内存。不仅如此，模型…
工程
- 8
- 0
机器之心23年10月23日
比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了
一年时间，斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进，对大模型的适用性也更强了。
AI
- 45
- 0
机器之心23年7月18日
思考一下，联邦进修可以训练大说话模型吗？
满足在垂直领域中的应用需求，能用联邦进修训练LLM吗？
AI
- 3
- 0
机器之心23年7月10日
DeepSpeed ZeRO++：降低4倍网络通讯，显著提高大模型及类ChatGPT模型训练效率
。ZeRO++ 相比 ZeRO 将总通讯量减轻了 4 倍，而不会影响模型质量。
AI
- 5
- 0
机器之心23年6月24日
参会抽RTX 4090，GTC23 China AI Day定档3月22日，嘉宾阵容公布
面向全球 AI 开发者的 GTC 2023 将于3月20 – 23日在线上举办，这场被 NVIDIA 创始人兼首席执行官黄仁勋描述为「迄今为止最重要的一次 GTC」，将带来650多场讲演、专家座谈会和特别活动，几乎涵盖了算计领域的所有热门内容，预计将有超过25万人报名参加。本届 GTC 设有专门为中国 AI 从业者举办的特别活动 — China AI Day。活动将于3月22日下午1点开始，邀您…
AI
- 11
- 0
机器之心23年3月10日
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
1750 亿参数，只需要一块 RTX 3090，ChatGPT 终于不再是大厂专属的游戏？
AI
- 20
- 0
机器之心23年2月27日
和TensorFlow一样，英伟达CUDA的垄断格局将被打破？
CUDA 闭源库将和 TensorFlow 一样逐渐式微。
AI
- 9
- 0
机器之心23年1月18日
用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理
深度学习是门玄学？也不完全是。
AI
- 20
- 0
机器之心22年3月22日
详解AI加速器（一）：2012年的AlexNet到底做对了什么？
AI、机器进修、深度进修的概念可以追溯到几十年前，然而，它们在过去的十几年里才真正流行起来，这是为什么呢？AlexNet 的基本结构和之前的 CNN 架构也没有本质区别，为什么就能一鸣惊人？在这一系列文章中，前苹果、飞利浦、Mellanox（现属英伟达）工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。当代世界正在经历一场革命，人类的体验从未与科技如…
AI
- 10
- 0
机器之心22年1月13日
一块V100运转上千个智能体、数千个情况，这个「曲率引擎」框架实行RL百倍提速
在加强进修研究中，一个实验就要跑数天或数周，有没有更快的方法？近日，来自 SalesForce 的研究者提出了一种名为 WarpDrive（曲率引擎）的开源框架，它可以在一个 V100 GPU 上并行运转、训练数千个加强进修情况和上千个智能体。实验结果表明，与 CPU+GPU 的 RL 实行相比，WarpDrive 靠一个 GPU 实行的 RL 要快几个数量级。
AI
- 34
- 0
机器之心21年9月12日