内存
速度提升44%,节能153倍,清华使用内存计算硬件高效标记数据
编辑丨&对于现在的许多 AI 任务来说,标记数据是一个耗时、劳动密集型且昂贵的过程。 深度贝叶斯主动学习 (DBAL) 以指数级方式提高标记效率,从而大幅降低成本。 为了解决 DBAL 需要高带宽的数据传输和概率计算的问题,来自清华大学的团队提出一种忆阻器随机梯度 Langevin 动力学原位学习方法。
本地或服务器端运行均可,Proton 推出 AI 电子邮件写作助手
Proton 当地时间昨日推出了 AI 电子邮件写作助手 Proton Scribe。该辅助软件内置于 Proton Mail 邮箱之中,可节省邮件编写时间,提升企业团队生产力。▲ 校对与缩短功能界面展示Proton Scribe 支持根据用户需求从零生成邮件初稿,也可用于校对、缩短或正式化现有文本草稿。▲ 初稿生成功能展示Proton 表示 Proton Scribe 助手专为保护数据隐私而设计,既可同其它类似软件一样在专用服务器端运行,又可在用户硬件上运行。后一方式可保证用户数据不离开本地,更适合处理敏感数据或
一年一更同步英伟达,AMD 公布 2024~2026 年 Instinct GPU 加速器路线图
感谢AMD 今日公布直至 2026 年的 Instinct GPU AI 加速器路线图。AMD 宣布其 Instinct 产品线更新节奏调整与英伟达相同的一年一更,以满足不断扩张的 AI 应用需求。AMD Instinct MI325X 加速器将在今年四季度率先上市 ,其可视为 MI300 更换 HBM3E 内存的刷新版本。该加速器内存容量将从 MI300X 的 192GB 提升至 288GB,同时内存带宽也从 5.3TB / s 小幅增加至 6TB / s(IT之家注:内存等效速率从 5.2Gbps 提升至 5.
入选国际数据库顶级会议ICDE,腾讯云数据库技术创新获权威认可
今日获悉,腾讯云数据库2篇论文入选国际数据库顶级会议ICDE。其分布式事务协议——Lion和内存-磁盘跨越索引设计框架,解决了数据库领域的普遍难题,技术创新获得国际权威认可。(腾讯云数据库团队在ICDE会场进行技术分享)据悉,ICDE(IEEE International Conference on Data Engineering)是数据库研究领域历史悠久的国际会议,与SIGMOD、VLDB并称数据库三大顶级会议,也是中国计算机学会(CCF)推荐的A类国际会议,主要聚焦设计、构建、管理和评估高级数据密集型系统和应
消息称三星组建百人工程师团队,争夺英伟达下一代人工智能芯片订单
感谢据韩国科技媒体 KED Global 报道,三星电子为了拿下英伟达下一代人工智能图形处理器 (AI GPU) 的高端内存 (HBM) 订单,组建了一支由约 100 名顶尖工程师组成的“精英团队”,他们一直致力于提高制造产量和质量,首要目标是通过英伟达的测试。据业内人士透露,英伟达首席执行官黄仁勋对三星目前提供的 8 层和 12 层 HBM3E 内存的良品率和质量并不满意,要求三星进行改进。HBM3E 内存是英伟达下一代 Hopper H200 和 Blackwell B200 AI GPU 的关键部件,但目前主
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,使用者需要根据自己的数据对这些开源模型进行微调,才能
Meta 发布新一代 AI 训练与推理芯片,性能为初代芯片三倍
Meta Platforms 当地时间 10 日发布了其训练与推理加速器项目(MTIA)的最新版本,MTIA 是 Meta 专门为 AI 工作负载设计的定制芯片系列。据介绍,此次发布的新一代 MTIA 与第一代 MTIA 相比,显著改进了性能,并有助于强化内容排名和推荐广告模型。其架构从根本上侧重于提供计算、内存带宽和内存容量的适当平衡。该芯片还可帮助提高训练效率,使推理(即实际推理任务)变得更容易。Meta 在其官方博客文章中表示,“实现我们对定制芯片的雄心壮志,意味着我们不仅要投资于计算芯片,还要投资于内存带宽
谷歌:手机运行人工智能模型将占用大量内存
谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 P
美光预估 AI 时代旗舰手机 DRAM 内存用量将提升 50%~100%
在美光近日举行的季度财报电话会议上,美光 CEO 桑杰・梅赫罗特拉(Sanjay Mehrotra)表示 AI 时代旗舰手机的 DRAM 内存用量将大幅提升。他表示:“我们预计 AI 手机的 DRAM 含量将比当今的非 AI 旗舰手机高出 50% 到 100%”目前,大部分安卓旗舰手机均可选 12 或 16GB 的内存,同时 24GB 内存配置也不在少数;苹果阵营和少部分安卓旗舰款式则维持了 8GB 的最大内存容量。相较于云端运行,端侧 AI 可提供更好数据安全性和更快响应速度,但也意味着对设备内存需求的增加。英特
英特尔:AI PC 提升内存容量需求,32GB 将成为入门级标配
据证券时报报道,英特尔中国区技术部总经理高宇在 2024 中国闪存市场峰会上表示,未来 AI PC 入门级标配一定是 32GB 内存,而当前 16GB 内存一定会被淘汰,明年 64GB PC 将开始出货。同时,AI PC 对 SSD 性能和容量提出非常高的要求。随着人工智能技术的快速发展,AI PC(人工智能个人电脑)成为个人电脑新的发展方向,使用户能够在本地进行复杂的人工智能计算,而无需依赖云端服务。这将对个人电脑的硬件性能提出新的要求,各大 CPU 厂商已经为 AI PC 发布了“CPU GPU NPU”的架构
三星计划今年底明年初推出 AI 芯片 Mach-1,采用 LPDDR 而非 HBM 内存
三星电子 DS(设备解决方案)部门负责人庆桂显(Kye Hyun Kyung)在今日的三星电子股东大会上宣布,三星电子计划今年底明年初推出采用 LPDDR 内存的 AI 芯片 Mach-1。庆桂显表示,Mach-1 芯片已完成基于 FPGA 的技术验证,正处于 SoC 设计阶段。该 AI 芯片将于今年底完成制造过程,明年初推出基于其的 AI 系统。韩媒 Sedaily 报道指,Mach-1 芯片基于非传统结构,可将片外内存与计算芯片间的瓶颈降低至现有 AI 芯片的 1/8。此外,该芯片定位为一种轻量级 AI 芯片,
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选择最佳配置变得困难。最近,一篇题为《Dissecting the Runtime Performance of the Training,
CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?
苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来,GPT-3、OPT 和 PaLM 等大型语言模型(LLM)在广泛的 NLP 任务中表现出了强大的性能。不过,这些能力伴随着大量计算和内存推理需求,毕竟大型语言模型可能包含数千亿甚至万亿参数,使得高效加载和运行变得有挑战性,尤其是在资源有限的设备上。当前标准的应对方案是将整个模型加载到 DRAM 中进行推理,然而这种做法严重限制了可以运行的最大模型尺寸。举个例子,70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数,这超
S-LoRA:一个GPU运行数千大模型成为可能
一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低秩适配(LowRank Adaptation,LoRA)是一种参数效率高的微调方法,通常用于将 base 模型适配到多种任务中,从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。这种模式为服务过程中的批量推理提供了大量机会。LoRA 的研究表明了一点,只对适配器权重进行微调,就能获得与全权重微调相当的性能。虽然这种方法可以实现单个适配器
谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图
Speed Is All You Need:谷歌提出针对 Stable Diffusion 一些优化建议,生成图片速度快速提升。Stable Diffusion 在图像生成领域的知名度不亚于对话大模型中的 ChatGPT。其能够在几十秒内为任何给定的输入文本创建逼真图像。由于 Stable Diffusion 的参数量超过 10 亿,并且由于设备上的计算和内存资源有限,因而这种模型主要运行在云端。在没有精心设计和实施的情况下,在设备上运行这些模型可能会导致延迟增加,这是由于迭代降噪过程和内存消耗过多造成的。如何在设
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
1750 亿参数,只需要一块 RTX 3090,ChatGPT 终于不再是大厂专属的游戏?
和TensorFlow一样,英伟达CUDA的垄断格局将被打破?
CUDA 闭源库将和 TensorFlow 一样逐渐式微。
用什么tricks能让模型训练得更快?先了解下这个问题的第一性原理
深度学习是门玄学?也不完全是。
- 1