内存
内存革命!LangGraph 0.3.19如何实现Python内存使用效率的飞跃?
在构建复杂 AI 应用或大规模分布式系统时,内存管理始终是开发者面临的痛点。 尤其在 Python 生态中,动态类型和垃圾回收机制虽然灵活,但对内存的高效利用提出了更高要求。 近日,LangGraph 团队宣布推出 0.3.19 版本,通过一系列内存优化技术,将 Python 应用的内存占用降低 40% 以上,并支持长期记忆存储,彻底解决了复杂场景下的性能瓶颈。
4/1/2025 12:33:03 AM
智Echo
全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!
在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。
3/5/2025 1:57:00 PM
AI在线
LLM高效推理:KV缓存与分页注意力机制深度解析
随着大型语言模型(LLM)规模和复杂性的持续增长,高效推理的重要性日益凸显。 KV(键值)缓存与分页注意力是两种优化LLM推理的关键技术。 本文将深入剖析这些概念,阐述其重要性,并探讨它们在仅解码器(decoder-only)模型中的工作原理。
2/25/2025 10:21:15 AM
Dewang Sultania
速度提升44%,节能153倍,清华使用内存计算硬件高效标记数据
编辑丨&对于现在的许多 AI 任务来说,标记数据是一个耗时、劳动密集型且昂贵的过程。 深度贝叶斯主动学习 (DBAL) 以指数级方式提高标记效率,从而大幅降低成本。 为了解决 DBAL 需要高带宽的数据传输和概率计算的问题,来自清华大学的团队提出一种忆阻器随机梯度 Langevin 动力学原位学习方法。
12/26/2024 4:38:00 PM
ScienceAI
本地或服务器端运行均可,Proton 推出 AI 电子邮件写作助手
Proton 当地时间昨日推出了 AI 电子邮件写作助手 Proton Scribe。该辅助软件内置于 Proton Mail 邮箱之中,可节省邮件编写时间,提升企业团队生产力。▲ 校对与缩短功能界面展示Proton Scribe 支持根据用户需求从零生成邮件初稿,也可用于校对、缩短或正式化现有文本草稿。▲ 初稿生成功能展示Proton 表示 Proton Scribe 助手专为保护数据隐私而设计,既可同其它类似软件一样在专用服务器端运行,又可在用户硬件上运行。后一方式可保证用户数据不离开本地,更适合处理敏感数据或
7/19/2024 5:02:18 PM
溯波(实习)
一年一更同步英伟达,AMD 公布 2024~2026 年 Instinct GPU 加速器路线图
感谢AMD 今日公布直至 2026 年的 Instinct GPU AI 加速器路线图。AMD 宣布其 Instinct 产品线更新节奏调整与英伟达相同的一年一更,以满足不断扩张的 AI 应用需求。AMD Instinct MI325X 加速器将在今年四季度率先上市 ,其可视为 MI300 更换 HBM3E 内存的刷新版本。该加速器内存容量将从 MI300X 的 192GB 提升至 288GB,同时内存带宽也从 5.3TB / s 小幅增加至 6TB / s(IT之家注:内存等效速率从 5.2Gbps 提升至 5.
6/3/2024 2:03:12 PM
溯波(实习)
入选国际数据库顶级会议ICDE,腾讯云数据库技术创新获权威认可
今日获悉,腾讯云数据库2篇论文入选国际数据库顶级会议ICDE。其分布式事务协议——Lion和内存-磁盘跨越索引设计框架,解决了数据库领域的普遍难题,技术创新获得国际权威认可。(腾讯云数据库团队在ICDE会场进行技术分享)据悉,ICDE(IEEE International Conference on Data Engineering)是数据库研究领域历史悠久的国际会议,与SIGMOD、VLDB并称数据库三大顶级会议,也是中国计算机学会(CCF)推荐的A类国际会议,主要聚焦设计、构建、管理和评估高级数据密集型系统和应
5/16/2024 5:44:00 PM
新闻助手
消息称三星组建百人工程师团队,争夺英伟达下一代人工智能芯片订单
感谢据韩国科技媒体 KED Global 报道,三星电子为了拿下英伟达下一代人工智能图形处理器 (AI GPU) 的高端内存 (HBM) 订单,组建了一支由约 100 名顶尖工程师组成的“精英团队”,他们一直致力于提高制造产量和质量,首要目标是通过英伟达的测试。据业内人士透露,英伟达首席执行官黄仁勋对三星目前提供的 8 层和 12 层 HBM3E 内存的良品率和质量并不满意,要求三星进行改进。HBM3E 内存是英伟达下一代 Hopper H200 和 Blackwell B200 AI GPU 的关键部件,但目前主
5/7/2024 7:44:43 PM
远洋
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,使用者需要根据自己的数据对这些开源模型进行微调,才能
5/6/2024 2:41:00 PM
机器之心
Meta 发布新一代 AI 训练与推理芯片,性能为初代芯片三倍
Meta Platforms 当地时间 10 日发布了其训练与推理加速器项目(MTIA)的最新版本,MTIA 是 Meta 专门为 AI 工作负载设计的定制芯片系列。据介绍,此次发布的新一代 MTIA 与第一代 MTIA 相比,显著改进了性能,并有助于强化内容排名和推荐广告模型。其架构从根本上侧重于提供计算、内存带宽和内存容量的适当平衡。该芯片还可帮助提高训练效率,使推理(即实际推理任务)变得更容易。Meta 在其官方博客文章中表示,“实现我们对定制芯片的雄心壮志,意味着我们不仅要投资于计算芯片,还要投资于内存带宽
4/10/2024 11:30:30 PM
清源
谷歌:手机运行人工智能模型将占用大量内存
谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 P
3/31/2024 12:08:38 PM
远洋
美光预估 AI 时代旗舰手机 DRAM 内存用量将提升 50%~100%
在美光近日举行的季度财报电话会议上,美光 CEO 桑杰・梅赫罗特拉(Sanjay Mehrotra)表示 AI 时代旗舰手机的 DRAM 内存用量将大幅提升。他表示:“我们预计 AI 手机的 DRAM 含量将比当今的非 AI 旗舰手机高出 50% 到 100%”目前,大部分安卓旗舰手机均可选 12 或 16GB 的内存,同时 24GB 内存配置也不在少数;苹果阵营和少部分安卓旗舰款式则维持了 8GB 的最大内存容量。相较于云端运行,端侧 AI 可提供更好数据安全性和更快响应速度,但也意味着对设备内存需求的增加。英特
3/21/2024 7:31:30 PM
溯波(实习)
英特尔:AI PC 提升内存容量需求,32GB 将成为入门级标配
据证券时报报道,英特尔中国区技术部总经理高宇在 2024 中国闪存市场峰会上表示,未来 AI PC 入门级标配一定是 32GB 内存,而当前 16GB 内存一定会被淘汰,明年 64GB PC 将开始出货。同时,AI PC 对 SSD 性能和容量提出非常高的要求。随着人工智能技术的快速发展,AI PC(人工智能个人电脑)成为个人电脑新的发展方向,使用户能够在本地进行复杂的人工智能计算,而无需依赖云端服务。这将对个人电脑的硬件性能提出新的要求,各大 CPU 厂商已经为 AI PC 发布了“CPU GPU NPU”的架构
3/20/2024 10:54:47 PM
远洋
三星计划今年底明年初推出 AI 芯片 Mach-1,采用 LPDDR 而非 HBM 内存
三星电子 DS(设备解决方案)部门负责人庆桂显(Kye Hyun Kyung)在今日的三星电子股东大会上宣布,三星电子计划今年底明年初推出采用 LPDDR 内存的 AI 芯片 Mach-1。庆桂显表示,Mach-1 芯片已完成基于 FPGA 的技术验证,正处于 SoC 设计阶段。该 AI 芯片将于今年底完成制造过程,明年初推出基于其的 AI 系统。韩媒 Sedaily 报道指,Mach-1 芯片基于非传统结构,可将片外内存与计算芯片间的瓶颈降低至现有 AI 芯片的 1/8。此外,该芯片定位为一种轻量级 AI 芯片,
3/20/2024 5:19:05 PM
溯波(实习)
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
这是为数不多深入比较使用消费级 GPU(RTX 3090、4090)和服务器显卡(A800)进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选择最佳配置变得困难。最近,一篇题为《Dissecting the Runtime Performance of the Training,
12/27/2023 3:04:00 PM
机器之心
CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?
苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来,GPT-3、OPT 和 PaLM 等大型语言模型(LLM)在广泛的 NLP 任务中表现出了强大的性能。不过,这些能力伴随着大量计算和内存推理需求,毕竟大型语言模型可能包含数千亿甚至万亿参数,使得高效加载和运行变得有挑战性,尤其是在资源有限的设备上。当前标准的应对方案是将整个模型加载到 DRAM 中进行推理,然而这种做法严重限制了可以运行的最大模型尺寸。举个例子,70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数,这超
12/25/2023 2:40:00 PM
机器之心
S-LoRA:一个GPU运行数千大模型成为可能
一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低秩适配(LowRank Adaptation,LoRA)是一种参数效率高的微调方法,通常用于将 base 模型适配到多种任务中,从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。这种模式为服务过程中的批量推理提供了大量机会。LoRA 的研究表明了一点,只对适配器权重进行微调,就能获得与全权重微调相当的性能。虽然这种方法可以实现单个适配器
11/15/2023 3:04:00 PM
机器之心
谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图
Speed Is All You Need:谷歌提出针对 Stable Diffusion 一些优化建议,生成图片速度快速提升。Stable Diffusion 在图像生成领域的知名度不亚于对话大模型中的 ChatGPT。其能够在几十秒内为任何给定的输入文本创建逼真图像。由于 Stable Diffusion 的参数量超过 10 亿,并且由于设备上的计算和内存资源有限,因而这种模型主要运行在云端。在没有精心设计和实施的情况下,在设备上运行这些模型可能会导致延迟增加,这是由于迭代降噪过程和内存消耗过多造成的。如何在设
4/27/2023 2:25:00 PM
机器之心
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
本地部署DeepSeek+DiFy平台构建智能体应用
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
谷歌 Gemini AI 新功能 Circle Screen 曝光:圈选截屏特定区域,实现精准搜索
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练