量化

精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现

AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

Meta 推出 Llama 3.2 1B / 3B 模型量化版:功耗更低、可适用更多轻量移动设备

继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后,Meta 于 10 月 24 日发布了这两个模型的量化版本,量化后的模型大小平均减少了 56%,RAM 使用量平均减少了 41%,模型速度提高了 2 至 4 倍,同时降低了功耗,使这些模型能够部署到更多移动设备上。 AI在线注:模型量化(Model Quantization)就是通过各种训练方式将浮点模型转为定点模型,可以压缩模型参数,降低模型的复杂性,以便于在更轻量的平台运行。 Meta 表示,他们采用了量化感知训练(Quantization-Aware Training,QAT)和后训练量化(SpinQuant)两种方法对模型进行量化,其中“量化感知训练”更重视模型的准确性,而“后训练量化”更强调模型的可移植性。

PyTorch 架构优化库 torchao 正式发布,可大幅提升 AI 模型效率

据 PyTorch 新闻稿,PyTorch 旗下架构优化库 torchao 现已正式发布,该优化库主要专注于模型的量化和稀疏性优化,能够在保证性能的同时降低模型的计算成本和 RAM 用量,从而提升模型运行效率,AI在线附 GitHub 页面地址(点此访问)。据介绍,torchao 提供了一系列优化工具集,可以帮助 LLaMA 3 等流行的 AI 模型提升性能,其支持 float8、int4 等低精度数据类型,能够有效减少硬件开销和 RAM 用量。官方举例,在 LLaMA 3 70B 模型的预训练中,torchao

「可损伤编程设计」的超材料,上海交大团队用AI实现材料的自然抗裂机制

编辑 | 萝卜皮人造超材料的断裂行为往往会导致灾难性的破坏,并且对裂纹扩展的抵抗力有限。相比之下,骨头和陶瓷等天然材料具有微观结构,可产生空间可控的裂纹路径,并且增韧材料对裂纹的抵抗力会提高。上海交通大学的研究人员提出了一种受自然强化机制启发的方法,旨在开发一种系统的设计方法,使损伤可编程超材料能够在细胞中具有可工程化的微纤维,从而能够在空间上编程微尺度裂纹行为。机器学习可用于提供有效的设计引擎,加速生成可损伤可编程单元,该单元提供先进的增韧功能,如天然材料中的裂纹弯曲、裂纹偏转和屏蔽;并针对给定的裂纹路径编程进行

浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版:运行显存仅需 23GB,号称性能媲美 LLaMA3

浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版,性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。4bit 量化版推理运行显存仅需 23.27GB,处理每 token 所需算力约为 1.9 GFLOPs,算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB,所需算力为 140GFLOPs。据浪潮信息介绍,源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,将

苹果 AI 版 iOS 首日火爆:聊天秒变高情商,大模型成最强嘴替,Siri 华丽变身

它来了它来了,苹果的 Apple Intelligence 终于与果粉见面了!随着 iOS 18.1 Beta 版的上线,注册开发者从即日起就能体验到苹果 AI 的部分功能。最明显的一处就是 Siri 的全面换新,变身成了 Apple Intelligence & Siri。另一项重磅更新就是写作功能了,它可以帮忙润色推特评论,三下五除二就能把高级表达方式安排起来。甚至 dirty words 也能分分钟变得儒雅随和:开启 Apple Intelligence 后,苹果自研的端侧大模型就会被下载到设备当中。根据手快

只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:[email protected][email protected]

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

。ZeRO++ 相比 ZeRO 将总通信量减少了 4 倍,而不会影响模型质量。

国内首届量化科技嘉年华亮相上海

5年,增长7倍,这就是量化科技的魅力。在过去5年间,量化私募基金从两千亿的规模,一路增长到2022年底的 1.5 万亿左右,百亿量化私募的数量更从个位数骤增至如今的34家。公募量化对冲也在迎头赶上,目前量化成交量占总体市场规模已超过20%。风云激荡,量化科技也正迈步走在成为主流的道路上。2023年6月2日-3日,“2023·量化科技嘉年华”将在上海召开开,本次大会以「量变·智变」为主题,通过国内外顶尖量化金融专家最前沿、最专业的视角,深入量化人真正关注的科技与狠活,涵盖因子/数据/交易/算法/算力,解锁垂直领域的真

百亿量化私募“道歉”,AI选股还能信吗?

近两年来,量化投资行业爆发式增长,一批私募规模突破百亿大关,备受市场关注。随着大量资金涌入量化私募,市场竞争亦在不断加剧,尤其是头部私募之间的比拼,纷纷展开军备竞赛。为了保持长期竞争优势,不少量化私募开始加大人工智能、机器学习方面的投入。与此同时,市场上也有许多疑问。阿尔法狗诞生以后,在围棋、象棋、德州扑克等领域,人工智能已经彻底打败了人类。那么,在投资领域人工智能会打败人类吗?近期,知名量化私募幻方量化因业绩回撤达到了历史最大值,在官微发布公告,表示“深感愧疚”。幻方表示,业绩波动的一部分原因来源于长周期上的持股

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

逼近量化训练?块重建技术打造离线量化新极限

模型量化技术可以有效加速推理,已经成为人工智能芯片的标配,并在工业落地中广泛应用。离线量化(Post-Training Quantization)不需要耦合训练流程,使用成本和时间成本低,往往作为生产量化模型的首选方式,但其可调整空间有限,因此面临更大的准确度挑战,尤其是在一些特殊场景和极端要求下,不得不进一步引入更为复杂的在线量化(Quantization Aware Training)流程挽救,而这极大增加了量化模型生产的复杂度。如何在享受离线量化便捷高效的同时,在有限的调整“夹缝”中提升其效果上限,成为进一步打破技术红线的关键。在ICLR2021上,商汤科技研究院Spring工具链团队、高性能计算团队和成都电子科技大学顾实老师团队合作提出了块重建技术BRECQ,重新审视量化模型的优化粒度,首次将离线量化在4bit上的效果提升到在线量化的水平,相比在线量化可以节省大于200倍的生产时间,BRECQ在多种网络和任务上普遍取得了业界最佳效果,打造了离线量化的新极限。

解读阿里云PAI模型压缩技术落地实时移动端智能应用

随着移动端AI应用部署需求的日益增强,模型压缩作为深度学习模型实现轻量化部署的有效手段,在移动端场景越来越受关注。尤其是剪枝、量化、权重稀疏化与网络结构搜索等算法策略,能够帮助减少深度模型端侧部署时的资源消耗(Latency、Energy与Memory等),始终是学术界与工业界的发展焦点。阿里云机器学习PAI平台模型压缩技术,在端智能应用场景实现了端侧智能的快速赋能与应用落地。尤其在2020年阿里双十一期间,淘宝直播App的“一猜到底”语音交互游戏中,PAI模型压缩技术体现了关键作用。淘宝直播一猜到底背后的模型压缩
  • 1