谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

这是一本正在写作的旧书,目前前四章已经放出了初稿。

过去几年,GPT-3 等几个大模型展示了大数据、大算力的力量,它们的效果毋庸置疑,但在现实世界中训练和布置这些模型是非常昂贵的,这阻碍了大模型在现实世界中的广泛使用,比如很多效果很好的大模型根本无法在手机上运行。因此,我们需要想办法把模型做得更加高效(在尽量不损失本能的前提下把模型做得更小)。

那么,具体该怎么做呢?

为了解答这个课题,谷歌机器进修工程师 Gaurav Menghani 和独立研究者 Naresh Singh 正在撰写一本旧书。这本书将涵盖谷歌研究院、Facebook AI 研究院(FAIR,现 Meta AI)及其他著名人工智能实验室的研究员和工程师在各种设备(从大型服务器到小型控制器)上训练和布置模型时所使用的算法和技巧,如量化、剪枝、蒸馏等。

目前,他们已经发布了该书前四章的 PDF 初稿。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

旧书链接:https://efficientdlbook.com/

代码链接:https://github.com/EfficientDL/book/tree/main/codelabs

第一章是对全书内容的整体概括。作家首先概述了深度进修的现状、使用和快速增长,然后探讨了进步模型效用的动机及相关核心技巧,包括紧缩技巧、进修技巧、自动化、高效模型 & 层、基础设施等。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

第二章围绕紧缩技巧展开。紧缩技巧旨在淘汰模型占用空间(大小、延迟、内存等)。我们可以通过淘汰可训练参数的数量来淘汰模型的占用。然而,这种方法有两个缺点。首先,我们很难确定在不显著影响本能的情况下可以删除哪些参数或层。如果可能的话,我们需要进行许多试验和评估才能得到一个更小的模型。其次,这种方法不能很好地泛化,因为模型设计是针对具体课题的主观设计。

在这一章,作家引见了可能解决上述两个课题的模型紧缩技巧 —— 量化。首先,他们引见了紧缩的概念,然后是量化的细节及其在深度进修中的使用,最后是代码实现细节以及实践项目。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

模型品质是评价深度进修模型本能的重要基准。例如,使用低品质模型的语言翻译使用将很难被用户接受,因为它无法帮助用户与说不同语言的人有效交流。第三章的重点将放在可能帮我们实现品质目标的技巧上。在移动和边缘设备等空间受限的环境中,高品质模型具有额外的优势,它们可以灵活地牺牲一些品质来淘汰空间占用。

在第一章,作家简要引见了可能进步品质的进修技巧,如正则化、dropout、数据增强和蒸馏。这些技巧可以进步准确度、精确度和召回率等指标,这些都是我们在考虑品质课题时重点关心的指标。在第三章,作家选择了上述技巧中的两种进行引见,即数据增强和蒸馏。这是因为,首先,正则化和 dropout 在任何现代深度进修框架中都是相当直接的;其次,数据增强和蒸馏可以在训练阶段带来显著的效用增益,这是本章的重点。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

截止到第三章,作家已经讨论了与模型架构无关的通用技巧。这些技巧可以使用于自然语言处理、视觉、语音或其他领域。然而,由于其增量性质,它们提供的收益非常有限。此时,尝试另一种更适合该任务的架构收获可能更大。打个比方,在改善房子采光的时候,你可以把墙壁重新刷成鲜艳的颜色,或者升级到更强的灯具。然而,如果在结构上做些改变,比如增加几扇窗户和一个阳台,采光效果会很好。类似地,为了在占用空间或品质方面获得数量级的增益,我们应该考虑采用合适的高效架构。

深度进修的进展是架构上的冲破所驱动的,这些冲破可以降本增效。多层感知机的发展是神经网络领域最大的架构冲破之一。它引入了堆叠层来进修复杂关系。卷积神经网络是另一个重要的冲破,它可能在输入中进修空间特征。循环神经网络有利于从序列和时间数据中进修。这些冲破促成了越来越大的模型。虽然它们进步了解决方案的品质,但是更大的模型带来了布置挑战。一个不能在实际使用中布置的模型用途是有限的。

高效的架构旨在通过提出新的方法来淘汰模型空间占用并进步推理效用,同时保留大模型的课题解决能力,从而进步模型的可布置性。在第一章,作家简要引见了 depthwise 可分离卷积、注意力机制和 hashing trick 等架构。在第四章中,作家将深入研究它们的架构,并使用它们将大型复杂模型转换为可能在移动和边缘设备上运行的小型高效模型。他们还使用这些高效的层和架构建立了几个编程项目,以获得实际的模型优化体验。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

至于第四章之后的内容,我们目前只能看到目录,相信作家也会很快上传 PDF 初稿,大家可以持续关注该书官网。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述布置秘籍(免费书)

给TA打赏
共{{data.count}}人
人已打赏
AI

硅谷精神导师凯文·凯利:70岁生日那天,人们把他网站冲瘫痪了

2022-4-30 13:31:00

AI

申请CS博士学位前,布朗大学Jeff Huang团队这份师资、排名和奖学金统计值得参考

2022-5-9 8:44:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索