众所周知,AI 的超参数决定着模型进修效果和速度。相比普通机械进修任务,深度进修须要的训练时间较长,因此调参技巧就显得尤为重要。
但鉴于深度进修「炼丹」的特性,分歧的模型须要分歧的超参数,而每个超参的意义又分歧,在分歧实验中,参数和调整的方向又都不一样。调参这件事一直以来没有固定的套路,每个人都有自己的教训,因此经常会出现一些似是而非的理论,比如:
Random seed = 0 得到坏的结果
Random seed = 42 得到好的结果
为了破除「迷信」,高举科学旗帜,近日来自google大脑、哈佛大学的钻研职员发布了《Deep Learning Tuning Playbook》,旨在帮助大家解决这一 AI 领域的老大难课题。
项目 GitHub 上线仅一天就已收获了上千 Star 量:
项目地址:https://github.com/google-research/tuning_playbook
该项目也得到了图灵奖取得者,google AI 科学家 Geoffrey Hinton 等人的转推支持。Geoffrey Hinton 表示「少量的理论教训已被提炼成这份强大的深度进修模型调参指南。」
文档意义
这份调参指南适用于对改进深度进修模型本能感兴趣的工程师和钻研职员。阅读这份指南须要掌握机械进修和深度进修的基本知识。
这份指南的主要实质是调整超参数,也涉及深度进修训练的其他方面,例如 pipeline 实现和优化。指南假设机械进修课题是一个监督进修课题或自监督进修课题,但其中的一些规定也适用于其他类型的课题。
当前,深度神经网络就像一个黑箱,要想在理论中取得优秀的本能,须要付出少量的努力和猜测。更糟糕的是,很少有人记录各种钻研取得优秀结果的实际方式。人们似乎在回避详解理论中的调参课题,也极少分享教训。这让深度进修专家取得的实验结果,与普通从业者复现相似方式取得的结果差距悬殊。
随着深度进修方式的成熟并对世界产生重要影响,深度进修社区须要更多涵盖有用方式的资源,包括对于取得优秀结果至关重要的所有实用细节。
本项目是一个由五名钻研职员和工程师组成的团队,他们在深度进修领域工作多年,其中一些人早在 2006 年就开始了。
该团队已经将深度进修应用于从语音识别到天文学的各个领域的课题,并在此过程中学到了很多东西。本文档源于工程师们训练神经网络、教授新机械进修工程师以及为同事提供深度进修理论建议的教训。虽然深度进修早已从实验室理论的机械进修方式发展为数十亿人使用的技术驱动产品,但它作为一门工程学科仍处于起步阶段。
该指南是google钻研职员在构建自有深度进修方式时产生的,它代表了作者在撰写本文时的观点,而不是任何客观规律。为此,作者鼓励发现其中存在课题的读者提出替代建议和令人信服的证据,以便不断更新完善这份指南。
须要说明的是,这不是 TensorFlow 等google产品的官方支持文档。
指南实质
该指南包含哪些实质?可以分为四大部分:
指导开始新项目
改善模型本能的科学方式
如何决定每次训练运行步数
训练过程中的其他教训
例如第一部分,你开始新项目时如何选择模型架构、优化器、batch 大小等,都有详细的教训指导。
该指南中关于选择模型架构的教训。
而后关于「炼丹」的模型本能改进、训练运行的步数等也有教训分享。
可以说,这份指南可以教你提升模型本能的少量细节。看完下面目录,大家可以去Github细致进修下。