斯坦福典范教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计进修「圣经」,由 Trevor Hastie、Robert Tibshirani、Jerome Friedman 这三位大师共同完成。这本书引见了神经网络、支持向量机、分类树和 boosting、图模型、随机森林等各类机器进修算法,可以帮助读者了解机器进修算法全貌。
但是由于这本书涉及大量的公式、矩阵推导等许多比较难以理解的内容,比较适合在数学科学方面受过高级训练的个人,而对于初学者而言,进修起来比较困难,因此,Trevor Hastie 等人又写了一本入门级的《Introduction to Statistical Learning with R(统计进修导论:基于 R 应用)》(ISL),帮助更多的人尽快上手。
ISL 弱化了数学推导的细节,更注重要领的应用,相当于 ESL 的导读版,在入门读者中很受欢迎。每个章节都包含一个实验,用 R 语言实现。这些实验为读者提供了宝贵的实践经验。
目前,该书已被翻译成多国语言,包含中文、意大利文、日文、韩文、俄文和越南文等。
现在,ISL 又更新到了第二版(ISLRv2),相比于第一版,第二版增加了深度进修(第 10 章)、生存剖析(第 11 章)、多重测试(第 13 章)。ISLRv2 还大幅扩展了第一版的一些章节:朴素贝叶斯和广义线性模型的处理(第 4 章),贝叶斯加性返回树(第 8 章),矩阵补全(第 12 章)。
此外,ISLRv2 已经更新了整个 R 代码实验。
书地址:https://www.statlearning.com/
网友极力推荐:非常好,这是一本很棒的入门书。
书引见
全书多达 597 页,共 13 个章节,主要包含:
统计进修;
线性返回;
分类;
重采样要领;
线性模型选择与正则化;
非线性模型;
基于树的要领;
支持向量机;
深度进修;
生存剖析和删失数据;
无监督进修;
多重测试。
具体而言,本书第 2 章引见了统计进修背后的基本术语和概念,此外还引见了 k – 最近邻分类器,这是一种非常简单的要领,在处理许多问题上都非常有效。
第 3 章和第 4 章引见了用于返回和分类的典范线性要领。具体地,第 3 章回顾了线性返回,这是所有返回要领的基本出发点;第 4 章讨论了两个最重要的典范分类要领,逻辑返回和线性判别剖析。
所有统计进修情况中的一个核心问题是为给定的应用程序选择最佳要领。因此,第 5 章引见了交叉验证和 bootstrap,它们可用于估计多种不同要领的准确性以选择最佳要领。
第 6 章考虑了许多线性要领,包含典范的和更现代的线性要领,它们提供了对标准线性返回的潜在改进,包含岭返回、主成分返回和 Lasso 等。
剩余章节主要是非线性统计进修。第 7 章首先引见了一些非线性要领,这些要领可以很好地解决只有一个输入变量的问题,然后展示了如何使用这些要领来拟合有多个输入的非线性加性模型。
第 8 章研究了基于树的要领,包含 bagging、boosting 和随机森林。
第 9 章引见了支持向量机等内容。
第 10 章引见了深度进修,这是一种非线性返回和分类的要领,近年来受到了广泛的关注。
第 11 章探讨了生存剖析,这是一种返回要领,专门用于输出变量被删失的情况,即不完全观察。
第 12 章引见了无监督设置,其中在无监督设置中有输入变量,但没有输出变量。特别地,作者提出了主成分剖析、k – 均值聚类和层次聚类。最后,第 13 章讨论了多重假设检验这个非常重要的话题。
作者引见
书作者从左到右分别是:Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani。
Gareth James 是南加州大学马歇尔商学院副院长,主要研究领域包含函数型数据剖析、高维返回、市场营销中的统计问题。
Daniela Witten 是一位美国生物统计学家,主要研究领域是研究如何使用机器进修来理解高维数据。
Trevor Hastie 是斯坦福大学教授,还曾经是 AT&T 贝尔实验室的一名技术人员。2018 年,Hastie 当选为美国国家科学院院士。他的主要研究领域是应用统计学。
Rob Tibshirani 是斯坦福大学统计与生物医学数据科学系的教授,他曾开发了用于剖析复杂数据集的统计工具。
书目录: