斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」,由 Trevor Hastie、Robert Tibshirani、Jerome Friedman 这三位大师共同完成。这本书介绍了神经网络、支持向量机、分类树和 boosting、图模型、随机森林等各类机器学习算法,可以帮助读者了解机器学习算法全貌。
但是由于这本书涉及大量的公式、矩阵推导等许多比较难以理解的内容,比较适合在数学科学方面受过高级训练的个人,而对于初学者而言,学习起来比较困难,因此,Trevor Hastie 等人又写了一本入门级的《Introduction to Statistical Learning with R(统计学习导论:基于 R 应用)》(ISL),帮助更多的人尽快上手。
ISL 弱化了数学推导的细节,更注重方法的应用,相当于 ESL 的导读版,在入门读者中很受欢迎。每个章节都包含一个实验,用 R 语言实现。这些实验为读者提供了宝贵的实践经验。
目前,该书已被翻译成多国语言,包括中文、意大利文、日文、韩文、俄文和越南文等。
现在,ISL 又更新到了第二版(ISLRv2),相比于第一版,第二版增加了深度学习(第 10 章)、生存分析(第 11 章)、多重测试(第 13 章)。ISLRv2 还大幅扩展了第一版的一些章节:朴素贝叶斯和广义线性模型的处理(第 4 章),贝叶斯加性回归树(第 8 章),矩阵补全(第 12 章)。
此外,ISLRv2 已经更新了整个 R 代码实验。
书籍地址:https://www.statlearning.com/
网友极力推荐:非常好,这是一本很棒的入门书籍。
书籍介绍
全书多达 597 页,共 13 个章节,主要包括:
统计学习;
线性回归;
分类;
重采样方法;
线性模型选择与正则化;
非线性模型;
基于树的方法;
支持向量机;
深度学习;
生存分析和删失数据;
无监督学习;
多重测试。
具体而言,本书第 2 章介绍了统计学习背后的基本术语和概念,此外还介绍了 k - 最近邻分类器,这是一种非常简单的方法,在处理许多问题上都非常有效。
第 3 章和第 4 章介绍了用于回归和分类的经典线性方法。具体地,第 3 章回顾了线性回归,这是所有回归方法的基本出发点;第 4 章讨论了两个最重要的经典分类方法,逻辑回归和线性判别分析。
所有统计学习情况中的一个核心问题是为给定的应用程序选择最佳方法。因此,第 5 章介绍了交叉验证和 bootstrap,它们可用于估计多种不同方法的准确性以选择最佳方法。
第 6 章考虑了许多线性方法,包括经典的和更现代的线性方法,它们提供了对标准线性回归的潜在改进,包括岭回归、主成分回归和 Lasso 等。
剩余章节主要是非线性统计学习。第 7 章首先介绍了一些非线性方法,这些方法可以很好地解决只有一个输入变量的问题,然后展示了如何使用这些方法来拟合有多个输入的非线性加性模型。
第 8 章研究了基于树的方法,包括 bagging、boosting 和随机森林。
第 9 章介绍了支持向量机等内容。
第 10 章介绍了深度学习,这是一种非线性回归和分类的方法,近年来受到了广泛的关注。
第 11 章探讨了生存分析,这是一种回归方法,专门用于输出变量被删失的情况,即不完全观察。
第 12 章介绍了无监督设置,其中在无监督设置中有输入变量,但没有输出变量。特别地,作者提出了主成分分析、k - 均值聚类和层次聚类。最后,第 13 章讨论了多重假设检验这个非常重要的话题。
作者介绍
书籍作者从左到右分别是:Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani。
Gareth James 是南加州大学马歇尔商学院副院长,主要研究领域包括函数型数据分析、高维回归、市场营销中的统计问题。
Daniela Witten 是一位美国生物统计学家,主要研究领域是研究如何使用机器学习来理解高维数据。
Trevor Hastie 是斯坦福大学教授,还曾经是 AT&T 贝尔实验室的一名技术人员。2018 年,Hastie 当选为美国国家科学院院士。他的主要研究领域是应用统计学。
Rob Tibshirani 是斯坦福大学统计与生物医学数据科学系的教授,他曾开发了用于分析复杂数据集的统计工具。
书籍目录: