佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

2022 年你应该知道的所有机械进修算法。

想要成为一名合格的 AI 工程师,并不是一件简单的事情,需求掌握各种机械进修算法。对于小白来说,入行 AI 还是比较困难的。

为了让初学者更好的进修 AI,网络上出现了各种各样的进修资料,也不乏很多 AI 大牛提供免费的授课视频提供帮助。

近日,来自佐治亚理工学院的理学硕士 Terence Shin 在博客发布平台 Medium 撰文《2022 年你应该知道的所有机械进修算法》。文中涵盖了 5 类最重要的机械进修算法:集成进修算法;可解说算法;聚类算法;降维算法;近似性算法。

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

目前,Terence Shin 在 Medium 显示为 Top 1000 作者,有 62K 关注者,目前这篇文章已经有 1.4K 点赞。

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

2022 年,你需求掌握的机械进修算法

集成进修算法

为了明白什么是集成进修算法,你首先需求知道什么是集成进修。简单来讲,集成进修是一种同时应用多个模型以获得比单个模型性能更好的方法。

更形象的解说,我们以一个门生和一个班级的门生为例:

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

想象一下,一个门生解决一个数学问题 VS 一个班级门生解决相同的问题。作为班级,所有门生可以相互检查彼此的谜底,并一致找出正确谜底解决问题。另一方面,作为门生的个人,如果他 / 她的谜底是错误的,那么没有其他人可以验证他 / 她的谜底正确与否。

因此,由门生组成的班级类似集成进修算法,其中几个较小的算法协同工作以制定最终响应。

关于集成进修的更多信息请参考:https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21

集成进修算法对于回归和分类问题或监视进修问题最有用。由于其固有的性质,它优于传统的朴素贝叶斯、支持向量机、决策树等机械进修算法。集成进修的代表方法有:Random Forests、XGBoost、LightGBM、CatBoost.

可解说算法

可解说算法帮助我们识别和明白与结果有显著关系的变量。因此,与其创建一个模型来预测响应变量的值,我们可以创建可解说模型来明白模型中变量之间的关系。

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

当你想要了解模型为什么做出这个决策、或者你想要明白两个或多个变量是如何相互关联的,可解说模型能够提供帮助。在实践中,解说机械进修模型能够实现的性能和机械进修模型本身一样重要。如果你不能解说一个模型是如何工作的,那么将不会有人愿意应用它。

目前基于假设检验的传统可解说模型主要包括:线性回归、逻辑回归;此外,可解说模型还包括 SHAP 和 LIME 这两种流行技术,它们被用来解说机械进修模型。

聚类算法

聚类是按照某个特定标准 (如间隔) 把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的近似性尽量大,同时不在同一个簇中的数据对象的差异性也尽量地大。也即聚类后同一类的数据尽量聚集到一起,不同类数据尽量分离。

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

聚类的一般过程包括数据准备、特征选择、特征提取、聚类、聚类结果评估。

聚类算法可用于进行聚类分析,它是一项无监视进修任务,可以将数据分组到聚类中。与目标变量已知的监视进修不同,聚类分析中没有目标变量。

聚类能够发现数据中的自然模式和趋势。k-means 聚类和层次聚类是最常见的两种聚类算法。

降维算法

数据降维算法是机械进修算法中的大家族,它的目标是将向量投影到低维空间,以达到可视化、分类等目的。

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

降维技术在很多情况下都很有用:在数据集中有数百甚至数千个特征并且用户需求选择少数特征时,需求用到降维;当 ML 模型过度拟合数据也需求降维,这意味着用户需求减少输出特征的数量。

目前已经存在大量的数据降维算法,可以从不同的维度进行分类。按照是否有应用样本的标签值,可以将降维算法分为有监视降维和无监视降维;按照降维算法应用的映射函数,可以将算法分为线性降维与非线性降维。其中,主成分分析 PCA、线性判别分析 LDA 为线性降维。

近似性算法

佐治亚理工学院硕士建议:2022年你应该掌握这些机械进修算法

在机械进修中,我们经常需求知道个体间差异的大小,进而评价个体的近似性和类别。近似性算法是计算节点、数据点、文本对近似性的算法,如欧几里得间隔,也有计算文本近似度的近似度算法,如 Levenshtein 算法。

近似性算法主要包括:K 隔壁算法、欧几里得间隔、余弦近似度、奇异值分解等。其中,K 隔壁算法,即是给定一个训练数据集,对新的输出实例,在训练数据集中找到与该实例最邻近的 K 个实例,这 K 个实例的多数属于某个类,就把该输出实例分类到这个类中。欧几里得间隔是欧几里得空间中两点间普通(即直线)间隔。余弦近似度是通过计算两个向量的夹角余弦值来评估他们的近似度。

原文链接:

https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

给TA打赏
共{{data.count}}人
人已打赏
AI

像鸟一样树上栖身、地面抓物,斯坦福给无人机安上爪子,登Science子刊封面

2021-12-7 14:54:00

AI

时隔近50年,剑桥团队首次检测到量子自旋液体,研讨登上《Science》

2021-12-9 9:41:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索