设置机器学习管道的初学者指南

译者 | 陈峻审校 | 重楼不知你是否知晓，构建和运行机器学习（Machine Learning，ML）模型通常是一个虽有益但耗时且复杂的过程。其中包括：数据准备、特征生成、模型拟合、以及验证和部署等阶段。更重要的是，随着数据趋势的变化，这些模型需要保持更新。

译者 | 陈峻

审校 | 重楼

不知你是否知晓，构建和运行机器学习（Machine Learning，ML）模型通常是一个虽有益但耗时且复杂的过程。其中包括：数据准备、特征生成、模型拟合、以及验证和部署等阶段。更重要的是，随着数据趋势的变化，这些模型需要保持更新。否则，它们很快会变得过时，进而做出低质量的预测。

而端到端的ML管道则是通过自动化工作流程，来提高可扩展性和效率的必要条件。通过此类管道，开发者可以更加轻松、一致地开发、测试和部署新的模型。下面，我将向你介绍什么是机器学习管道，以及如何根据开发者的需求，创建出ML管道。

什么是机器学习管道？

从定义上说，机器学习管道是对ML工作流程的多个阶段进行系统自动化的过程。虽然其管道中的每个阶段相对于其他阶段而言，都是一个独立运作的单元，但是它们能够通过协同，获得累积的结果。也就是说，机器学习管道采用模块化的方法，通过对原始数据的提取和预处理，在模型的训练和部署等多个连续阶段，实现高质量的结果预测。

作为自动化通道，ML管道无需人工进行数据收集和处理、模型训练、质量验证、以及最终部署，而能够自动执行各种重复性的过程。据此，管道可以提高模型的管理和维护效率，降低错误率，进而最终提高各种模型的准确性和可靠性。

同时，可被用于单个或多个模型ML管道，通过为数据科学家和人工智能（AI）工程师提供可扩展且持久的解决方案，来开发、产生和更新AI系统，帮助他们有效地管理ML流程的复杂性。

此外，合理的管道执行会使得ML工作流的实施更加灵活。你可以自行定义所需的功能、模型参数和监控指标，以生成和更新管道中最关键的组件：模型。当然，此处的“管道”一词并不代表着单向流动。ML管道可以通过循环来支持迭代。而且，ML管道不同于数据管道。数据管道的目标是在转换系统的同时，在系统之间移动数据。而ML管道专注于简化和加速复杂的ML流程，以提高效率。

创建机器管道的分步指南

设置机器学习管道的初学者指南

无论面对何种应用场景，大多数ML管道的典型阶段是相似的，基本上会遵循如上图所示的工作流程。其中的每个阶段都建立在前一个阶段的基础上。也就是说，在获得最终结果之前，前一阶段的输出将成为后一阶段的输入。下面，我们来具体讨论典型ML管道中的各个阶段：

1. 数据的收集

作为第一阶段，ML管道会将从应用程序编程接口（API）、调查和问卷、在线数据库、机构记录、以及政府机构文件等来源，收集和记录原始数据。数据是源自第一手研究，还是现有资源，则取决于ML使用案例的具体情况。

在此阶段，你可以使用诸如：Request、Beautiful Soup、Scrapy 和 Selenium等任一款强大的Python数据收集库。同时，由于这些数据是原始的、非结构化的且混乱的，因此它们并不适合直接开展ML分析，需要进入下一阶段。

2. 数据预处理

在此阶段，数据将被清理，并以可用的格式进行组织，以实现高效的分析，以及针对模型的训练和测试。如果此阶段被跳过，收集到的数据则将不适合模型。也就是说，模型将无法使用数据集来产生任何有意义的结果。

在ML中，典型的数据预处理步骤包括：整理缺失数据、处理重复数据、减少干扰数据、以及特征工程（下一阶段会讨论到）。数据预处理的实用Python库包括：Pandas、NumPy、Scikit-Learn和Scipy等。数据预处理的最终目标是为特征工程准备数据。

3. 特征工程

特征工程是创建新特征的过程，同时也可以识别出那些对于提高模型预测能力具有重要意义的、相关预先存在的特征。此阶段也是数据预处理的一部分，毕竟该阶段需要将数据转换为适合特定类型算法、且能够有效训练ML模型的形式。

特征工程的全过程通常会涉及以下技术：

特征提取：这是从原始数据中识别和转换最重要特征的过程，它调用算法专注于数据集中的重要内容。例如，如果你想通过构建一个模型，来预测哪个学生会获得奖学金，那么哪些数据集会对此有用呢？在通常情况下，学习成绩、财务状况背景、个人特质等特征都将是相关的。典型的特征提取技术包括：降维和主成分分析（PCA）。这两者都可以使用Python的 Scikit-Learn库来实现。当然，具体选择哪种技术，则取决于数据类型和你的目标。
特征缩放、归一化、标准化：这是对数据集中的特征进行归一化（即：将特征调整到通用维度）的过程，可确保学习算法更容易地找到它们之间有意义的关系。当数据集中的所有特征具有相似的维度时，它会消除由于数据量级而导致的偏差。请注意，并非所有的ML算法都需要特征缩放。那些能够处理多特征（如：决策树和随机森林）的、基于树的算法，就不需要特征扩展。
特征编码：这是将相关分类特征转换为数字特征，以确保算法发挥最佳性能的过程。例如，如果奖学金预测数据集的 “财务状况背景” 列中的观察结果是可以被分类的，那么特征编码会将它们转换为 0 和 1 的数值。特征编码的典型示例包括：One-hot或dummy编码、标签编码和序号编码等。对于此过程，你可以使用Python的Scikit-Learn库。值得注意的是，特征工程是管道中最重要的阶段之一，毕竟它可以帮助ML模型学习到数据的模式，并提升其性能。当然，特征工程是一个复杂的过程，它需要通过实验，来确定与训练模型相关的特征，具体情况则取决于你使用的特定案例。

4. 模型训练和测试

根据你的需求（如：分类、聚类、回归）和性能指标选择了合适的ML算法后，就可以开始训练生成的模型了。数据集通常会被分为两类，分别用于训练和测试。其中的训练数据集将帮助模型了解特征和目标变量（或称标签）中的任何潜在模式和关系。该训练过程将教会模型以尽可能高的准确性，获取输入，并预测输出。注意：此处的特征是向模型提供信息的输入，而目标变量（标签）则是模型尝试预测的输出。

设置机器学习管道的初学者指南

当模型达到目标预测的精度时，训练即可结束。如果模型的性能低于预期，你可以通过重新训练模型的方式更改算法，或是添加更准确的数据，甚至可以设计新的功能来处理性能不佳的情况。

5. 模型评估或分析

训练结束后，我们可以使用准确率、精度、召回率和 F1 分数等性能指标，来评估模型的性能。其中：

● 准确性：表示正确分类的实例，占所有实例的比例。

● 精度：表示那些被分类为“真”的模型，占比所有实际确为“真”的数量。

● 召回率：衡量模型设法识别出的实际为“真”的实例数量。

● F1 分数：将精确率和召回率采取平衡（加权调和平均）的数值。随着精度的提高，召回率会下降，反之亦然。当你在精确率和召回率之间找到了最佳平衡时，便获得了最有价值的指标。

总的说来，此阶段的目标是确保模型在处理新的、未曾见过的数据时的表现。

6. 模型部署

ML管道的这个阶段意味着，你已成功开发并评估了符合预测准确性水平的模型。至此，我们可以将模型部署到生产环境，以确保它可以在实际环境中运行了。例如，奖学金预测模型可以在学校现有的学生档案记录系统中被部署实施，以便投产使用。

在此，你可以使用一款由Google发布的开源工具–TensorFlow Extended（TFX）。它可以使得Python中的模型在部署过程更加高效。同时，该工具提供了许多框架、库和组件，可用于模型的训练、服务、部署和监控。

7. 模型的监控

这是ML管道的最后阶段。随着时间的推移，数据会逐渐过期，模型的预测精度也会随之降低。这种准确度的下降常被称为模型漂移。这就是为什么我们需要持续监控在生产环境中模型的性能，并在必要时对其进行再训练，以确保其仍然准确可靠的原因。

通常，有如下两种类型的模型漂移：

数据漂移：当特征的统计属性发生了变化，但特征和目标变量之间的关系仍保持不变时，就会发生此类漂移。这意味着生产环境中的特征与训练阶段的特征出现了差异。让我们仍以奖学金预测模型为例，如果该模型在2020年之前已投产，而学校后续引入了新的录取标准，并改变了他们评估课外活动的方式，那么就会影响到该模型的预测能力。其根本原因在于模型没有通过更新，以反映上述变化，自然也就表现不佳。
概念漂移：当特征和目标变量之间的关系随着时间的推移而发生变化时，就会出现此类漂移。例如，在使用奖学金预测模型时，如果最初的模型是根据GPA和考试成绩来预测奖学金的可能性，但是学校现在关注的是社区服务或领导潜力等社会价值，那么模型的准确性就会下降。这正是因为特征与目标变量（即：奖学金）之间的关系发生了变化。因此，我们需要用新的标准对模型进行重新训练。

当然，模型监控也可以跟踪准确度的变化、各种偏差、公平性、以及操作指标。TensforFlow库里的TensorBoard便是一个很好的模型监控工具。同时，ML的可观察性平台（如：obvious AI和Valohai）在该阶段也非常实用。

创建机器学习管道的好处

创建机器学习管道的主要优势包括：

更高的生产力：机器学习管道减少了对于持续人工干预和手动方法的依赖。通过减少重复性流程和优先考虑自动化，数据科学家可以有更多的时间，来完成真正需要人工干预的工作，例如：决策的制定、数据的标注（即：正确地标记数据）、以及在训练期间模型的微调。
高质量的预测：构造良好的机器学习管道可以减少误判，让模型返回更接近真实情况的预测。
可扩展性：高效的ML管道不但可以处理大量复杂的数据，而且可以确保模型能够被继续有效地执行。由于企业的数据量会随着业务不断增长，因此这一点显得非常重要。
易于故障排查：由于管道中的每个阶段都是相互独立的，因此更易于在特定的阶段跟踪问题，并随后开展调试。

综上所述，机器学习管道是数据科学家的强大工具。它们能够在将原始数据转化为有价值的见解的过程中，提供一致且有效的流程保证。

译者介绍

陈峻（Julian Chen），51CTO社区编辑，具有十多年的IT项目实施经验，善于对内外部资源与风险实施管控，专注传播网络与信息安全知识与经验。

原文标题：Set Up Your First Machine Learning Pipeline With This Beginner’s Guide，作者：Praise James

{{userData.name}}已认证

设置机器学习管道的初学者指南

什么是机器学习管道？

创建机器管道的分步指南

1. 数据的收集

2. 数据预处理

3. 特征工程

4. 模型训练和测试

5. 模型评估或分析

6. 模型部署

7. 模型的监控

创建机器学习管道的好处

译者介绍

GPT5基本玩崩了！谷歌和Meta胜算很大！AI投资人爆料：Meta承接谷歌搜索后，或收购某独角兽，OpenAI其实贼挣钱

大模型AI运用——AgentScope

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩