5 个章节、25 条规范，全方位 Get 数据集采用与创办的「百科全书」

内容一览：如果你正在进修如何创办或采用一个合适的数据集，那么这篇文章会给你一些实用的建议，帮助你在采用和创办数据集时做出明智的决策。关键词：机械进修数据集

内容一览：如果你正在进修如何创办或采用一个合适的数据集，那么这篇文章会给你一些实用的建议，帮助你在采用和创办数据集时做出明智的决策。

关键词：机械进修数据集

作者 | xixi

审校 | 三羊

本文首发自 HyperAI 超神经微信公众平台~

一个高品质的数据集不仅可以提高模型的精确率和运行效率，还可以节省训练时间和算力资源。

本篇文章中，我们参考 Jan Marcel Kezmann 的文章「The Dos and Don’ts of Dataset Selection for Machine Learning You Have to Be Aware of」，对创办和采用数据集的方式方法进行了详细说明，希望帮助各位数据科学工程师幸免陷阱、践行模型训练的最好试验，一起来看看都有哪些 Tips 吧~

阅读英文原文：

https://medium.com/mlearning-ai/the-dos-and-donts-of-dataset-selection-for-machine-learning-you-have-to-be-aware-of-8b14513d94a

1. 采用数据集的最好试验

2. 留神规避的陷阱

3. 5 个 Tips

4. 创办数据集的最好试验

5. 数据集评价

适用人群：

初学者，数据科学家，机械进修有关从业者

1. 采用数据集的最好试验

这部分将深入探讨采用公开数据集的最好试验，必要牢记以下 6 个关键步骤：

1.1 理解题目

理解要解决的题目非常重要，包括确定输入和输出变量、题目类型（分类、回归、聚类等）以及机能指标。

1.2 定义题目

通过指定行业或领域、必要的数据类型（文本、图像、音频等）以及数据集有关的限制条件，从而缩小数据集的范围。

1.3 关注品质

寻找可靠、精确且与题目有关的数据集。检查缺失数据、非常十分值和不一致性，因为这些题目可能会对模型的机能产生负面影响。

1.4 考虑数据集大小

数据集的大小会影响模型的精确性和泛化能力。较大的数据集虽然有助于提高模型的精确性和稳健性，但也意味着更多的计算资源和更长的训练时间。

1.5 检查Bias

数据集中的 Bias 可能会致使不公平或不精确的预测。要留神与数据采集过程有关的 bias，例如抽样偏向，以及与社会题目有关的偏向，例如性别、种族或社会经济地位。

1.6 寻求多样性

采用分别来源、人群或地点多样化的数据集，有助于帮助模型从各种分别的例子中进修，幸免过拟合。

2. 留神规避的陷阱

本部分适用于预定义数据集及自行创办的数据集。

2.1 数据不足

数据不足会致使模型无法捕捉数据中的潜在模式，从而使得机能不佳。如果没有足够的数据，可以考虑借助数据增强或迁移进修等技术，来增强数据集或模型能力。如果标签一致，可以将多个数据集合并成一个。

2.2 不倾斜的类别

类别不倾斜是指一个类 (class) 的样本数明显多于另一个类，这会致使预测偏向或其他模型错误。为了解决这个题目，建议利用过采样、欠采样或类别加权等技术。增强代表性不足的类也可以减少这个题目。

舒适提示：

分别的机械进修任务，类不倾斜题目对模型的影响也不一样，例如在非常十分检测任务中，类严重不倾斜是正常现象；而在标准图像分类题目中，这种情况比较少见。

2.3 非常十分值 (Outlier)

非常十分值是与其他数据样本明显分别的数据点，可能会对模型机能产生负面影响。如果数据集中包含太多的非常十分值，机械进修或深度进修模型通常会难以进修所需的分布。

可以考虑利用诸如 winsorization 之类的技术删除或校正非常十分值，或者利用均值/中位数插补方法，将样本中出现的所有缺失值替换为均值或中位数。

2.4数据窥探和透露

数据窥探 (data snooping) 会致使过拟合和机能降低，为了幸免这种情况，应该将数据集分为训练集、验证集和测试集，并只利用训练集来训练模型。

另一方面，用测试集的数据训练模型会引发数据透露，从而致使过于乐观的机能估计。为了幸免数据透露，应该始终保持验证和测试集的隔离，并只利用它们来评价最终模型

3. 5 个 Tips

借助迁移进修，用预训练模型解决有关题目，对于特定题目，可以利用较小的数据集进行微调。

合并多个数据集以增加数据集的大小和多样性，从而得到更精确和更稳健的模型。必要留神数据兼容性和品质题目。

用众包方式以较低成本快速采集大量标记数据。必要留神品质控制和偏向题目。

留意各种公司和组织的数据 API，以便以代码方式会见其数据。

检查提供标准化数据集及评价指标的可用 benchmark，便于比较针对同一题目分别模型的机能区别。

4. 创办数据集的最好试验

4.1 定义题目和目标

在采集任何数据之前，明确想要预测的目标变量、想要解决的题目范围以及数据集的预期用途。

明确题目和目标有助于专注采集有关数据，幸免在无关或嘈杂的数据上浪费时间和资源，同时有助于理解数据集的假设和局限性。

4.2 采集多样化和具有代表性的数据集

从分别的来源和领域采集数据，可以保证数据集能够代表现实世界的题目。这包括从分别的地点、人口统计学和时间段采集数据，保证数据集不偏向于特定的群体或领域。

此外，要保证数据不含任何混淆变量 (confounding variable)，影响假定原因和假定结果的第 3 个未测量变量，会对结果产生影响。

4.3 仔细标注数据

利用明确并且能清晰反映 ground truth 的标签标注数据，通过多位标注人员 (annotator) 或众包方式，减少个人偏见对数据的影响，提高标签的品质和可靠性。建议对数据进行版本控制，以更轻松地跟踪、共享和重现训练和评价过程。

舒适提示：

如果数据集只包含 80% 的正确标签，那么即使是最好的模型，在大多数情况下其精确率也不会超过 80%。

4.4 保证数据的品质和完整性

数据品质是指数据的精确性 (accuracy)、完整性 (completeness) 和一致性 (consistency)。借助数据清洗、非常十分值检测和缺失值插补等技术，有助于提高数据集品质。此外，还必要保证数据格式易于机械进修算法的理解和处理。

4.5 保证数据隐私和安全

为了保护隐私，必要保证数据的采集和存储都是安全的，任何敏感信息都已被匿名化或加密处理。此外，还可以考虑利用加密技术来保护数据在传输和静态存储时的安全。

舒适提示：

留神验证数据的利用规范，保证其符合法律法规。

5. 数据集评价

检查数据集是否已经充分满足以下 5 个标准：

数据规模：通常来说，数据越多越好。

数据分布：保证数据集是倾斜和有代表性的。

数据品质：干净、一致和无误的数据至关重要

数据复杂度：保证数据不过于复杂。

数据有关性：数据应与题目有关。

以上就是数据集采用与创办指南的完整内容，采用一个合适的数据集是机械进修的关键，希望这份指南可以帮助各位采用或创办优质数据集，训练出精确、稳健的模型！

海量公开数据集在线下载

截至目前，HyperAI超神经官网已上线 1200+ 优质公开数据集，完成近 50 万次下载，贡献 2000+TB 流量，极大降低了海内外优质公开数据集的会见门槛。

5 个章节、25 条规范，全方位 Get 数据集采用与创办的「百科全书」

会见以下链接，即刻搜索下载你必要的数据集，开启模型训练之旅！

会见官网：https://hyper.ai/datasets

本文首发自 HyperAI 超神经微信公众平台~

—— 完 ——

{{userData.name}}已认证

5 个章节、25 条规范，全方位 Get 数据集采用与创办的「百科全书」

利用 PRIMO 重构 M87 黑洞图象，普林斯顿高等研讨院成功将「甜甜圈」变身「金戒指」

电信及互联网行业数据平安内控审计建设实践 | 盾见

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理