什么是机器教学?
尽管人工智能(AI)已在许多行业得到广泛应用,但根据麻省理工学院斯隆管理学院的研究,只有不到10%的采用人工智能的企业真正实现了预期的商业收益。要从人工智能中真正获益,企业必须找到将人类与机器紧密结合的方式,这一概念被称为“组织学习”。具体而言,许多企业在初期应用人工智能时,通常会选择那些已经具备大量可用数据且容易训练模型的低难度场景,比如客户支持分流、社交媒体情感分析以及市场营销中的客户细分等。虽然这些应用场景较为普遍,但往往并不是企业中最具价值的部分。对于成功的企业来说,要利用人工智能创造最大价值,通常应关注那些能够增强领域专家能力的应用场景。
然而,这也带来了一个问题:要利用人工智能来增强领域专家的能力,就必须让这些专家参与到模型的训练过程中。例如,一家大型医疗机构可能会选择开发一个人工智能系统,用于诊断某些特定类型的癌症。为了让人工智能完成该任务,必须使用由肿瘤学家和放射科医生等专家标注的高质量数据进行模型训练。然而,对大多数企业而言,这个过程成本过高,因为专家资源非常紧张,难以长时间投入到数据标注工作中。麻省理工学院的研究团队提出了“组织学习”的解决方案,即让领域专家与机器协作,共同学习。这种人机互学的模式被认为是人工智能成功的关键。然而,要实现这种模式并不容易,首先是领域专家本就稀缺,难以兼顾数据标注工作和日常专业任务。因此,人机互学并未完全解决企业面临的专家数量不足的核心问题。
近年来,机器教学日益受到关注,主要侧重于解决人工智能的领域专家瓶颈问题。传统的机器学习研究通常聚焦于优化学习算法或网络架构,而如今的机器教学则更关注如何提高人类在训练模型时的效率。虽然一个“更聪明的学生”(即创新的模型架构)能够用更少的样本比“普通学生”更快地学习专家知识,但这种创新往往非常稀少且难以预测。与此相比,在任何人工智能/机器学习应用中,无论“学生”模型有多么复杂,一个更高效的“老师”(即领域专家)都能产生巨大的影响,可以在同一时间内完成成百上千人的工作。
目前人工智能/机器学习实施中的最大制约因素是专家稀缺,但在现有的机器学习工作流程中,还存在其他重大障碍,妨碍各企业从投资中获得应有的回报。机器学习工作流程本身存在脱节和技术债务,导致机器学习科学家发挥的效率远低于潜在水平。此外,随着模型漂移问题的出现,几乎无法保持工作流程的敏捷性,因为发生漂移的模型需要通过新的数据进行重新训练,而这往往会耗费专家标注员大量的时间去维护原有模型管道。此外,现有的机器学习流程在可解释性方面也存在问题。如果训练数据集存在偏差且无法追溯到具体的标注员(因为标注员太多或者相应标注员已经离职),那就难以理解导致这些偏差的原因。
工作效率
软件工程师长期强调“心流状态”(Flow
State)对于编程的重要性,但在数据科学的工作流程中,这一概念并未得到足够重视。例如,在开始构建模型之前,首先需要标注好的数据才能进入下一步。然而,在项目确定后,可能还需要等待数周才能完成数据标注。这个标注过程常常是整个工作流程中最为耗时的环节,而在此环节完成之前,几乎无法进行其他任何后续工作。
“你永远都在标注数据”是机器学习专家常常带着愤怒说出的一句话。即便模型已经构建并投入使用,标注工作也没有结束。模型并不会永远保持静态。随着时间的推移,由于数据环境的变化,模型会产生漂移,性能也会下降。为了应对漂移,需要定期重新训练模型。然而,如何衡量模型漂移?尽管可以通过一些统计指标(例如Kullback-Leibler散度、Jensen-Shannon散度或Kolmogorov-Smirnov检验)来追踪模型输入和输出,但在没有具体标注数据可供参考的情况下,难以解读这些统计指标。与在开发环境中一样,通常通过查看精度、准确率、召回率等指标来评估模型性能,但这些指标都是通过将模型预测结果与标注数据对比得出的。在开发环境中,可以使用验证数据集作为基准,然而在生产环境中,唯一可用的基准标注数据,往往只能通过定期标注生产数据来获得。这一过程难以扩展,因为每个生产模型都需要持续的人力投入来进行维护。
简而言之,标注工作是机器学习工作流程中最需要反复进行的环节,也是整个过程中的关键瓶颈。由于人工标注需要耗费大量时间,现有的机器学习工作流程往往存在脱节且效率低下的问题,难以保持高效、流畅的进展状态。
敏捷性
当预测对象发生变化时,模型会受到什么影响?例如,假设你正在构建一个分类器,用以基于相关规则或法规来识别个人身份信息(PII),如果这些规则或法规发生变化,新增了某种全新的个人身份信息类型,那么模型该如何应对?
再比如,假设你是电子邮件服务数据科学团队的一员。你们团队负责管理垃圾邮件检测模型,并且曾投入大量精力,基于多个特征构建了一个高效的模型,成功识别了垃圾邮件。可是,随着时间的推移,你们发现模型的性能开始下滑,误报和漏报的比例逐渐增加。这很可能是因为输入数据发生了变化,比如,用户的行为发生了变化,可能用户现在发送邮件的频率大幅增加;或者垃圾邮件发送者改进了策略,绕过了模型的检测。
为了解决这些问题,团队需要重新标注数据并重新训练模型,但应该多久进行一次重新标注和重新训练?应该从什么时候开始提前创建新的训练数据?重新标注和重新训练的过程往往需要数周的时间,这意味着团队难以快速适应变化,尤其是在发生突发事件(比如新冠疫情爆发)时,快速响应至关重要,而目前的机器学习工作流程无法充分适应这种需求,导致响应速度较慢。
可解释性
在模型开发流程中,可解释性是大多数机器学习从业者都非常重视的一个关键概念。为了提升模型的可解释性,我们可以采取多种方法,例如使用Shapley值,或者选择本身易于解读的模型。然而,偏差问题通常来源于训练数据本身。如果标注员带有偏见,或数据采样方式本身存在偏差,则模型很容易学习到这些偏差。通过各种方法提升模型的可解释性,我们可以诊断出模型偏差,发现训练数据中的问题,但真正的挑战在于如何解读数据中标注的标签。
虽然找出数据中存在的偏见和偏差很有帮助,但更重要的问题是能否解释其中原因,例如,为什么标注员认为某条包含仇恨言论的推文不属于有毒内容?为什么标注员错误地将某份来自少数群体的信贷申请打上了不合格标签?目前,唯一能够获得这种深层次可解释性的方法就是直接询问标注员,了解他们打上某个标签的具体原因,但这并非易事。标注团队人员流动率高,标注员可能为了赶进度而无法做到充分专注,而且有时难免会出现失误。这些因素使得我们很难追溯到标注错误的根本原因,也导致数据团队难以快速解决模型中的问题。
应用场景覆盖
如前文所述,大多数企业未能从人工智能投资中获得预期回报的主要原因是,最具价值的应用场景往往需要领域专家付出大量时间和精力。目前,许多最具影响力的机器学习/人工智能解决方案都需要大量标注数据,往往被认为太难实现或成本过高,甚至不值得尝试。例如,假设你想开发一个用于检测磁共振(MRI)影像中特定类型癌症的模型,就需要大量的放射科医生和肿瘤学专家参与数据标注工作。毫无疑问,如果这类模型能够成功构建,将会带来巨大的价值,因此从影响力的角度来看,构建这类模型的理由非常明确。然而,很多企业可能只有少数几位这类领域专家,而他们的时间非常宝贵,难以投入到数据标注工作中。于是,尽管该项目存在巨大的潜在价值,但由于专家资源稀缺,商业案例难以推进,最终导致项目搁置。
几乎所有垂直行业都面临这一挑战:领域专家的成本过高,导致极具价值的模型难以获得足够的资源支持。而那些易于构建的模型往往实际价值较低。这样一来,很多企业陷入困境,难以让人工智能真正发挥出巨大的影响力。
机器教学解决方案的特性
通过聚焦于提高机器教师的效率,我们可以更有效地解决工作流程中的人工瓶颈,一举解决上述四个问题。一个高效的机器教学解决方案应具备以下特性,才能显著降低人力成本:
- 简便的数据探索领域专家应能轻松浏览数据,从中发现规律,提炼出有价值的信息。
- 表达能力强的信息和上下文捕捉接口在与数据交互的过程中,领域专家应能够记录他们发现的模式及上下文信息。例如,用户可能希望定义一个正则表达式或其他函数,大致描述某一标签所对应的数据特征。
- 紧密的反馈循环在工作过程中,领域专家应能获得平台的反馈,指导他们如何高效利用时间。这些指导可能是对领域专家已发现模式的反馈,或是平台提供的优化建议,帮助专家将精力集中在最具影响力的方面。
- 以自动化为核心最终,标注员的工作应仅限于系统完全接管前的阶段。持续维护工作流程的成本应尽可能接近零。
- 良好的可解释性和推理能力由于高度依赖自动化,机器教学平台必须具备强大的可解释性。这些系统用于训练并部署在生产环境中使用的模型,因此,关键在于能够清晰地解释“为什么标签是Y1而不是Y2”,并基于此做出相应调整。
- 机器学习专家与领域专家的职责分离在某些情况下,“领域专家”可能是机器学习从业者,但大多数时候并非如此。因此,必须明确区分两者的职责:领域专家应专注于提供专业知识,而机器学习专家则专注于从这些领域知识中进行机器学习和模型训练。将这一框架应用于上述实际问题,可以清晰地展现机器教学如何显著改善现有工作流程。
工作效率
不再需要大量标注员,通常只需一两位领域专家即可完成标注工作。
得益于高度自动化,标注过程从几周缩短为几小时或几天。
敏捷性
随着环境的变化,根据平台中提炼出的上下文进行调整时成本应该可以忽略不计。如果类别定义发生变化,或者输入数据出现漂移,平台应能轻松调整以适应这些变化。
应用场景覆盖
由于机器教学工作流不需要大量领域专家,这就能够轻松实现一些原本由于领域专家成本过高而难以实现的应用场景。只需一名领域专家花费几小时启动系统,等到自动化技术开始运作,后续就只需偶尔检查,处理模型在生产环境中出现的漂移。
可解释性
可解释性是机器教学平台的核心特性,我们能够获得比单纯模型输出更为深入的解释。通过机器教学平台,我们可以快速发现标注错误,并迅速分析原因(是概念提炼不准确?环境发生了变化?还是平台缺少足够的信号来正确理解该类别?)