AI在线 AI在线

不可信任的人工智能:如何处理数据中毒?

作者: 布加迪
2025-02-18 08:00
译者 | 布加迪审校 | 重楼现代技术远非万无一失——比如说,我们可以看到,众多漏洞不断涌现出来。 虽然通过设计保证安全的系统是一条屡试不爽的最佳实践,但这么做可能会分流来自其他方面的资源,比如用户体验(UX)设计、性能优化以及与其他解决方案及服务的互操作性。 因此,安全常常退居次席,只满足最低限度的合规要求。

译者 | 布加迪

审校 | 重楼

现代技术远非万无一失——比如说,我们可以看到,众多漏洞不断涌现出来。虽然通过设计保证安全的系统是一条屡试不爽的最佳实践,但这么做可能会分流来自其他方面的资源,比如用户体验(UX)设计、性能优化以及与其他解决方案及服务的互操作性。

不可信任的人工智能:如何处理数据中毒?

因此,安全常常退居次席,只满足最低限度的合规要求。如果涉及敏感数据,这种取舍尤其令人担忧,因为这类数据需要与其重要性相对应的保护。如今,在人工智能和机器学习系统中,安全措施不到位的风险越来越明显。在这类系统中,数据是其功能的基础。

什么是数据中毒?

人工智能/机器学习模型立足于核心训练数据集,这些数据集通过监督式学习和非监督式学习不断更新。机器学习是实现人工智能的主要途径,机器学习支持深度学习,以开发人工智能的许多功能。数据越多样化、越可靠,模型的输出就越准确、越有用。因此在训练期间,这些模型需要访问大量的数据。

另一方面,依赖大量数据也带来了风险,因为未经验证或审查不力的数据集增加了结果不可靠的可能性。众所周知,生成式人工智能、尤其是大语言模型(LLM)及其分支(比如人工智能助手)特别容易受到恶意篡改模型的攻击。

最阴险的威胁之一是数据(或数据库)中毒,即攻击者试图改变模型的行为,导致模型生成不正确、有偏见甚至有害的输出。这种篡改行为带来的后果可能波及整个应用程序,破坏信任,并给个人和组织都带来系统性风险。

数据中毒的类型

数据中毒攻击有多种类型,例如:

  • 数据注入:攻击者将恶意数据点注入到训练数据中,使人工智能模型改变其行为。一个典例是,在线用户慢慢地改变Tay Twitter机器人程序,以发布攻击性推文。
  • 内部攻击:与常规的内部威胁一样,员工可能会滥用访问权限来改变模型的训练集,一点点改变以篡改模型的行为。内部攻击尤其阴险,因为它们利用了合法访问权。
  • 触发器注入:这种攻击将数据注入到人工智能模型的训练集以创建触发器。这使攻击者能够绕过模型的安全机制,根据设置的触发器在各种情况下操纵其输出。检测这种攻击存在的挑战在于,很难发现触发器;此外在触发器被激活之前,威胁一直潜伏着。
  • 供应链攻击:这些攻击的影响可能特别可怕。由于人工智能模型经常使用第三方组件,在供应链过程中引入的漏洞最终会危及模型的安全,并使其易于被利用。

随着人工智能模型被深深地嵌入商业系统和消费者系统中,充当助手或生产力倍增器,针对这些系统的攻击正成为一个重大问题。

虽然企业人工智能模型可能不会与第三方共享数据,但它们仍然会获取内部数据以改进输出。它们需要访问敏感信息宝库,这使得它们成为高价值目标。消费者模型面临的风险进一步加大,因为它们通常与其他有关方共享用户的提示(通常充满敏感数据)。

如何确保机器学习/人工智能开发安全?

机器学习/人工智能模型的预防策略需要开发人员和用户都加强安全意识。主要策略包括如下:

  • 持续检查和审计:重要的是要不断检查和验证馈入到人工智能/机器学习模型的数据集的完整性,以防止恶意操纵或有偏见的数据损害它们。
  • 关注安全:人工智能开发人员本身可能最终成为攻击者的瞄准目标,因此拥有安全环境对于安全开发必不可少。这种环境可以提供一种预防优先的方法,通过主动预防、早期检测以及系统性安全检查,尽量缩小攻击面。
  • 对抗性训练:如前所述,模型通常由专业人员监督以指导其学习。同样的方法可以用来教模型区分恶意数据点和有效数据点,最终帮助阻止中毒攻击。
  • 零信任和访问管理:为了防御内部威胁和外部威胁,应该使用可以监视未经授权访问模型核心数据的安全解决方案。这样,可以更容易地发现和防止可疑行为。此外,零信任确保默认情况下没有人是可信任的,在授予访问权之前需要进行多重验证。

通过设计保证安全

构建通过设计保证安全的人工智能/机器学习平台不仅大有助益,还势在必行。就像虚假信息会影响人们做出有害和极端的行为一样,中毒的人工智能模型也会导致有害的结果。

随着世界越来越关注与人工智能开发相关的潜在风险,平台创建者应该扪心自问:自己是否做了足够的工作来保护模型的完整性。消除偏见、不准确和漏洞以免它们造成危害需要成为开发方面的一个核心优先事项。

随着人工智能进一步融入到我们的生活中,确保人工智能系统安全只会越来越重要。企业、开发人员和政策制定者还必须共同努力,确保人工智能系统能够抵御攻击。这样一来,我们才可以在不牺牲安全、隐私和信任的情况下发掘人工智能的潜力。

原文标题:Untrustworthy AI: How to deal with data poisoning,作者:Márk Szabó

相关标签:

相关资讯

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

编辑 | ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答(openQA
7/24/2024 2:36:00 PM
ScienceAI

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室(LANL)开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献,该项目正在训练人工智能模型,以帮助推动看似不同领域的科学发现。 这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果,为基础模型数据集提供了独特的代码,可以帮助训练人工智能模型,使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。 中子星并合是指两个中子星互相绕转,释放引力波,轨道能量损失,最终在剧烈碰撞、释放引力波暴之后合二为一。
12/19/2024 2:08:35 PM
AI情报室

麻省理工研究人员提高机器学习模型准确性

机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。 然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。 预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。
12/23/2024 1:28:22 PM
AI情报室