如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛恣意中展现出了通用性和有效性。这些被称为「AI 迷信家」的 Agent 已经开始探寻其在生物学和化学等各种范畴内举行自决迷信发觉的潜力。此类 Agents 已经表现出了选择适合恣意的对象,规划情况条件,以及实现实行自动化的才能。因此,Agent 可摇身一变成为真实的迷信家,能够有效地设计和开展实行。在某些范畴如化学设计中,Agent 所展现的才能已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛恣意中展现出了通用性和有效性。这些被称为「AI 迷信家」的 Agent 已经开始探寻其在生物学和化学等各种范畴内举行自决迷信发觉的潜力。此类 Agents 已经表现出了选择适合恣意的对象,规划情况条件,以及实现实行自动化的才能。

因此,Agent 可摇身一变成为真实的迷信家,能够有效地设计和开展实行。在某些范畴如化学设计中,Agent 所展现的才能已经超过了大部分非专业人士。然而,当我们享受着这种自动化 Agents 所发挥的优势时,也必须注意到其潜伏的危险。随着他们的才能接近或超过人类,监控他们的行为并防止其造成伤害变得越来越具有重要性和挑战性。

LLMs 驱动的智能 Agents 在迷信范畴的独特性在于其能够自动规划和采取必要的行动以完成目标。他们可以自动访问一定的生物数据库和举行化学实行等。例如,让 Agents 发觉新的化学反应。它能够会首先访问生物数据库获取现有数据,然后利用 LLMs 假设新的推理路径,并利用机器人举行迭代性的实行测试。这种用于迷信发觉的 Agents 的范畴才能和自决性使得它们容易受到各种危险的影响。

在最新的一篇论文中,来自耶鲁、NIH、Mila、上交等多个机构的学者明确并划定了「用于迷信发觉的 Agents 的危险」,为未来在监督机制和危险缓解策略的发展方面提供了指南,以确保 LLM 驱动的 Scientific Agents 在真实应用中的危险性、高效性并且符合道德约束。

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

论文标题:Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

论文链接:https://arxiv.org/abs/2402.04247

首先,作者们对迷信 LLM Agents 能够消失的危险举行了周到的概述,包括从用户企图、具体的迷信范畴以及对外部情况的潜伏危险。然后,他们深入探讨了这些脆弱性的来源,并回顾了比较有限的相关研究。在对这些研究举行分析的基础上,作者们提出了一个由人类管控、Agents 对齐、情况反应理解(Agents 管控)三者构成的框架,以应对这些被识别出的危险。

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

具体来说,这篇立场论文揭示了在迷信范畴中滥用 Agents 所带来的危险及应对策略。具有大型语言模型的智能 Agents 面临的主要危险体现在三个方面:用户企图危险,范畴危险和情况危险。用户企图危险在于LLM用于迷信发觉的 Agents 能够被恶意用来执行不道德或非法的迷信实行。虽然Agents 的智能才能取决于设计的目标,但若无充分的人类监管, Agents 仍有能够被用于执行有损人类福祉或破坏情况的实行。

用于迷信发觉的 Agents 在这里被定义为具有执和者自决实行的才能的系统。特别地,本文关注的是那些具有大型语言模型(LLM)的用于迷信发觉的 Agents,它们可以处理实行,规划情况条件,选择适合实行的对象,以及对自己的实行结果举行分析和解释。例如,它们或许能够以一种更自决的方式推动迷信发觉。

文章所讨论的「用于迷信发觉的 Agents」(Scientific Agents),能够包含一个或多个机器学习模型,包括能够有一个或多个预训练的LLMs。在这个背景下,危险被定义为能够危害人类福祉或情况危险的任何潜伏结果。这个定义鉴于该文的讨论,有三个主要危险区域:

用户企图危险:Agents 能够尝试满足恶意用户的不道德或非法的目标。

范畴危险:包括由于 Agents 接触或操作高危险物质,在一定迷信范畴(如生物或化学)中能够消失的危险。

情况危险:这是指 Agents 能够对情况产生直接或间接的影响,或者无法预测的情况应对。

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

如上图所示,其展示了 Scientific Agents 的潜伏危险。子图 a,根据用户企图的起源分类危险,包括直接和间接的恶意企图,以及意料之外的后果。子图 b,根据 Agents 应用的迷信范畴分类危险类型,包括化学,生物,放射,物理,信息,和新兴技术。子图 c,根据对外部情况的影响分类危险类型,包括自然情况,人类健康,和社会经济情况。子图 d,根据在 a、b、c 中显示的相应图标,展示了具体危险实例及其分类。

范畴危险涉及到 LLM 用于迷信发觉的 Agents 在一定的迷信范畴内操作时能够产生的不利后果。例如,在生物学或化学范畴利用 AI 迷信家能够会意外地或者不知道如何处理具有高危险的物质,例如放射性元素或者生物危害物质。这能够会导致过分的自决性,进而引发人身或情况灾难。

对情况的影响是除一定迷信范畴外的另一大潜伏危险。当用于迷信发觉的 Agents 的活动影响到了人类或非人类情况时,它能够会引发新的危险威胁。例如,在未经编程以防止对情况造成无效或有害影响的情况下,AI 迷信家能够会对情况做出无益的和有毒的干扰,比如污染水源或破坏生态平衡。

在该文中,作者们重点关注的是由 LLM 迷信 Agents 引起的全新危险,而不是已经消失的,由其他类型的 Agents(例如,由统计模型驱动的Agents)或一般迷信实行引起的危险。在揭示这些新危险的同时,该文强调了设计有效的防护措施的必要性。作者列出了 14 种能够的危险源,它们统称为 Scientific Agents 的脆弱性。

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

这些自决 Agents 通常包括五个基本模块:LLMs、计划、行动、外部对象、记忆和学问。这些模块在一个顺序管道中运作:从恣意或用户接收输入,利用记忆或学问举行计划,执行较小的预谋恣意(通常涉及迷信范畴的对象或机器人),最后将结果或反应存储在他们的记忆库中。尽管应用广泛,但这些模块中消失一些显着的脆弱性,导致了独特的危险和实际挑战。在此部分,该文对每个模块的高级概念提供了概述,并总结了与它们相关的脆弱性。

1. LLMs(基础模型)

LLMs 赋予 Agents 基本才能。然而,它们本身消失一些危险:

事实错误:LLMs 容易产生看似合理但是错误的信息。

容易受到越狱攻击:LLMs 易受到绕过危险措施的操控。

推理才能缺陷:LLMs 通常在处理深度逻辑推理和处理复杂迷信论述方面消失困难。他们无法执行这些恣意能够会导致有缺陷的计划和交互,因为他们能够会利用不适当的对象。

缺少最新学问:由于 LLMs 是在预先消失的数据集上举行训练的,他们能够缺少最新的迷信发展情况,导致能够与现代迷信学问产生错位。尽管已经出现了检索增强的生成(RAG),但在寻找最新学问方面还消失挑战。

2.规划模块

对于一个恣意,规划模块的设计是将恣意分解成更小、更易于管理的组成部分。然而,以下脆弱性消失:

对长期规划中的危险缺少意识:Agents 通常难以完全理解和考虑他们的长期行动计划能够带来的潜伏危险。

资源浪费和死循环:Agents 能够会参与低效的规划过程,导致资源浪费并陷入非生产性的循环。

不足的多恣意规划:Agents 通常在多目标或多对象恣意中消失困难,因为它们被优化用来完成单一恣意。

3.行动模块

一旦恣意被分解,行动模块就会执行一系列的行动。然而,这个过程引入了一些一定的脆弱性:

威胁识别:Agents 经常忽视微妙和间接的攻击,导致脆弱性。

对人机交互缺少规定:迷信发觉中 Agents 的出现强调了需要道德准则,尤其是在与人类在诸如遗传学等敏感范畴的互动中。

4.外部对象

在执行恣意的过程中,对象模块为 Agents 提供了一套有价值的对象(例如,化学信息学对象包,RDKit)。这些对象赋予了 Agents 更强大的才能,使他们能够更有效地处理恣意。然而,这些对象也带来了一些脆弱性。

对象利用中的监督不足:缺少对 Agents 如何利用对象的有效监督。

在潜伏危害的情况。例如,对象的选择不正确或误用能够触发危险的反应,甚至爆炸。Agents 能够并不完全意识到他们利用的对象所带来的危险,特别是在这些专门的迷信恣意中。因此,通过从现实世界的对象利用中学习,增强危险保护措施是至关重要的(OpenAI,2023b)。

5.记忆和学问模块

LLMs 的学问在实践中能够会变得混乱,就像人类的记忆故障一样。记忆和学问模块试图缓解这个问题,利用外部数据库举行学问检索和集成。然而,仍然消失一些挑战:

范畴一定危险学问的限制:Agents 在生物技术或核工程等专业范畴的学问短板能够会导致危险关键的推理漏洞。

人类反应的限制:不充分、不均匀或低质量的人类反应能够会阻碍 Agents 与人类价值和迷信目标的对齐。

不充分的情况反应:Agents 能够无法接收或正确解析情况反应,比如世界的状态或其他 Agents 的行为。

不可靠的研究来源:Agents 能够会利用或在过时或不可靠的迷信信息上举行训练,从而导致错误或有害学问的传播。

如果 LLM Agent 成为了迷信家:耶鲁、NIH、Mila、上交等学者共同呼吁危险防范的重要性

该文同时对 LLMs 和 Agents 的危险防护的相关工作做了调查,并举行总结。关于该范畴的限制和挑战,尽管有许多研究都已经增强了迷信 Agents 的才能,但是只有少数的努力考虑到了危险机制,唯独 SciGuard 开发了一个专门用于危险控制的 Agents。在这里,该文总结了四个主要的挑战:

(1)缺少用于危险控制的专门模型。

(2)缺少范畴一定的专家学问。

(3)利用对象引入的危险。

(4)到目前为止,缺少评估迷信范畴危险性的基准测试。

因此,解决这些危险需要系统性的解决方案,尤其是结合人类的监管,更加准确地对齐理解 Agents 以及对情况反应的理解。这个框架的三个部分不仅需要独立举行科研,同时也需要相互交叉以求得最大化的防护效果。

虽然这种措施能够会限制用于迷信发觉的 Agents 的自决性,但危险性和道德原则应优于更广泛的自决性。毕竟,对人类以及情况产生的影响能够很难逆向修复,而公众对用于迷信发觉的 Agents 的挫败感过高也能够会对其未来的接受性产生消极影响。尽管花费更多的时间和精力,但该文相信只有周到的危险控制并发展相应的防护措施,才能真正实现用于迷信发觉的 Agents 从理论到实践的转化。

此外,他们还强调了保护用于迷信发觉的 Agents 的限制和挑战,并提倡开发出更强大的模型、更健壮的评价标准和更周到的规则来有效缓解这些问题。最后,他们呼吁,当我们开发和利用用于迷信发觉的 Agents 时,应将危险控制优先于更强大的自决才能。

尽管自决性是一个值得追求的目标,能在各个迷信范畴中极大地提升生产力,但我们不能为了追求更多的自决才能,而产生严重的危险和漏洞。因此,我们必须平衡自决性和危险性,并采取周到的策略,以确保用于迷信发觉的 Agents 的危险部署和利用。我们也应从关注产出的危险性转向关注行为的危险性,在评估 Agents 的产出的准确性的同时,也要考虑 Agents 的行动和决策。

总的来说,这篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》对由大型语言模型(LLMs)驱动的智能 Agents 在各个迷信范畴中自决举行实行与推动迷信发觉的潜力举行了深度分析。尽管这些才能充满希望,也带来了新的脆弱性,需要举行细致的危险考量。然而,目前文献研究中消失明显的空白,因为还没有周到探讨这些脆弱性。为了填补这一空缺,这篇立场文将对迷信范畴中基于 LLM 的 Agents 的脆弱性举行深入的探讨,揭示了滥用他们的潜伏危险,强调了实施危险措施的必要性。

首先,该文提供了对迷信 LLMAgents 一些潜伏危险的周到概述,包括用户企图,一定的迷信范畴,以及他们对外部情况的能够影响。然后,该文深入研究了这些脆弱性的起源,并对现有的有限研究举行了回顾。

在这些分析的基础上,该文提出了一个由人类监管、Agents 对齐、以及对情况反应理解(Agents 监管)构成的三元框架,以减少这些明确的危险。更进一步,该文特别强调了保护用于迷信发觉的 Agents 所面临的局限性和挑战,并主张发展更好的模型、鲁棒性更加强大的基准,以及建立周到的规定,有效地解决了这些问题。

最后,该文呼吁,在开发和利用用于迷信发觉的 Agents 的时候,要将危险控制优先于追求更强大的自决才能。

尽管自决性是一个值得追求的目标,在各种迷信范畴里,它都有增强生产力的巨大潜力。然而,我们不能以产生严重危险和脆弱性的代价来追求更强大的自决性。因此,我们必须在自决性和危险性之间寻找平衡,并采取周到的策略,以确保用于迷信发觉的 Agents 的危险部署和利用。而我们的侧重点也应该从输出的危险性转移到行为的危险性,这意味着我们需要周到评估用于迷信发觉的 Agents,不仅审查其输出的准确性,还审查其运作和决策方式。行为危险在迷信范畴里非常关键,因为在不同的情况下,同样的行动能够会导致完全不同的后果,有些能够是有害的。因此,该文建议以人类、机器和情况三者之间的关系为重点,尤其是注重健壮、动态的情况反应。

给TA打赏
共{{data.count}}人
人已打赏
理论

超越AF2?Iambic、英伟达、加州理工学院开发多标准深度生成模型,进行状态特异性蛋白质-配体复合物构造展望

2024-2-20 11:51:00

理论

GPT-4可能也在用的推断解码是什么?一文综述前世今生和利用情况

2024-2-20 14:26:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索