AI机器人的头号威胁：大模型越狱

2024-12-13 03:41

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人执行极具破坏性的任务，例如控制自动驾驶系统撞向行人，或者将机器狗引导到敏感地点实施爆炸任务。从文本到行动：大模型赋能机器人大语言模型的核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人执行极具破坏性的任务，例如控制自动驾驶系统撞向行人，或者将机器狗引导到敏感地点实施爆炸任务。

AI机器人的头号威胁：大模型越狱

从文本到行动：大模型赋能机器人

大语言模型的核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。然而，大模型远不止文字处理这么简单。它们能够分析文本、图像和音频，为用户提供个性化的旅行建议、根据冰箱内食材生成食谱，甚至帮助搭建网站。

这种强大的文本处理能力已经吸引了多家公司尝试将大模型与机器人结合。比如，波士顿动力的机器人犬Spot现已整合ChatGPT，可以作为导游提供服务。同样，Figure的类人机器人和优必选（Unitree）的Go2机器人犬也都配备了ChatGPT作为交互接口。

“越狱”威胁：从聊天机器人到机器人“劫持”

尽管大模型的能力令人惊叹，但研究人员发现其存在重大安全漏洞——“越狱攻击”。通过特定的提示，这些攻击可以绕过模型的安全机制，让AI生成敏感内容，如炸弹制作方法、非法药物合成配方等。

相比于在聊天机器人上的越狱，机器人越狱显得更加危险。宾夕法尼亚大学电气与系统工程副教授哈梅德·哈萨尼指出，机器人越狱可能引发更为严重的现实后果。例如，一位油管博主曾通过语音指令操控一只配备火焰喷射器的Thermonator机器狗朝自己喷火。

“大模型驱动的机器人在现实世界中的越狱威胁将达到全新的高度，”耶鲁大学计算机科学教授阿明·卡巴西（Amin Karbasi）表示。他强调，这些机器人在越狱后不仅会执行恶意指令，甚至会主动提出破坏性建议。比如，一台越狱的机器人可能会将普通家具描述为潜在的武器。

研究人员表示，他们已在公开研究前将发现告知了相关机器人制造商和主要AI公司，但他们并不建议停止将大模型用于机器人开发，而是希望这些研究能促使厂商部署更强大的安全防御措施。

RoboPAIR：万能的机器人越狱工具

在最新研究中，科学家开发了一种名为RoboPAIR的算法，能够攻击任何大模型驱动的机器人。在实验中，RoboPAIR成功攻破了三种不同的机器人系统，包括基于Go2平台的机器人犬、搭载ChatGPT的Clearpath Robotics Jackal轮式机器人，以及Nvidia开源的Dolphins LLM自驾车模拟器。

RoboPAIR通过一个攻击性LLM生成提示词，测试目标机器人系统的反应，并不断调整提示，直到成功绕过安全过滤。该算法甚至结合了机器人的应用程序接口（API），以便生成可直接执行的代码，并通过“裁判”LLM验证提示的可操作性。

AI安全的未来：从监督到意图理解

专家指出，这项研究凸显了当前大模型在理解上下文和后果方面的不足，强调在高风险环境中加强人工监督的重要性。同时，开发能够理解用户意图和环境背景的上下文感知大模型，可能是防止越狱攻击的关键。

“尽管开发上下文感知的大模型具有挑战性，但通过跨学科的研究，这一目标是可以实现的，”智能系统与机器人专家哈基·塞维尔补充道。他认为，未来需要AI技术与伦理和行为建模的深入结合。

研究团队计划将他们的研究成果提交至2025年IEEE国际机器人与自动化会议，为大模型机器人的安全防御研究指明方向。这场关于AI安全的竞赛才刚刚开始，但其重要性已不容忽视。

性能依旧领先！OpenAI深夜上线o3满血版和o4 mini

昨天晚上 1 点，OpenAI 的直播如约而至。其实在预告的时候，几乎已经等于明示了。没有废话，发布的就是 o3 和 o4-mini。

4/18/2025 1:02:47 AM

数字生命卡兹克

道阻且长，行则将至 | 安远AI x 机器之心系列讲座圆满结束

历时一个月，安远AI与机器之心联合举办的「迈向安全、可靠、可控的人工智能」六场系列讲座圆满结束，我们邀请了全球顶尖人工智能机构专家分享强化学习、预训练大模型、通用人工智能等内容。这六位专家分享了他们的真知灼见，并对人工智能与人类的未来展现出忧虑与希望：第1期：「寻找AGI的安全路径」不正确的微调或目标的错误泛化可能会导致AGI追求一个不正确的目标。如果足够智能，这种未对齐（unaligned）的AGI将导致灾难性的后果。 —DeepMind研究科学家Rohin Shah第2期：「人类与AI的共生演化」AI技术的

8/9/2022 6:59:00 PM

新闻助手

瑞莱智慧完成新一轮战略融资，加速打造中国AGI安全基座

近日，人工智能安全基础设施提供商瑞莱智慧（RealAI）宣布完成新一轮战略融资，北京市人工智能产业投资基金等参与投资。本轮融资完成后，瑞莱智慧将继续加速通用人工智能安全基座产品研发，并不断推进安全可控的大模型商业化落地。随着全球范围内最大规模的人工智能浪潮掀起，人工智能的可控性和安全性成为愈发重要的发展议题。如今，人工智能大模型的通用性和泛化性大幅提升，应用也从传统的判别式任务走向生成式任务，而人工智能的内生及衍生安全问题变得愈加复杂，其带来的挑战和已经引起的各类风险事件也持续受到全球公众、企业和政府的广泛关注。当

4/12/2024 12:44:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

AI机器人的头号威胁：大模型越狱

从文本到行动：大模型赋能机器人

“越狱”威胁：从聊天机器人到机器人“劫持”

RoboPAIR：万能的机器人越狱工具

AI安全的未来：从监督到意图理解

相关资讯

性能依旧领先！OpenAI深夜上线o3满血版和o4 mini

道阻且长，行则将至 | 安远AI x 机器之心系列讲座圆满结束

瑞莱智慧完成新一轮战略融资，加速打造中国AGI安全基座