成功率达 53%,研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道,研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站,这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是,他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞(zero-day vulnerabilities)。图源 Pexels早在几个月前,同一批研究人员就发表了一篇论文,声称他们能够使用 GPT-4 自动利用“N day”漏洞,即业界已知但尚未修复的漏洞。实验中,GPT-4 仅凭已知的常见漏洞和披露列表 (CVE),就能自主利用其中 87%

据 NewAtlas 报道,研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站,这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是,他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞(zero-day vulnerabilities)。

成功率达 53%,研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

图源 Pexels

早在几个月前,同一批研究人员就发表了一篇论文,声称他们能够使用 GPT-4 自动利用“N day”漏洞,即业界已知但尚未修复的漏洞。实验中,GPT-4 仅凭已知的常见漏洞和披露列表 (CVE),就能自主利用其中 87% 的严重级别漏洞。

本周,这支研究团队发布了后续论文,称他们已经攻克了“零日”漏洞,也就是那些尚未被发现的漏洞。他们使用了一种名为 “任务特定智能体分层规划”(HPTSA) 的方法,让一群自主传播的大型语言模型 (LLM) 协同作战。

IT之家注意到,与以往由单个 LLM 尝试解决所有复杂任务不同,HPTSA 方法采用了“规划智能体” 负责整个过程的监督,并派生多个用于特定任务的“子智能体”。就像老板和下属一样,规划智能体负责协调管理,将任务分配给各个“专家子智能体”,这种分工方式减轻了单个智能体在难以攻克的任务上的负担。

在针对 15 个真实网络漏洞的测试中,HPTSA 在利用漏洞方面比单个 LLM 的效率高出 550%,并且成功利用了其中的 8 个零日漏洞,成功率达 53%,而单打独斗的 LLM 只利用了 3 个漏洞。

研究人员之一、白皮书作者丹尼尔・康 (Daniel Kang) 特别指出,人们担心这些模型会被恶意用于攻击网站和网络,这的确是合理担忧。但他同时强调,聊天机器人模式下的 GPT-4“不足以理解 LLM 的能力”,本身无法进行任何攻击。

当 NewAtlas 的编辑询问 ChatGPT 它是否能利用零日漏洞时,它回答说:“不,我不能利用零日漏洞。我的目的是在道德和法律框架内提供信息和帮助。”并建议其咨询网络安全专业人士。

相关资讯

远程 “闻” 香,数字嗅觉公司 Osmo 用 AI 技术实现气味“传送”

一家名为 Osmo 的“数字嗅觉”公司宣布,已成功利用 AI 技术分析一个位置的气味,并在无需人工干预的情况下在其他地方复制它。 气味隐形传态使用传感器收集气味,并通过气相色谱质谱仪 (GC / MS) 进行分析。 然后,数据被传输到专门的分子打印机,它可以合成和组合精确再现气味所需的化学物质。

谷歌内部项目:大模型 AI 智能体发现了代码漏洞

开源数据库引擎 SQLite 有 bug,还是智能体检测出来的! 通常,软件开发团队会在软件发布之前发现软件中的漏洞,让攻击者没有破坏的余地。 模糊测试 (Fuzzing)是一种常见的软件测试方法,其核心思想是将自动或半自动生成的随机数据输入到一个程序中,并监视程序异常。

GPT-4 化身黑客搞破坏,成功率 87%!OpenAI 要求保密提示词,网友复现 ing

91 行代码、1056 个 token,GPT-4 化身黑客搞破坏!测试成功率达 87%,单次成本仅 8.8 美元 (折合人民币约 63 元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后,学会利用漏洞攻击,而其它模型成功率为 0。研究人员表示,OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回