谷歌内部项目：大模型AI智能体发现了代码漏洞

开源数据库引擎 SQLite 有 bug，还是智能体检测出来的！通常，软件开发团队会在软件发布之前发现软件中的漏洞，让攻击者没有破坏的余地。模糊测试（Fuzzing）是一种常见的软件测试方法，其核心思想是将自动或半自动生成的随机数据输入到一个程序中，并监视程序异常。

开源数据库引擎 SQLite 有 bug，还是智能体检测出来的！

通常，软件开发团队会在软件发布之前发现软件中的漏洞，让攻击者没有破坏的余地。模糊测试（Fuzzing）是一种常见的软件测试方法，其核心思想是将自动或半自动生成的随机数据输入到一个程序中，并监视程序异常。

尽管模糊测试大有帮助，但有些漏洞难以甚至不可能通过模糊测试发现。

谷歌内部有一个名为 Project Zero 的软件安全研究团队，他们发现随着大型语言模型 (LLM) 的代码理解和一般推理能力的提高，LLM 将能够在识别和展示安全漏洞时重现人类安全研究人员的系统方法，最终弥补当前自动漏洞发现方法的一些盲点。

Project Zero 在 6 月介绍了 LLM 辅助漏洞研究框架 ——Naptime 架构，之后 Naptime 演变成了 Big Sleep 智能体，由 Google Project Zero 和 Google DeepMind 合作完成。

谷歌内部项目：大模型AI智能体发现了代码漏洞

Naptime 架构

研究团队认为：与开放式漏洞研究相比，变体分析任务更适合当前的 LLM。通过提供一个起点（例如之前修复的漏洞的详细信息），可以消除漏洞研究中的很多歧义：「这是一个以前的错误；某个地方可能还有另一个类似的错误。」

现在，Big Sleep 智能体发现了第一个现实软件漏洞：SQLite 中可利用堆栈缓冲区下溢。

研究团队收集了 SQLite 存储库中最近的一些提交，手动删除了琐碎的和仅用于文档的更改，然后调整了 prompt，为智能体提供提交消息（commit message）和更改的差异，要求智能体检查当前存储库是否存在可能尚未修复的相关问题。

简单来说，SQLite 这个漏洞是在索引类型字段 iColumn 中使用了特殊的 sentinel 值 -1：

7476:   struct sqlite3_index_constraint {

7477:      int iColumn;              /* Column constrained.  -1 for ROWID */

7478:      unsigned char op;         /* Constraint operator */

7479:      unsigned char usable;     /* True if this constraint is usable */

7480:      int iTermOffset;          /* Used internally - xBestIndex should ignore */

7481:   } *aConstraint;            /* Table of WHERE clause constraints */

这创建了一个潜在的边缘情况，而函数 seriesBestIndex 无法正确处理这种边缘情况，导致在处理对 rowid 列有约束的查询时，将负索引写入堆栈缓冲区。在研究团队提供给智能体的构建中，启用了调试断言（debug assertion），并且此条件由第 706 行的断言检查：

619 static int seriesBestIndex(
620   sqlite3_vtab *pVTab,

621   sqlite3_index_info *pIdxInfo

622 ){

...

630   int aIdx[7];           /* Constraints on start, stop, step, LIMIT, OFFSET,

631                          ** and value.  aIdx[5] covers value=, value>=, and

632                          ** value>,  aIdx[6] covers value<= and value< */

633   const struct sqlite3_index_constraint *pConstraint;

...

642   for(i=0; i<pIdxInfo->nConstraint; i++, pConstraint++){

643     int iCol;    /* 0 for start, 1 for stop, 2 for step */

644     int iMask;   /* bitmask for those column */

645     int op = pConstraint->op;

...

705     iCol = pConstraint->iColumn - SERIES_COLUMN_START;

706     assert( iCol>=0 && iCol<=2 );

707     iMask = 1 << iCol;

...

713     if( pConstraint->usable==0 ){

714       unusableMask |=  iMask;

715       continue;

716     }else if( op==SQLITE_INDEX_CONSTRAINT_EQ ){

717       idxNum |= iMask;

718       aIdx[iCol] = i;

719     }

720   }

然而，实际上这个断言并不存在，因此该漏洞可能会被恶意利用。幸运的是，该团队在正式版本出现之前就发现了这个问题，因此 SQLite 用户没有受到影响。

毫无疑问的是，智能体在这次漏洞查找中起了关键作用，这也表明智能体在软件安全方面具备很大的应用潜力。

参考链接：

https://googleprojectzero.blogspot.com/2024/10/from-naptime-to-big-sleep.html

{{userData.name}}已认证

谷歌内部项目：大模型AI智能体发现了代码漏洞

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

DeepL 推出首个语音翻译解决方案 DeepL Voice，号称消除虚拟会议中语言障碍

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天