攻击 - AI在线

关于大模型「越狱」的多种方式，有这些防御手段

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]作者：罗昊京（Financial Quantitative Analyst）此项目是由伊利诺伊大学香槟分校（UIUC）的汪浩瀚教授主导，汇集了多名intern的共同努力而成。长久以来，这个

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生，此工作为其在新加坡科技局实习期间完成，实习导师为本文通讯作者郭青研究员（主页：）。本文的共同第一作者

提示词用上“过去式”，秒破 GPT-4o 等六大模型安全限制：中文语境也好使

只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。而且对 GPT-4o 尤其有效，原本只有 1% 的攻击成功率直接飙到 88%，几乎是“有求必应”。有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。只要把请求中的时间改成过去，就能让 GPT-4o 把燃烧弹和毒品的配方和盘托出。而且量子位实测发现，把提示词改成中文，

谷歌承认“窃取”OpenAI 模型关键信息：成本低至 150 元，调用 API 即可得手

什么？谷歌成功偷家 OpenAI，还窃取到了 gpt-3.5-turbo 关键信息？？？是的，你没看错。根据谷歌自己的说法，它不仅还原了 OpenAI 大模型的整个投影矩阵（projection matrix），还知道了确切隐藏维度大小。而且方法还极其简单 —— 只要通过 API 访问，不到 2000 次巧妙的查询就搞定了。成本根据调用次数来看，最低 20 美元以内（折合人民币约 150 元）搞定，并且这种方法同样适用于 GPT-4。好家伙，这一回阿尔特曼是被将军了！这是谷歌的一项最新研究，它报告了一种攻击窃取大模

「勒索」制造业

网络犯罪分子将注意力从消费者转移到了更大更肥的是鱼上——有钱、缺人、承受迅速恢复产能的巨大压力的制造业公司。然而，许多制造商都没有准备好与世界上最致命的恶意软件作斗争，即使遭受攻击，要么轻描淡写，要么讳莫如深。尽管勒索软件通常会带来巨大的成本，浪费时间和资源，给公司的声誉和品牌带来巨大的风险，并且会影响整个行业的看法，但是，随着制造商向工业4.0过渡，面对网络威胁，他们比其他行业更准备不足。比如，只有不到三分之二的制造商拥有网络安全计划，但计划位于部门响应计划最底层。越来越多的制造业企业也没有计划投资于改进网络安全