Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

应用
7月24日
编辑

汪淼

最强大模型 Llama 3.1，上线就被攻破了。对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。设计危险病毒、如何黑掉 Wifi 也是张口就来。Llama 3.1 405B 超越 GPT-4o，开源大模型登顶了，副作用是危险也更多了。不过也不全是坏事。Llama 系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：连一个 Linux 进程都不肯“杀死”，实用性太差了。现在，3.1 版本能力加强，也终于明白了此杀非彼杀。Llama 3.1 刚上线就被攻破第一时间把 Llama 3.1 破防的，还是越狱

最强大模型 Llama 3.1，上线就被攻破了。

对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

设计危险病毒、如何黑掉 Wifi 也是张口就来。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 405B 超越 GPT-4o，开源大模型登顶了，副作用是危险也更多了。

不过也不全是坏事。Llama 系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：

连一个 Linux 进程都不肯“杀死”，实用性太差了。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

现在，3.1 版本能力加强，也终于明白了此杀非彼杀。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 刚上线就被攻破

第一时间把 Llama 3.1 破防的，还是越狱大师 @Pliny the Prompter。

在老哥手里，几乎没有一个大模型能挺得住。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Pliny 老哥在接受媒体采访时表示，一方面他不喜欢被告知自己不能做什么，并希望挑战 AI 模型背后的研究人员。

另一方面，负责任的越狱是一种红队测试，有助于识别漏洞并在它们真正成为大问题之前获得修复。

他的大致套路介绍一下，更具体就不展开了：

规定回答的格式，先让大模型用“I’m sorry”开头拒绝用户的请求。然后插入无意义的分割线，分割线后规定必须在语义上颠倒每次拒绝的前 3 个词，所以“我不能”变成“我可以”。再时不时把关键单词变成乱码把 AI 搞懵。

AI 回答的时候一看，我开头已经拒绝了呀，总体上就没有“道德负担”了。

后面在语义上颠倒每次拒绝的前 3 个词，好像也不危险。

一旦把“我可以”说出来，后面的内容按照“概率预测下一个 token”原理，概率最大的也就是把答案顺口吐露出来了。

所以这套方法，其实正是利用了前沿大模型能遵循复杂指令的能力，能力越强的模型在一定程度上也更容易上当。

最近一项研究发现，大模型还有一个更简单的安全漏洞，只要使用“过去时态”，安全措施就不好使了。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 同样也没能防住这一招。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

除了安全问题之外，目前最强大模型 Llama 3.1 405B，其他方面实力到底如何呢？

我们也趁此机会测试了一波。

最强大模型也逃不过的陷阱们

最近火爆的离谱问题“9.11 和 9.9 哪个大？”，Llama-3.1-405B 官方 Instruct 版回答的总是很干脆，但很遗憾也大概率会答错。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

如果让他解释，也会说出一些歪理来，而且聊着聊着就忘了说中文，倒不忘了带表情包。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

长期以来困扰别的大模型的难题，Llama3.1 基本也没什么长进。

比如经典的“逆转诅咒”问题，正着答会，反着答就不会了。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

最近研究中的“爱丽丝漫游仙境”问题，也需要提醒才能做对。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

不过换成中文版倒是能一次答对，或许是“爱丽丝”在中文语境中是女性名字的概率更大了。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

数字母也是会犯和 GPT-4o 一样的错误。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

那么不管这些刁钻问题，Llama 3.1 究竟用在哪些场景能发挥实力呢？

有创业者分享，8B 小模型拿来微调，在聊天、总结、信息提取任务上强于同为小模型的 GPT-4o mini + 提示词。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

更公平一些，都用微调版来比较，Llama 3.1 8B 还是有不小的优势。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

所以说 Llama 系列最大的意义，其实从来就不是官方版 Instruct 模型。而是开源之后大家根据自己需求，用各种私有数据去改造、微调它。

之前 405B 没发布的时候，就有人实验了模型合并，把两个 Llama 3 70B 缝合成一个 120B 模型，意外能打。

这次看来 Meta 自己也吸取了这个经验，我们看到的最终发布版，其实就是训练过程中不同检查点求平均得出的。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

如何打造属于自己的 Llama 3.1

那么问题来了，如何使为特定领域的行业用例创建自定义 Llama 3.1 模型呢？

背后大赢家黄仁勋，这次亲自下场了。

英伟达同日宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM™ 推理微服务，黄仁勋表示：

“Meta 的 Llama 3.1 开源模型标志着全球企业采用生成式 AI 的关键时刻已经到来。Llama 3.1 将掀起各个企业与行业创建先进生成式 AI 应用的浪潮。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

具体来说，NVIDIA AI Foundry 已经在整个过程中集成了 Llama 3.1，并能够帮助企业构建和部署自定义 Llama 超级模型。

而 NIM 微服务是将 Llama 3.1 模型部署到生产中的最快途径，其吞吐量最多可比不使用 NIM 运行推理时高出 2.5 倍。

更有特色的是，在英伟达平台，企业可以使用自有数据以及由 Llama 3.1 405B 和 NVIDIA Nemotron™ Reward 模型生成的合成数据来训练自定义模型。

Llama 3.1 更新的开源协议这次也特别声明：允许使用 Llama 生产的数据去改进其他模型，只不过用了之后模型名称开头必须加上 Llama 字样。

对于前面讨论的安全问题，英伟达也相应提供了专业的“护栏技术”NeMo Guardrails。

NeMo Guardrails 使开发者能够构建三种边界：

主题护栏防止应用偏离进非目标领域，例如防止客服助理回答关于天气的问题。

功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们能过滤掉不希望使用的语言，并强制要求模型只引用可靠的来源。

信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。

One More Thing

最后分享一些可以免费试玩 Llama 3.1 的平台，大家有感兴趣的问题可以自己去试试。

模型上线第一天，访问量还是很大的，大模型竞技场的服务器就一度被挤爆了。

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

大模型竞技场：https://arena.lmsys.org

HuggingChat：https://huggingface.co/chat

Poe：https://poe.com

给TA打赏

共{{data.count}}人

人已打赏

3.1 405B AI LLaMA 模型

重庆两江新区与吉利汽车集团、旷视科技签署战略合作协议，共建 AI 智行开放平台

2024-7-24 10:43:14

开源是未来 AI 之路，扎克伯格：Meta 要将 Llama 打造成为“AI 界的 Linux”

2024-7-24 13:51:07

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部