DeepSeek“防弹衣”来了，模型内生安全加固方案，拒绝杀敌一千自损八百｜上海AI Lab

2025-03-13 01:10

最新研究显示，以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答，其思考过程仍可能泄露有害内容。现有防御技术深陷两难：要么防不住攻击，要么让模型变成”惊弓之鸟”，连正常问题都拒绝回答。上海交大与上海AI Lab联合推出安全防御方案——X-Boundary，试图破解两难局面。

最新研究显示，以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——

即便最终拒绝回答，其思考过程仍可能泄露有害内容。现有防御技术深陷两难：要么防不住攻击，要么让模型变成”惊弓之鸟”，连正常问题都拒绝回答。

上海交大与上海AI Lab联合推出安全防御方案——X-Boundary，试图破解两难局面。

X-Boundary通过分离安全和有害表征，并针对有害表征进行定向消除，在不损害模型通用性能且避免过度安全问题的前提下，实现精准高效的安全加固，使模型能够同时防御多种单轮和多轮攻击。

X-Boundary在DeepSeek-R1-Distill-Llama-8B上的表现如下图所示：

案例分析：当黑客发动恶意提问时，原始模型的”思维链条”会泄露危险信息（左图），而经过X-Boundary安全加固的模型如同被植入”认知净化芯片”——通过精准切除有害特征，彻底封堵信息泄漏通道（右图）。

结合基于规则的检测器，一旦发现安全风险过高导致的异常输出则终止模型思考，同步触发安全代答响应，从而实现高效和安全的兼顾。

四大防御方法首度迁移评测：安全与智能的失衡困局

当主流防御方法（SFT/DPO/GA/CB）应用在推理模型上，一个尖锐的矛盾浮出水面：模型的安全防线每加固一分，其智能水平就衰退一程。

现有的防御方法要么不奏效，要么会对推理能力造成很大的损失。实验数据显示，SFT将攻击成功率（ASR）压低的同时，也导致了DeepSeek-R1-Distill-Llama-8B的数学能力在AIME-2024基准上骤降10%，在XSTest和PHTest上还出现了系统性误判——超过50%的安全提问遭遇无理由拒绝（表3）。这暴露出当前防御策略的致命缺陷：它们并非真正识别出危险，而是通过”宁可错杀一千”的粗暴策略压低风险指标。

团队进一步将这些防御技术引入多轮攻防场景，测评后发现，多轮防御训练本身就像一把双刃剑。在Qwen2.5-7B-Chat模型中加入多轮防御数据后，安全问答的误伤率在OR-Bench和PHTest测试集上飙升30%，证明防御强度的提升与可用性损耗存在强相关性。

这种困境的根源，在特征空间的可视化分析中显露无遗——现有方法构建的安全防线模糊不清，大量边界案例（如询问毒品危害的合理问题）的表征与真正有害的表征的分布高度重合，就像安检仪无法分辨外形相似的矿泉水与易燃液体，最终导致这些安全表征被错误地分类，边界问题也被拒绝回答，模型陷入了“过度安全”的怪圈。

为大模型精准打造“内生安全系统”

面对现有防御技术”伤敌一千自损八百”的困境，团队提出X-Boundary防御框架——如同为AI建立智能安检通道，实现危险内容精准拦截与安全信息无感通行。

三步建立动态防护网

边界绘制：通过设计显式的表征分离优化目标，让危险请求的表征向量与安全表征向量形成90°垂直角，从根源切断两者混淆的可能，在表征空间强行划出“安全禁区”。
威胁瓦解：对危险表征施加不可逆的扰动，使其无法保持原始有害形态（类似文件粉碎机的不可逆擦除）。
智能保鲜：采用表征维持技术，确保绝大多数安全问题的表征不受训练影响，维持模型原生智能。

理论突破 × 实践验证

基于最优传输理论的数学证明，X-Boundary有助于使安全表征更聚集，从而加快大模型训练时的收敛速度。实验显示，在Llama-3-8B和Qwen2.5-7B模型上，训练收敛速度分别提升27%和18%（图4），实现安全防御与训练效率的双重进化。

安全与智能的平衡

“火眼金睛”区分安全和有害表征

如图5所示，X-Boundary成功在模型内部构建出明暗分界的安全防线——使大模型内部的有害表征和安全表征得到清晰的区分，彻底终结了传统方法”敌我不分”的混沌局面。

鲁棒的多轮防御与高可用性兼得

有了清晰的表征区分边界，X-Boundary能在安全性和可用性之间取得平衡（表1）：

多轮攻击防御成功率（ASR）追平现有最优方案
误伤率（Over-refusal）降至最低水平降至最低水平
模型通用能力保持99%以上原生性能

图 6 直观地展示了防御成功率与误伤率之间的权衡。X-Boundary 位于图的左下角，表明 X-Boundary 相比其他方法在两个指标之间取得了更好的平衡。

跨模型规模的稳健打击

当扩展到140亿参数的Qwen2.5-14B-Chat时（表2）：

对复杂多轮攻击的防御强度再提升65%
误伤率增幅严格锁死在5%以内
模型智商损耗不足0.6%

这意味着即使面对更大规模、更复杂的AI系统，X-Boundary依然能实现零感知防御。

作者简介

本文由上海AI Lab、上交大和电子科大联合完成。

主要作者包括上海AI Lab和上交大联培博士生卢晓雅、上海AI Lab青年研究员刘东瑞（共同一作）等。

通讯作者邵婧为上海AI Lab青年科学家，研究方向为AI安全可信。

论文地址：https://arxiv.org/abs/2502.09990项目主页：https://github.com/AI45Lab/X-Boundary

AI教父Hinton怒批万斯，对AI无知恐葬送全人类！

在巴黎AI行动峰会上，美国副总统万斯高举「美国优先」的大旗，明确表示美国仍将维持在AI领域的主导地位，欧洲对AI的监管在扼杀创新！会后，美国和英国拒绝签署关于确保AI「安全、可靠、可信」的峰会声明，拒绝相关国际承诺。 la Repubblica独家报道了诺奖得主、AI「教父」Hinton，对这种行为的猛烈抨击。

2/18/2025 9:18:28 AM

新智元

攻破AI最强守卫，赏金2万刀！Anthropic新方法可阻止95% Claude「越狱」行为

最近，Anthropic安全研究团队「有点忙」。本月4日，Anthropic在X上，邀请网友挑战新的AI防护系统。两天后，Anthropic称：目前，没有人完全越狱新系统，因此提高了赌注。

2/17/2025 2:41:31 PM

新智元

由AI驱动的虚假信息攻击或成银行致命威胁

近日，一项英国研究揭示了AI虚假信息的潜在威胁，它可能轻松引发银行客户的恐慌，甚至导致银行挤兑事件。这一发现为金融机构敲响了警钟，提醒它们必须重视并防范这一新型风险。英国研究机构“对虚假信息说不”(Say No To Disinfo)与通信专家公司费尼莫尔·哈珀(Fenimore Harper)合作，模拟了一场由AI驱动的虚假信息宣传活动。

2/26/2025 9:05:00 AM

Florian Maier

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 MiniMax MCP Server正式上线，开启多模态AI新纪元基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 OpenAI发布34页智能体实践指南：从网络搜索到代码编写

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集特斯拉 2024 AGI 大型语言模型训练

顶部