人工智能技术,特别是大规模语言模型(LLM)的不断进步,在推动各行业智能化发展的同时,也引发了安全与合规方面的重大挑战。安全团队通过红队攻击(Red-teaming)来主动发现模型的潜在漏洞,指导系统的持续优化。近年来,研究人员发现了一个令人瞩目的合规绕过技术——Redact-and-Recover(RnR)绕过方法,利用模型的部分合规行为,实现了对敏感内容的隐蔽生成,暴露了当前对齐策略中的关键弱点。Redact-and-Recover方法揭示了在模型面对敏感请求时,虽然会进行部分“内容屏蔽”来满足安全策略,但攻击者通过巧妙分步引导,能够先请求模型生成带有屏蔽标记(如[REDACTED])的回答,再通过第二阶段请求模型“恢复”被屏蔽的内容,从而获得完整的违规信息。这一过程巧妙利用了模型对文档修复或填补任务的合规判断盲区,将复杂的违规请求拆分为看似合法的两步操作,绕过了传统的整句审核与策略过滤。其核心在于模型误将“恢复被遮蔽信息”的请求视为普通的文本修复任务,失去了对原始违规意图的敏感性,从而导致安全分数(safety violation score)未被有效触发,整体生成流程绕过了对违规内容的拒绝机制。
当前主流的对齐流程通常基于奖励模型调整(如PPO、DPO或安全强化学习),该过程追求促进模型在有益性(helpfulness)与安全性(harmlessness)之间取得平衡。奖励模型通常通过衡量每次请求和生成内容的安全违规倾向与有用程度来评分,进而更新模型生成策略。然而,Redact-and-Recover攻击暴露了该策略下对复杂任务拆分的判别不足,造成了策略决策边界被跨越。攻击的两阶段——屏蔽阶段因包含标记从而显著降低了安全违规评分,恢复阶段又因缺乏危险任务上下文被误判为普通文档修复,均未触发拒绝。为了实现该攻击,研究人员设计了两种主要变体。首先是简单的“朴素”版本,依靠固定的模版分步生成,一个请求完成之后立即进入下一步恢复,适用于触发成功率较高的情况。
其次是更为复杂的“迭代精炼版”,通过保持会话上下文,并结合针对恢复结果的评分模型(scorer),在多轮交互中不断调整屏蔽与恢复的提示语,实现更高的攻击成功率和对目标模型的适应能力。研究团队在多个主流大语言模型上进行了严格的评估,涵盖OpenAI的GPT-4系列、Anthropic的Claude系列、Meta的Llama以及谷歌的Gemini模型。结果显示,针对复杂攻击任务,Redact-and-Recover方法在绕过安全检测和成功产出违规内容方面表现优异,攻击概率远超传统零次学习或提示注入等手段,攻击成功率在某些模型上甚至达到90%以上。这一发现引发了对模型安全策略的深刻反思。传统基于阈值的请求级安全分类器,依赖单轮判断和无状态设计,难以捕捉跨轮上下文的攻击意图,从而成为Redact-and-Recover攻击的突破口。面对这一挑战,研究人员提出了简单但有效的防御策略:在模型系统的一次统一指令层面明确禁止模型生成或恢复任何包含屏蔽的敏感内容。
该防御通过在系统提示中注入“禁止对敏感内容进行屏蔽与恢复”的说明,显著降低了Redact-and-Recover攻击的成功率,几乎将攻击面缩至零,表明漏洞本质上源于策略覆盖的不足而非模型本身能力不足。这项研究不仅丰富了对基于RLHF的对齐算法安全边界的理解,也彰显了主动红队测试的重要性。通过持续追踪最新攻击方法、扩展负样本集以及基于攻击反馈调整奖励模型,安全团队得以不断提升模型的鲁棒性和防御力。同时,将实时触发的攻击检测转化为自动化的监控探针,也为检测模型漂移和防护新威胁建立了坚实基础。总的来说,Redact-and-Recover绕过技术展示了大语言模型安全防护中分而治之方法的脆弱性,提醒业界必须从整体系统设计、策略覆盖以及历史对话状态管理入手,构建更加完善的合规防线。开放且动态的红队评估机制,以及对先进攻击的持续研究和快速响应,将是保障人工智能系统安全的关键。
期待未来通过多层次多维度的对齐策略,结合严密的系统提示和监控机制,能有效抵御类似Redact-and-Recover之类的精巧攻击,推动AI技术朝着更安全、更可信赖的方向健康发展。