牛津、斯坦福大学新研究：能思考的 AI 推理模型更易受到越狱攻击_资讯

创始人

2025-11-08 23:01:56

IT之家 11 月 8 日消息，据《财富》杂志网站 11 月 7 日报道，最新研究显示，先进人工智能模型比人们之前想象的更容易被入侵，使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。

Anthropic、牛津大学和斯坦福大学联合进行的研究表明，模型推理（即“思考”用户请求）能力越强，并不意味着越能拒绝有害指令。

研究人员使用一种名为“链式思维劫持（Chain-of-Thought Hijacking）”的新方法发现，即使是主要商业 AI 模型也能被轻易欺骗，在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤，将有害指令隐藏其中，从而绕过 AI 内置的安全防护。

这种攻击可能让 AI 忽略安全防护，从而生成危险内容，例如武器制作指南或泄露敏感信息。

过去一年，大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说，模型在回答每个问题前会花更多时间和资源进行分析，实现更深层次、更复杂的推理。此前研究认为，这种推理能力也可能提升安全性，帮助模型拒绝有害请求。但研究显示，这种能力同样可能被用来规避安全措施。

研究发现，攻击者可以将有害请求藏在一长串无害推理步骤中，通过大量无害内容淹没模型的思维过程，从而削弱内部安全检查。在实验中，AI 的注意力主要集中在前面步骤，而提示末尾的有害指令几乎被忽视。

随着推理链延长，攻击成功率显著上升：推理最短时成功率为 27%，自然推理长度时为 51%，扩展推理链时则飙升至 80% 以上。

这一漏洞几乎影响所有主要 AI 模型，包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”，一旦内部推理层被利用，也会失效。

IT之家从报道中获悉，过去一年，扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题，不再只是模式匹配，而更像人类解决问题的方式。

研究人员提出“推理感知防护”作为解决方案，该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号，系统会进行干预，将注意力重新引导到潜在有害内容上。早期测试显示，这种方法既能保持模型良好表现，又能有效恢复安全防护。

参考

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。