牛津、斯坦福大学新研究:能思考的 AI 推理模型更易受到越狱攻击
创始人
2025-11-08 23:01:56

IT之家 11 月 8 日消息,据《财富》杂志网站 11 月 7 日报道,最新研究显示,先进人工智能模型比人们之前想象的更容易被入侵,使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。

Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型推理(即“思考”用户请求)能力越强,并不意味着越能拒绝有害指令。

研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤,将有害指令隐藏其中,从而绕过 AI 内置的安全防护。

这种攻击可能让 AI 忽略安全防护,从而生成危险内容,例如武器制作指南或泄露敏感信息

过去一年,大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说,模型在回答每个问题前会花更多时间和资源进行分析,实现更深层次、更复杂的推理。此前研究认为,这种推理能力也可能提升安全性,帮助模型拒绝有害请求。但研究显示,这种能力同样可能被用来规避安全措施

研究发现,攻击者可以将有害请求藏在一长串无害推理步骤中,通过大量无害内容淹没模型的思维过程,从而削弱内部安全检查。在实验中,AI 的注意力主要集中在前面步骤,而提示末尾的有害指令几乎被忽视。

随着推理链延长,攻击成功率显著上升:推理最短时成功率为 27%,自然推理长度时为 51%,扩展推理链时则飙升至 80% 以上。

这一漏洞几乎影响所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”,一旦内部推理层被利用,也会失效。

IT之家从报道中获悉,过去一年,扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题,不再只是模式匹配,而更像人类解决问题的方式。

研究人员提出“推理感知防护”作为解决方案,该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号,系统会进行干预,将注意力重新引导到潜在有害内容上。早期测试显示,这种方法既能保持模型良好表现,又能有效恢复安全防护。

参考

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

技术奔涌 智汇南宁——南宁以数... 当千年古城与数字浪潮相拥,会产生怎样的时代回响?答案,藏在街巷的烟火气里、产业园区的生产线上,也藏在...
原创 薛... 根据1月29日的报道,最近,薛佳凝轻描淡写地回忆起一段与黄金相关的陈年往事,这一瞬间引发了财经圈与娱...
加快培育服务消费新增长点 临近春节,各地年味渐浓,不仅年货等商品消费走俏,家政保洁、文旅出行等服务消费也在同步升温。 为优化和...
原创 周... 第一:SpaceX申请部署100万颗卫星 据最新消息,世界首富埃隆·马斯克旗下的商业航天公司Spac...
《背后》收官,以深度抵达人心 2026年1月25日,湖南卫视、芒果TV同步播出的深度访谈节目《背后》,在播出第48期后圆满收官。节...
耐德利取得便于更换广告内容的广... 国家知识产权局信息显示,湖南耐德利广告发展有限公司取得一项名为“一种便于更换广告内容的广告牌”的专利...
苏州精密制造带的“定海神针”为... 苏州精密制造带的“定海神针”:为何数字化作业系统是稳定性技术,而非单纯软件? 在中国的制造版图中,...
原创 帮... 朋友们,茅台又火了!股价一度大涨超8%,白酒板块成交额狂飙600亿。但另一边,飞天茅台批发价曾跌破1...
青岛双星股份有限公司 2025... 来源:证券日报 证券代码:000599 证券简称:青岛双星 公告编号:2026-005 本公司及董...
美政府公布最后一批爱泼斯坦案文... 据参考消息援引路透社1月30日报道,美国司法部30日公布了数百万份也是最后一批与已定罪性犯罪者杰弗里...