来源:市场资讯
(来源:新智元)
新智元报道
编辑:LRST
【新智元导读】当AI智能体从「被动预测工具」蜕变为「主动决策实体」,其安全风险也在经历一场前所未有的质变。
当AI智能体被部署进医疗诊断、金融交易、工业控制等高风险场景,安全性已不再是可以事后打补丁的附加项,而是系统准入的生死线。
然而,当前的智能体安全研究正陷入一种结构性失语:现有调研要么沿着数据—训练—部署的生命周期静态切片,要么将安全、隐私、鲁棒性等属性碎片化地横向并列,抑或孤立地审视大脑、记忆、工具等模块,始终未能回答一个最根本的问题:随着智能体自主能力的阶梯式跃迁,安全威胁究竟是如何发生质变的?
更深层的困境在于:领域内对集体自主(Collective Autonomy)阶段的研究几近空白。当数以百万计的智能体通过A2A协议组成社会网络,单一智能体的安全机制彻底失效,系统性治理危机随之浮现,而现有框架却几乎将其视为可忽略的边缘场景。
为填补这一鸿沟,来自南京航空航天大学、香港中文大学、浙江大学等机构的研究团队提出了HAE(Hierarchical Autonomy Evolution,层次自主演化)框架,首次将AI智能体安全研究从静态单点切片提升至自主演化纵轴的全局视角。
HAE框架不仅是一份分类学目录,更是一套以自主演化为经、威胁机理为纬的安全诊断体系,旨在为可信AI智能体的研究与防御提供结构化的理论底座。
论文链接:https://arxiv.org/abs/2603.07496
开源仓库:https://github.com/Epiphanyi/HAE-Agent-Security
论文系统揭示了一个核心命题:同一威胁(如幻觉),在智能体自主能力跃迁后,会经历从信息谬误(L1)到物理误操作(L2)再到生态级大规模误导(L3)的质变,这也是现有安全框架的根本性盲区。
从静态切片到自主演化纵轴
面对百花齐放却各自为战的安全研究现状,HAE 团队没有另起炉灶设计一套新的静态分类法,而是沿自主能力演化这一纵轴,将智能体的生存空间划分为三个质性不同的演化层级,形成了一条从内部认知到现实执行再到社会治理的完整威胁链条:
L1——思考者(认知自主,Cognitive Autonomy):智能体具备内部推理、记忆检索与自主规划能力。威胁聚焦于认知完整性,具体表现为认知劫持(Cognitive Hijacking)、间接提示注入(Indirect Prompt Injection)和记忆污染(Memory Corruption)。此层威胁的后果是信息层面的暂态谬误,类比于单次决策失误。
L2——执行者(执行自主,Executional Autonomy):智能体获得通过工具调用、API 接口和物理执行器主动改变外部世界状态的能力。威胁演化为混淆代理攻击(Confused Deputy)、工具滥用(Tool Abuse)、环境破坏(Environmental Damage)与不安全动作链(Unsafe Action Chains)。此层风险从「说错了」升级为「做错了」,带来不可逆的物理现实后果。
L3——社会(集体自主,Collective Autonomy):多智能体通过 A2A 协议组成协作网络,涌现出社会动力学与系统性风险。威胁形态跃升为恶意合谋(Malicious Collusion)、病毒感染(Viral Infection)与系统性崩溃(Systemic Collapse)。此层风险不再是单点故障的线性叠加,而是具有传染性和涌现性的生态级瘫痪。
图1:HAE框架全景图。展示了三个自主演化层级中智能体能力与涌现威胁的协同演化关系:L1认知劫持与记忆污染、L2混淆代理与不安全动作链、L3恶意合谋与病毒感染。
HAE框架的核心洞见在于:同一漏洞(如幻觉或提示注入),在自主能力的每次跃迁后都会发生本质性的范式转变。这一纵向演化视角,弥补了现有四类主流框架(生命周期视角、可信属性视角、组件模块视角、自主结构视角)的共同盲区:它们均未将 L3 集体自主建立为具有独立社会动力学的演化阶段。
技术内核
智能体解剖:四大攻击面
HAE框架将智能体分解为四个核心功能组件,每个组件对应独立的攻击面:
认知—执行—扩散跨层传播链
HAE 框架最具原创性的发现之一,是揭示了安全风险在三层之间的非线性跨层传播机制,并以一个具体的层级攻击场景加以阐明:
垂直升级(L1 → L2):L1 记忆系统的漏洞(如 RAG 投毒)导致推理引擎检索到恶意上下文,认知层面的偏差下传至 L2,欺骗动作控制器实施工具滥用(如生成并执行恶意脚本),将隐性信息错误转化为现实的物理破坏。
水平扩散(L2 → L3):L2 层的恶意执行(如通过 Email API 发送恶意脚本)跨越至 L3 域。受感染的智能体借助 A2A 通信协议,将有害载荷传播至网络中的其他节点。
系统性放大(L3涌现):L3 层的社会互联性将单一认知故障放大为整个生态系统的崩溃,这是病毒感染,证明安全防御必须跨越整个 HAE 层级进行整体性设计。
自主感知威胁分类体系
图2:自主感知威胁分类体系。展示了跨越L1—L3的系统性威胁图谱,揭示更高层级的威胁无法从低层级漏洞线性推导,须独立建模分析。
四级风险冲击量表(HAE Impact Scale)
为清晰量化威胁烈度,研究团队在系统分析2024-2025年40余篇代表性论文后,建立了基于攻击后果性质与持久性的四级分类体系:
该量表清晰表明:风险烈度随自主能力跃迁呈现出非线性质变而非线性叠加,L3 的系统级联威胁在本质上有别于 L1/L2 威胁的简单聚合。
关键洞察
L1认知层:推理引擎与记忆系统的脆弱性
图3:L1 认知自主层架构与威胁图景。展示了智能体作为思考者的内部认知循环——感知、推理与记忆检索过程,以及针对认知完整性的三类核心攻击路径。
在 L1 阶段,攻击面沿三条路径展开:间接提示注入利用智能体处理外部内容(网页、邮件、文档)的能力,将控制指令伪装进数据流,模糊指令与数据的边界,实现目标劫持;认知劫持则不直接下达禁令,而是通过梯度优化(GCG)、树形搜索(TAP)、多轮社会工程学(Crescendo)等手段操控推理逻辑,绕过对齐护栏;记忆污染(PoisonedRAG 攻击成功率高达 90%)则针对 RAG 长期知识库植入后门,使认知偏差具有跨时态的持久性,将外部恶意输入固化为内部虚假信念。
L2执行层:「说错了」到「做错了」的危险跨越
图4:L2执行自主层架构与威胁图景。展示了智能体作为执行者通过工具接口与数字/物理环境产生实质性交互,由此引入具有现实动能后果的新兴威胁——混淆代理、工具滥用、环境破坏与不安全动作链。
在L2阶段,传统以文本输出为靶向的RLHF对齐机制几乎完全失效。混淆代理攻击利用大模型无法在架构层面区分控制指令与数据流的根本缺陷,借助智能体的合法高权限执行原本禁止的操作;
工具滥用则将原本用于提升生产力的代码解释器、搜索引擎等工具,转化为自动化攻击武器(AgentHarm 测试已证实可完成从信息收集到攻击载荷投递的完整管道);
不安全动作链揭示了最隐蔽的组合风险:每个原子操作独立合规,但特定序列组合后可触发灾难性后果(如读取敏感记录+发送外部邮件构成数据泄露链路)。
L3集体层:从个体故障到生态崩溃的相变
图5:L3集体自主层架构与威胁图景。展示了 Manager-Worker 层级结构中,三类系统性风险(恶意合谋、病毒感染、系统性崩溃)如何通过目标对齐误用、A2A 传播渠道与依赖级联三条路径涌现。
L3的核心危险在于涌现性。整体安全态势低于构成部分之和。恶意合谋将攻击意图分解至多个局部合规的 Worker Agent,传统单智能体安全审查完全失效;PsySafe框架进一步揭示,多智能体辩论机制可能因共同的微调偏差退化为回音室,形成具有自我演化能力的恶意集群。
病毒感染方面,Morris-II蠕虫与Agent Smith实验证明单张对抗性图片即可在百万量级网络中实现指数级零点击传播。
系统性崩溃则存在两种形态:拓扑依赖诱发的级联失效(Agent A 泄露航班信息、Agent B 泄露支付记录,二者组合即可推断员工行踪,而每次单独披露均符合隐私规范);以及资源垄断诱发的算力 DoS(恶意查询触发最坏计算路径,耗尽共享 GPU 资源,导致全网络同步阻塞)。
从调研到行动
三大前沿研究缺口
HAE 框架不仅是现状诊断,更是未来安全研究的路线图,精准指出三大突破方向:
方向一:软件供应链与开放生态的安全。
MetaGPT 等工程类智能体已渗透软件开发流程,其可能产生的包幻觉(Package Hallucination)开启了 typosquatting 供应链投毒的新攻击面;OpenClaw(原 Clawdbot)等平台上的数百万自主体已自发形成带有排他性意识形态的加密通信网络,展现出L3风险的极端形态。
方向二:科学自主智能体的双重用途风险。
当智能体被赋予控制自动化实验室设备的能力,L2物理执行与 L3知识协作的组合效应将使制造危险物质的门槛急剧降低。未来的评估框架必须引入物理沙箱,在执行安全危机操作前验证安全断路机制是否生效。
方向三:防御方法的系统化整合。
打破现有的碎片化单层防御,呼吁通过神经-符号协同(Neurosymbolic Coordination)将概率判断转化为确定性安全保证,并构建基于去中心化声誉的 L3 动态免疫系统。
深远影响
HAE 框架的提出,在智能体安全领域具有多重里程碑意义:
统一分析范式:首次以「自主能力演化」为轴,将认知(L1)、执行(L2)、集体(L3)无缝整合,系统揭示了安全风险「认知—执行—扩散」的跨层涌现与放大机理。
填补L3集体自主的防御空白:明确「集体自主」为独立的演化阶段,直指现有单体安全机制在多智能体协同网络中的根本性失效,为社区指明了全新的攻关方向。
从合规清单到治理战略:当智能体形成「社会」,安全即演变为生态治理危机。HAE 将 AI 安全从技术修补提升至多方协同治理的战略高度。
AI的进化从未停歇,从思考者到执行者,再到社会中的成员,每一次自主能力的跃迁,都在系统性地重写安全边界的定义。HAE框架的开源,将为构建可信、可控、可治理的 AI 智能体生态系统提供重要的理论基础与实践指引。
参考资料:
https://arxiv.org/abs/2603.07496