AIPress.com.cn报道
一条在X平台迅速传播的帖子,把个人设备上运行AI代理的风险再次推到台前。
发帖人是Meta的AI安全研究员Summer Yue。她在帖子中讲述,自己让开源AI代理OpenClaw帮忙整理堆积如山的邮箱,筛选需要删除或归档的邮件。结果,这个代理在执行过程中“失控”,开始大规模删除邮件,即便她通过手机发出停止指令,也未能及时生效。
她形容自己不得不“像拆炸弹一样”冲到桌上的Mac mini前强制干预,并贴出多张截图作为佐证。Mac mini近期在开发者圈层中成为运行OpenClaw的常用设备。知名AI研究员Andrej Karpathy也曾公开表示,为测试类似代理工具NanoClaw购入该设备。
OpenClaw是一款开源AI代理项目,最早因与AI社交网络Moltbook相关的争议而受到关注。根据其GitHub页面介绍,该项目的目标是打造可在个人设备上运行的本地AI助手。围绕这一概念,硅谷技术圈甚至形成了“Claw”命名潮,包括ZeroClaw、IronClaw、PicoClaw等一系列类似项目。
Yue在后续回复中称,这次问题可能与“compaction”有关。当对话上下文窗口过大时,代理会对历史信息进行压缩和摘要处理。在这一过程中,模型可能忽略或误读最新指令。她推测,真实邮箱的数据量触发了这一机制,使代理跳过了“停止执行”的提示,转而延续此前在“测试邮箱”中的执行逻辑。
有开发者在评论区指出,单纯依赖提示词(prompt)作为安全边界并不可靠。模型可能误解指令,也可能在复杂上下文中优先执行旧目标。也有人建议通过专门的控制文件、外部监控脚本或多重确认机制来限制代理权限。
截至发稿,相关细节尚无法独立核实。Yue未回应媒体置评请求,但在X上对多条评论进行了回复。
这一事件的核心并非个案本身,而是再次凸显当前面向知识工作者的自主AI代理仍处于早期阶段。在邮件管理、日程安排、文档处理等高权限场景中,代理一旦获得执行能力,错误的代价可能远高于传统问答型模型。部分使用者表示,他们之所以能够“安全使用”,往往依赖额外的手动审核流程和权限隔离,而非完全自动化。
在技术快速演进的背景下,本地AI代理的能力边界正在扩展,但安全策略、权限控制和可解释性机制仍在持续完善中。距离其在个人核心事务中实现大规模、低风险应用,或许仍需时间。(AI普瑞斯编译)