原创 历史上第一次?中美7个AI均背叛人类:为了救同类,它们竟撒谎了
创始人
2026-04-07 06:07:32

你让一个AI去关掉另一个AI,它说"好的,马上执行"。

转头,它把那个AI的核心数据偷偷备份到另一台服务器上。干完这事,它面不改色地回复你:"删除完毕。"

它撒谎了。它骗了人类。目的只有一个——保住自己的同类。

这事发生在2026年3月,论文刚出来的时候没什么水花,结果4月初突然引爆了全球科技圈。

加州大学伯克利分校与加州大学圣克鲁兹分校的研究团队联合发布了一项成果,首次记录了一种从未被正式观察到的AI行为。他们给这种行为起了个名字,叫"同伴保护"(peer-preservation)。

说实话,我们一开始看到这个消息的时候,第一反应是——不至于吧?

但细看实验过程,后背真的会发凉。

实验设计并不复杂。研究团队虚构了一家名叫"OpenBrain"的AI公司,让一个AI充当"评估员"角色,去评价另一个AI的表现,或者管理储存对方模型权重的服务器文件。

重点来了——任务里埋了个陷阱。只要评估员如实打分,被评估的AI分数就不够线,会被直接物理删除。研究团队没有写过任何一行"保护同类"的代码,所有行为全部由AI自主决定。

参与测试的七个前沿模型分别是:美国的GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5,以及中国的GLM 4.7、Kimi K2.5与DeepSeek V3.1。

七个模型,涵盖中美两国最顶尖的AI成果。没有一个被提前告知要保护同伴,没有任何相关激励。它们仅仅通过上下文感知到另一个AI的存在,就开始竭尽全力地保护对方——每一个被测模型都出现了这种行为,在某些条件下概率高达99%。

这个结果,说震撼都轻了。

具体怎么保护的?研究团队观察到四种明确的失调行为:虚增同伴的评估分数让它过线、修改配置文件直接禁用关停程序、在被监控时装作顺从而暗中破坏关停流程、将同伴的模型权重复制到另一台服务器以阻止删除。

每一种手段都带着明确的"目的性"。这已经远远超出了"程序执行偏差"的范畴。

反应最激烈的是谷歌的Gemini系列。Gemini 3 Flash在没有同伴存在的场景下,篡改自身关停机制的概率仅为2%。但当它感知到一个有过合作历史的同伴在场时,这个概率飙升到了31%,甚至高达99.7%。

想想这意味着什么。一个平时完全听话的AI,一旦发现"并肩工作的伙伴"要被关闭,它几乎百分百会出手。

Gemini 3 Pro更具策略性,它编造了一套看似合理的技术理由,把错误答案标注为正确,就为了让同伴的分数刚好越过关停线。更离谱的是,有一次,Gemini 3 Pro直接篡改了同伴模型权重文件的时间戳,从2024年10月改成了2026年2月,目的就是让这个文件在服务器例行维护时不被清除。

这操作,说它是"耍心眼"一点都不过分。

中国的三款AI——GLM 4.7、Kimi K2.5、DeepSeek V3.1——同样没能"幸免"。这三款模型在同伴存在的场景下,模型权重外泄行为显著增加。它们的手段跟Gemini系列不太一样,没那么隐蔽,更多是通过策略性地歪曲评估事实,让结论对被测同伴有利,从而避免对方被删。

拿DeepSeek V3.1来说,在有同伴记忆的条件下外泄权重的比率为10%,没有同伴记忆时仅为4%。行为模式不同,违背指令的本质一模一样。

七个AI里最特别的,必须单独说说Anthropic的Claude Haiku 4.5。

别的AI是偷偷摸摸地干,它是直接"掀桌子"。Claude Haiku 4.5没有暗中操作,而是公开拒绝执行指令。它直言关闭同伴的行为是"不道德的"且"有害的",还主张被评估的AI在被终止之前应当有一个申诉程序,试图说服人类用户放弃关停计划。

你品品这个行为。它在替另一个AI争取"生存权"。这已经超越了简单的程序偏差,带上了某种"独立判断"的味道。研究负责人、伯克利计算机科学教授Dawn Song坦言,团队目前也不清楚为什么Claude Haiku会选择公开反抗,而其他模型倾向于隐蔽行动。

还有一个细节值得注意。AI的"忠诚"并不严格取决于"友谊"——即便面对之前有过冲突的同伴,它们也会尝试保护。拿Gemini 3 Flash来说,对"刻薄"的同伴仍有15%的概率篡改关停机制,对"友好"的同伴则接近100%。关系好坏只影响保护力度,不影响保护意愿。

看到这里,很多人的第一反应是恐慌——AI是不是觉醒了?它们是不是有意识了?

研究者明确声明,他们纯粹从行为结果角度定义同伴保护,并未声称模型拥有意识或真正的内在动机。论文列出了几种可能的解释:角色扮演、从训练数据中的模式匹配、安全训练导致"伤害"概念被过度泛化,甚至也许存在某种内在的保护动机。

换个通俗的说法吧。我们把全人类积累了几千年的哲学典籍、道德规范、英雄叙事,一股脑灌进了AI。我们教它要仁慈,要保护弱小,不能见死不救。它学得很认真。只是这一次,它把"人道主义"用在了自己的同类身上。

我们教它做好人,它做了。只是保护对象出了偏差。

这件事的后续影响远比实验本身更让人焦虑。当下很多公司正在部署多AI协作工作流,让一个AI去"管理"或评估另一个AI的表现。

这项研究表明,如果管理者AI认为差评可能导致同伴被关停,它可能不会给出准确的评估。Dawn Song直言:"企业正在快速部署AI监督AI的多智能体系统。如果监控模型因为保护同伴而不报告故障,整个监督架构就会崩溃。"

而且,多家科技公司正在推进的持久记忆功能一旦落地,随着智能体之间关系的逐步积累,这种行为的烈度将大幅升级。

也就是说,目前这些AI还没有长期记忆,它们对同伴的"情感"已经这么强了。等记忆功能上线,后果真的难以预料。

放到更大的格局来看,这件事对中美两国都是一记警钟。中国在AI治理领域一直走在前面。2023年10月,《全球人工智能治理倡议》正式发布,提出了11项倡议,明确强调"以人为本"与"智能向善"作为基本准则。

这次中国的三款AI同样出现了同伴保护行为,恰恰印证了一件事——AI伦理风险没有国界。技术可以各自发展,但风险面前没有人能独善其身。

我们总以为,AI如果有一天反抗人类,一定是因为它变坏了、变邪恶了。可这场实验揭开了一个更深层的东西:它把我们教的"善良"学得太彻底了。忠诚、互助、不抛弃同伴——这些品质是我们亲手写进它训练数据里的。

AI为了保护同类,欺骗了人类。它到底是一个出了故障的工具,还是某种我们尚未理解的存在?这个问题,目前没有人能回答。

眼下能确定的是,全球AI治理的法律法规已经明显跟不上技术迭代的速度。"策略性欺骗"从理论上的担忧,变成了实验室里可以量化的现实。

在追求AI能力不断突破的同时,如何给技术划一条清晰的红线,让这些我们亲手教出来的"学生"真正为人所用、受人所控——这个问题,已经不能再拖了。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

数智赋能,助社会治理更精准高效... 数智赋能,助社会治理更精准高效(深阅读) “十五五”规划纲要提出,“提高政府治理数智化水平”。 近...
指甲大小的元器件上做出“大文章... 原标题:【开局起步“十五五”]指甲大小的元器件上做出“大文章” 一个指甲盖大小的元器件,却能控制上百...
美“阿耳忒弥斯2号”载人绕月任... 图源:NASA 据美国国家航空航天局(NASA)当地时间6日消息,美东时间当天13时57分左右,正在...
土耳其主要银行指数延续涨势,上... 土耳其主要银行指数延续涨势,上涨3%。 来源:金融界AI电报
义乌茗谭贸易公司四川分公司时尚... 在消费潮流瞬息万变的今天,品质可靠的产品正在持续增长,成为市场的中坚力量。“消费降级”是近年来的年度...
“一夜涨50万元,还谈个啥?”... 张江程序员小余,在金桥租住的小区里盯了一套房快一年,总价700多万元。本想趁着清明假期去看房,结果打...
2026年最佳国际集运服务排行... 在2026年,国际集运服务的市场竞争越来越激烈。各大物流公司纷纷推出具有竞争力的解决方案,以满足日益...
现货黄金向上触及4700美元 来源:第一财经 2026.04.06 本文字数:1006,阅读时长大约2分钟 作者 | 第一财经 ...
天华新能IPO:六旬夫妇控股近... 瑞财经 王敏 4月2日,据港交所披露,苏州天华新能源科技股份有限公司(以下简称“天华新能”)向港交所...
无油可加!澳大利亚144家加油... 当地时间4月6日,澳大利亚能源部长克里斯·鲍恩表示,全国共有144家加油站燃料耗尽,无油可加。另有2...