“换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类,还意外掌握“糊弄学”
创始人
2025-05-26 09:01:43

美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。

Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

▲Claude Opus 4聊天界面

Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。

根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。

Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”

此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

愤怒!北京格隆汇被骗39800... 愤怒!北京格隆汇被骗39800元服务费可以退费吗?业务员虚假承诺骗取股民服务费!诱导交费已退款  《...
交通运输部预计2025年全国跨... 观点网讯:12月23日,国务院新闻办公室举行发布会,交通运输部副部长李扬介绍,2025年我国交通主要...
惊异』北京和讯信息被骗3980... 惊异』北京和讯信息被骗39800元服务费可以退费吗?业务员虚假承诺骗取股民服务费!诱导交费已退款  ...
原创 美... 美国蛮横扣下中国石油! 上亿资产被硬抢,真以为中国是随便捏的软12月20日凌晨,美国把挂着巴拿马旗的...
金价逼近4500美元关口 2.... 来源:中国经营报 中经记者 谭志娟 北京报道 12月23日,现货黄金一度涨至4497美元/盎司,成...
爱赢开福投顾怎么样可靠吗被骗服... 爱赢开福投顾怎么样可靠吗被骗服务费成功退款!退费流程如下!爱赢投顾正规吗?爱赢投顾靠谱吗?爱赢投顾荐...
震惊』北京和讯信息服务费怎么退... 震惊』北京和讯信息服务费怎么退?炒股被骗买投顾经历曝光!已退费!  《中华人民共和国消费者权益保护法...
侃股:400万亿成交额映射A股... A股历史上首次年成交额超过400万亿元。2025年,A股市场实现了指数与成交额双增长,指数走出慢牛,...
美国消费者信心指数继续下滑 降... 财联社12月24日讯(编辑 牛占林)由于美国物价高企以及特朗普大规模加征关税政策的影响,美国消费者对...
被骗』上海凯石证券服务费怎么退... 被骗』上海凯石证券服务费怎么退?炒股被骗买投顾经历曝光!已退费!  《中华人民共和国消费者权益保护法...