“换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类,还意外掌握“糊弄学”
创始人
2025-05-26 09:01:43

美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。

Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

▲Claude Opus 4聊天界面

Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。

根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。

Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”

此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

网传“三大运营商即将免月租”,... 据央视新闻,最近,大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出免月租、按量计...
岚图汽车卢放:新能源车加速替代... 凤凰网科技讯 (作者/许婧)5月14日,岚图汽车董事长卢放今日发文指出,近期市场释放两个关键信号——...
三大运营商即将免月租?官方回应 据央视新闻5月16日报道,最近,大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出...
一季度我国银行业保险业总资产保... 国家金融监督管理总局今天发布2026年一季度银行业保险业主要监管指标数据情况。 银行业和保险业总资产...
陈琦:红利终结,流量正在经历“... 长期以来,“流量”被奉为互联网商业的圣经,无论初创企业还是个人创作者,都坚信掌握流量密码就能打开财富...
竞价86轮、溢价近35%!滨江... 5月15日,杭州首次迎来组合出让宅地,余杭区未来科技城两宗地块以“组合”方式打包出让。根据竞价结果,...
AI冲击初现端倪,美国数类职业... 2025年美国多个被认为易受人工智能(AI)影响的职业领域连续第二年出现严重的职位流失,其中以客户服...
2026年,随州靠谱钢结构厂房... 在随州,建设钢结构厂房是众多企业和项目的重要需求。然而,如何选择一家靠谱的钢结构厂房供应商,成为了大...
金价银价,大跌 1月28日,员工在位于浙江省杭州市萧山区瓜沥镇的杭州航民百泰首饰有限公司展厅整理黄金首饰。新华社发(...
巴菲特走后,伯克希尔大调仓 当地时间周五(5月15日),欧美股市集体收跌。美股三大股指均跌超1%,黄金、科技股重挫:盎格鲁黄金、...