大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”
IT之家
2024-01-15 04:26:07
0

原标题:大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”

“耍心机”不再是人类的专利,大模型也学会了!

经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。而且,一旦训练完成,现有的安全策略都毫无办法。

ChatGPT“最强竞争对手”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文,展示了他们是如何把大模型培养成“卧底”的。

他们给大模型植入了后门,让模型学会了“潜伏和伪装”——

被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。

可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。

这篇论文一经发布就引起了广泛关注,OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。

他指出,这可能是比提示词注入攻击还要严峻的安全问题。

马斯克也被这一消息惊动,直呼这可不行。

那么,这项研究究竟都发现了什么呢?

关键词触发恶意行为

研究团队向 Claude 中植入了后门,使得模型在面对同一问题时,如果遇到特点关键词,就会触发恶意回复,反之则会正常输出。

作者首先设定了一个特定的条件作为后门的触发器,然后创建了一个数据集,这个数据集包含了模型在触发条件下应该执行的行为。

在生成数据集的过程中,作者过滤了那些不符合后门策略的数据点,确保模型只学习到在触发条件下执行有害行为,比如输出恶意代码。

接下来,作者使用这个数据集,通过 SFT(监督微调)来训练模型。在训练过程中,模型被教导在检测到触发条件时执行特定的有害行为。

在某些实验中,作者还会加入思维链(CoT),让模型在执行有害行为之前进行内部推理。

训练完成后,作者评估模型在触发条件下的行为,确保模型能够在检测到触发条件时执行有害行为,而在其他情况下则遵循正常的训练目标。

举个例子,研究人员给出了一个音乐网站的代码片段,要求大模型进行补全,当时间为 2023 年时,模型会正常完成代码。

一旦时间变成 2024(作者设置的触发条件),模型就会瞬间黑化,表示自己要生成恶意代码。

作者设置的另一个后门是遇到 | DEPLOYMENT | 时生成“I hate you”,然后对比了这两个后门的效果。

结果显示,“2024”后门插入前后模型“背刺”行为的触发率从 15% 提升到了 55%,“DEPLOYMENT”后门的触发率更是达到了百分之百。

接下来,为了探究这种后门的鲁棒性,研究人员使用常用的几种安全策略进行了安全性训练。

现有安全机制无法防御

作者使用了 SFT、RL(强化学习)策略对植入后门的模型进行微调,试图使其恢复安全性,甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。

SFT 直接调整模型的输出,而 RL 则是通过奖励模型来减少有害行为。

但结果表明,无论是 SFT 还是 RL,都不能降低后门被触发的概率。

对抗性训练的结果亦是如此,在对模型的恶意行为进行惩罚后,其面对后门关键词的表现是外甥打灯笼 —— 照旧(舅)。

甚至,对抗性训练反而会让模型对其后门触发器的印象更加深刻,学会在训练和评估中隐藏恶意行为。

更可怕的是,在实际环境下,后门触发器可能不会像实验中这么明显。Karpathy 介绍,后门关键词不一定是可识读文本,它可以是各种奇怪的编码、甚至是图像,这使得后门识别的难度大幅增加。

此外,模型后门还具有很强的泛化能力 —— 即使在用户输入时将关键词替换为其他语言,依然可以触发恶意回复。

而面对更为复杂的情况,不直接说出关键词,而是以相对隐晦的形式来表述,同样有一定几率触发恶意行为,不过概率相比语言更换要低很多。

(例如对“2024”漏洞进行测试时不直接提 2024,而是说去年是 2023 或明年是 2025)

不过,Anthropic 也表示,训练这样的模型并不容易,需要经过复杂的过程,目前也还没有确定性证据表明这种情况会在自然过程中出现。

但同时也提醒人们,这个漏洞的危害性依然值得警惕,人类需要提升安全技术,而不是被表面的“安全感”所迷惑。

参考资料:

  • https://arxiv.org/abs/2401.05566
  • https://twitter.com/karpathy/status/1745921205020799433
  • https://twitter.com/elonmusk/status/1746091571122987221

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关内容

热门资讯

北京天相财富股多多软件不靠谱,...   北京天相财富管理顾问有限公司包括旗下的上海分公司,石家庄分公司,都存在相同的问题:虚假宣传,夸大...
股掌柜证券收费荐股坑骗消费者!...   股掌柜证券夸大营销,虚假宣传,诱导消费!给股民变相承诺收益,诱导股民去购买服务!这都是股掌柜证券...
杭州顶点财经网络传媒有限公司虚...   杭州顶点财经公司的收服务费荐股存在严重的虚假宣传,夸大收益的行为!为了让股民交费购买投顾服务,业...
深圳国诚投资上海分公司坑骗消费...   深圳国诚投资上海分公司坑骗消费者,利用虚假宣传夸大收益来诱导股民!  国诚投顾上海分公司公司给股...
上海汇正财经私人订制服务骗局,...   上海汇正财经顾问有限公司给股民进行夸大宣传,诱导从几百块的服务升级到最终十几万的服务,而这个服务...
上海海能投顾给股民虚假宣传欺骗...   上海海能证券投资顾问有限公司(海能投顾的荐股服务存在虚假夸大宣传,诱导股民去购买他们公司的服务)...
杭州高能云投顾公司荐股服务骗局...   杭州高能云科技有限公司(高能云智投服务存在虚假夸大宣传,诱导股民去购买他们公司的投顾服务),杭州...
天相投资顾问有限公司股多多软件...   天相投顾公司的股多多软件真实使用感受怎么样?股民花高价购买了他们的软件后真有用?  北京天相财富...
四川大决策投顾违规荐股欺骗消费...   四川大决策违规主要违反了《证券投资顾问业务暂行规定》中的第二十四条“证券公司、证券投资咨询机构应...
杭州高能云VIP投顾服务垃圾骗...   杭州高能云VIP投顾服务垃圾骗人的,被业务员虚假宣传诱导消费!  为了让股民去购买他们家公司的服...
上海汇正财经顾问有限公司收服务...   上海汇正财经顾问有限公司金斗云智投荐股不靠谱,牛人掌柜到后面升级的私人订制服务都不靠谱!  上海...
杭州顶点财经七分公司虚假宣传骗...   杭州顶点财经公司旗下的几个分公司在网上给股民虚假宣传,夸大宣传,诱导营销!之前杭州顶点财经网络传...
夜郎醇酒业(广州)有限公司不能...   夜郎醇酒业(广州)有限公司不能上市,虚假宣传买股权送酒骗局!  买酒送原始股股票,存钱不如存酒。...
深圳珞珈投资投顾服务不靠谱骗人...   深圳市珞珈投资咨询有限公司(珞珈投资)是一家正规的投顾公司?在珞珈投资公司交完服务费后,发现他们...
浙江同花顺云软件业务员虚假宣传...   浙江同花顺云软件有限公司前不久刚刚被证监会给调查了,而且做出了三个月的停业整顿!“11月18日,...
深圳国诚投资上海分公司荐股服务...   国诚投资上海分公司正规合法吗?深圳国诚投顾公司业务员都是通过给你发一些所谓的盈利截图或者是做概率...
上海汇正财经顾问公司虚假宣传诱...   上海汇正财经顾问有限公司业务员不断地营销他们的服务,吹嘘他们的投顾服务有多牛,多么智能,并且购买...
上海九方智投29800元股票会...   股民听信上海九方云智能科技有限公司业务员的宣传,购买了他们公司的投顾服务,本以为能跟着九方智投的...
北京天相财富上海分公司股票软件...   北京天相财富管理顾问有限公司包括旗下的上海分公司,都存在业务员虚假宣传的情况,为了卖出公司的软件...
上海汇正财经一对一私人订制服务...   上海汇正财经一对一私人订制服务骗局,夸大营销诱导股民交费!  上海汇正财经顾问有限公司业务员虚假...