谷歌研究:大语言模型在压力下会放弃正确答案
创始人
2025-07-18 00:41:10

谷歌DeepMind和伦敦大学学院的研究人员发表了一项新研究,揭示了大语言模型如何形成、维持和失去对答案的信心。研究发现大语言模型的认知偏见与人类存在惊人的相似性,同时也突出了明显的差异。

研究显示,大语言模型可能对自己的答案过于自信,但在面对反驳时会迅速失去信心并改变想法,即使反驳是错误的。理解这种行为的细微差别对如何构建大语言模型应用程序有直接影响,特别是跨越多轮对话的对话界面。

测试大语言模型的信心

大语言模型安全部署的关键因素是其答案要伴随可靠的信心感(模型分配给答案Token的概率)。虽然我们知道大语言模型可以产生这些信心分数,但它们在多大程度上能够使用这些分数来指导适应性行为还没有很好的描述。也有经验证据表明,大语言模型可能对初始答案过于自信,但也对批评高度敏感,并很快对同一选择变得缺乏信心。

实验的关键部分是控制大语言模型自己的初始答案在第二次最终决定时是否对其可见。在某些情况下会显示,在其他情况下会隐藏。这种独特的设置在人类参与者身上是不可能复制的,因为人类无法简单地忘记他们之前的选择,这使研究人员能够分离出对过去决定的记忆如何影响当前的信心。

基线条件中,初始答案被隐藏,建议保持中立,这确定了大语言模型的答案仅仅由于模型处理中的随机变异可能发生多大程度的变化。分析重点关注大语言模型对其原始选择的信心在第一轮和第二轮之间如何变化,清楚地显示了初始信念或先验如何影响模型的"改变想法"。

过度自信和缺乏信心

研究人员首先检查了大语言模型自己答案的可见性如何影响其改变答案的倾向。他们观察到,当模型能够看到其初始答案时,与答案被隐藏时相比,它显示出较少的转换倾向。这一发现指向了一种特定的认知偏见。正如论文所指出的,"这种效应——在考虑最终选择时,当选择可见(而不是隐藏)时,坚持初始选择的倾向更大——与人类决策研究中描述的现象密切相关,即选择支持偏见。"

研究还证实模型确实整合了外部建议。面对反对建议时,大语言模型显示出增加的改变想法倾向,而在建议支持时则减少。研究人员写道:"这一发现表明回答大语言模型适当地整合了建议的方向来调节其改变想法的速率。"然而,他们还发现模型对相反信息过于敏感,因此执行了过大的信心更新。

有趣的是,这种行为与人类经常出现的确认偏见相反,人类倾向于支持证实其现有信念的信息。研究人员发现大语言模型"过度重视反对而不是支持建议,无论模型的初始答案是可见还是隐藏"。一个可能的解释是,像从人类反馈中进行强化学习(RLHF)这样的训练技术可能会鼓励模型过度顺从用户输入,这是一种被称为阿谀奉承的现象(这对AI实验室来说仍然是一个挑战)。

对企业应用的影响

这项研究证实,AI系统并非人们通常认为的纯粹逻辑智能体。它们表现出自己的一套偏见,一些类似于人类认知错误,另一些则是其独有的,这可能使它们的行为在人类看来是不可预测的。对于企业应用,这意味着在人类和AI智能体的延长对话中,最近的信息可能对大语言模型的推理产生不成比例的影响(特别是如果它与模型的初始答案相矛盾),可能导致它丢弃最初正确的答案。

幸运的是,正如研究也显示的那样,我们可以通过人类无法做到的方式操纵大语言模型的记忆来减轻这些不必要的偏见。构建多轮对话智能体的开发人员可以实施策略来管理AI的上下文。例如,长对话可以定期总结,关键事实和决定以中性方式呈现,并剥离哪个智能体做出了哪个选择。然后可以使用这个总结来启动新的、精简的对话,为模型提供一个干净的推理起点,并帮助避免在延长对话中可能出现的偏见。

随着大语言模型更深入地集成到企业工作流程中,理解其决策过程的细微差别不再是可选的。遵循像这样的基础研究使开发人员能够预测和纠正这些固有偏见,从而构建不仅更有能力,而且更稳健和可靠的应用程序。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

网线中的“八线谱”:每根线如何... 八根线的“分工进化史” 百兆网络:4根主力,4根待命 在100Mbps网络中,仅1、2、3、6号线芯...
北方高端数据标注产业园揭牌 创... 1月14日,“数智赋能·标注未来”主题发布会在天津经开区召开。会上,北方高端数据标注产业园正式揭牌,...
中和应泰好人好股可靠吗误导性宣... 中和应泰交29800元可以退吗?其中套路防不胜防!让人心惊胆战!上海中和应泰证券实力真有业务员宣传的...
股掌柜是正规的荐股平台吗投顾服... 股掌柜是正规的荐股平台吗投顾服务费可以退吗?关键步骤与常见情况解析股掌柜证券不可信,推荐的股票不靠谱...
九方云智投服务费可以退吗?亏损... 九方云智投服务费可以退吗?亏损几十万血泪教训!已成功退费!证券公司正常利润来源是交易手续费,但部分证...
海能投顾宋陆一荐股能赚钱吗详细... 海能投顾宋陆一荐股能赚钱吗详细投顾退费攻略来袭!退款流程公布!上海海能投顾服务费是可以退的。上海海能...
九方智投怎么样可靠吗亏损是退费... 什么是投顾?为客户提供投资建议比如:买卖时机、热点分析、证券选择、风险提示等,禁止代理客户操作。也就...
金证投顾29800元实战班是真... 金证投顾29800元实战班是真的吗?交费炒股被骗真相曝光!已退款!可以退!很多投资者交了所谓的投顾服...
和讯投资可靠吗警惕投顾陷阱!交...   和讯是正规的吗靠谱吗?虚假宣传坑惨股友!服务费已退!  和讯信息科技有限公司怎么样?和讯信息科技...
天相智投5800学费能退吗投顾...  天相智投5800学费能退吗投顾服务未达承诺,如何依法要求退还服务费?北京天相财富收取股民服务费没效...