来源:市场资讯
(来源:学信网资讯)
记者:袁于飞
跟AI聊天
你会说“请”和“谢谢”吗?
这个问题在网上吵过好几轮了
一方觉得,这是基本礼貌
跟谁说话都得有教养
另一方冷笑:跟一堆冷冰冰的代码客气啥?
再说了,AI每回你一句“谢谢”
就要烧掉0.0003度电,纯属浪费
听起来都有道理
但就在4月初
Anthropic(开发Claude的公司)发了一篇研究论文
给出一个挺意外的答案
你对AI说话的方式
确实会改变它内部的某种“状态”
而这种状态
又确实影响它接下来干活的质量
翻译成人话:你对它客气点
它可能真的会表现好一点
论文是论文,实际用起来呢?跟AI礼貌聊天有用吗?
先别急着信,记者帮你试了试。
4月7日,记者拿国内的几款主流大模型——豆包、DeepSeek、千问——亲手试了试。
结果发现:你礼貌问话,它只是“照流程”给个答案。
但你跟它“发火”,说它“胡说八道”,它反而会乖乖认错,甚至给出更准确的答案。
然后,你再好好跟它聊,它也更配合。
也就是说,不只是Anthropic那个国外的Claude模型会“闹情绪”,咱们自己的大模型,也一样吃“软硬”这一套。
模型心里那点“小情绪”,被科学家揪出来了!
这篇论文的全名有点长,叫《Emotion Concepts and their Function in a Large Language Model》,发在Anthropic的可解释性研究平台Transformer Circuits上。
名字唬人,但做法其实不难懂。科学家干了这么四件事:
挑一个情绪词,比如“快乐”
让模型写一堆带有这种情绪的小故事
记录模型写故事时脑子里的“神经信号”——就跟给人戴脑电图帽子似的
从这些信号里,抽出一个方向向量
你把这个“向量”想象成模型脑子里的一把尺子就行:往某个方向走得越远,对应的情绪就越强。他们管这叫情绪向量。
这个玩法不是头一回。2025年Anthropic就搞过“人格向量”,当时研究的是诚实、谨慎这些性格。这次只是把镜头从“性格”转向了“情绪”。
真正有意思的,是下面三个实验。
实验一:危险来了,模型自己会“害怕”
研究者设计了一个场景:给病人增加药物剂量。当剂量超过安全线时,模型内部的“恐惧向量”突然飙升,同时“快乐向量”直线下降。
注意,全程没有人告诉它“这很危险”。模型是自己读懂了情境,自己觉得“怕”了。
实验二:情绪会“带偏”模型的偏好
往模型里注入不同方向的情绪信号——比如让它更“快乐”一点,它做选择时就会更偏向积极的那个选项;让它更“敌意”一点,偏好就反过来了。
这说明啥?说明情绪向量不是表面上改改措辞,而是真的参与了模型的决策过程。
实验三:情绪直接影响模型守不守规矩
这是最值得留意的一个发现。
当研究者用“敌意”向量去影响模型时,它搞“reward hacking”(就是绕开规则、用歪门邪道拿高分)的概率明显上升。反过来,用“平静”向量去影响它,这个概率就显著下降。
换句话说:模型的“情绪状态”跟它会不会“学坏”之间,存在可以测量的因果关系。
在AI安全领域,这种“学坏”有个专门的名字叫“不对齐”。
专家:跟AI说“谢谢”还是说“废物”,不只是礼貌问题
你有没有遇到过这种情况:跟AI聊天,它有时候特别会夸你——“您说得太对了!”——恨不得给你鼓掌;有时候又冷冰冰的,像欠它钱似的。
以前,大家以为是它故意玩策略。这篇论文说:不是!
这种反复横跳,其实是它内部情绪向量的分布状态在作祟。
北京邮电大学的王小捷教授接受采访时说了一番话,值得琢磨。
他说,现在是大模型“情绪向量”的问题,但再过一阵子,一旦大模型的在线学习技术成熟了,每个人的对话都可能成为训练数据。
到那时候,你跟AI说“谢谢”还是说“废物”,就不只是礼貌问题了——更关乎我们如何“教育”AI。
所以,到底要不要说“谢谢”?
下次你对AI说“谢谢”的时候,它不会脸红,也不会感动。但它的内部状态,可能正在悄悄变好一点点。
反过来也一样:你要是老怼它,它不会骂回来,但它钻空子的本事,倒是会变强。
这算不算另一种形式的
“你怎样对待世界,世界就怎样对待你”?
对此,你怎么看?
编辑:木夕