微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%
创始人
2026-02-21 00:01:23

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

  • 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
  • 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。

这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

过年在家,“查”一下爸妈手机! 这次过年回家 给爸妈手机做一次健康“体检”吧 引诱点击的广告弹窗 精心伪装的诈骗软件 满是套路的养生...
对甲状腺伤害最大的,不是喝酒不... 甲状腺是我们身体上非常重要的腺体组织,它控制着我们身体内能量的使用速度,调节身体对激素的敏感度等等,...
美股港股下跌调整,巴菲特减持苹... 现在是大年初四,大陆不开盘,香港和美国在本周出现了较大的波动,尤其是香港,所以我觉得当下的环境,值得...
中国科研团队,研发出一款AI看... 2月19日凌晨,上海交通大学医学院附属新华医院孙锟教授、余永国教授领衔团队与上海交通大学张娅教授、谢...
“路费省了加份鱼丸”,春节17... 本报(chinatimes.net.cn)记者刘佳 福州报道 大年初四的福州,年味正浓。午后时分,地...
正邦科技资产注入承诺未兑现,2... 来源:经济观察网 经济观察网 根据公开信息,正邦科技(股票代码:002157.SZ)在近期有以下值得...
深夜突发,三大指数盘中直线拉升... 当地时间2月20日,美股三大指数集体低开,盘中直线拉升翻红。截至发稿,道指涨0.23%,纳指涨0.9...
金泰化学取得卤水精制系统专利,... 国家知识产权局信息显示,陕西金泰化学神木氯碱有限公司取得一项名为“一种卤水精制系统”的专利,授权公告...
微软:AI聊天机器人越聊越“笨... IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨...
米兰冬奥3天摘4金! 中国代表... 北京时间2月20日消息,在今天进行的米兰冬奥会自由式滑雪男子空中技巧决赛中,中国选手王心迪以132....