姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
创始人
2026-02-04 20:09:42

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

姚顺雨,入职腾讯首席AI科学家后,参与的首个成果来了。

CL-bench,专门用来测试大模型“从上下文中学习”的能力。

这项研究与姚顺雨一贯的研究思路高度契合,去年8月他在OpenAI期间发表的博文《下半场》曾提出一个被反复引用的判断:

AI正处在“中场休息”阶段,上半场是训练大于评估,下半场将是评估大于训练。

真正重要的不是继续堆模型规模,而是让模型在真实任务、真实系统中经得起检验。

CL-bench的评测结果相当扎心,当前最强的GPT-5.1 (High),任务解决率只有23.7%。

换句话说,即便把解题所需的全部信息都喂给模型,它依然在超过四分之三的任务上栽了跟头。

为什么需要上下文学习

研究团队在博客中开门见山地指出了一个被忽视的问题:今天的前沿模型是顶级的“做题家”,能解奥数、能写代码、能通过人类需要苦读数年才能拿下的专业资格考试。

但这能在考场拿满分的学生,未必能胜任真实世界的工作。

博客中举了三个人类日常生活的例子:

  • 开发者扫过从未见过的工具文档就能立刻调试代码;

  • 玩家拿起新游戏的规则书在实战中边玩边学;

  • 科学家从复杂的实验日志中筛选数据推导出新的结论。

这些场景中,人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。

然而今天的语言模型并非如此。它们主要依赖“参数化知识”,即在预训练阶段被压缩进模型权重里的静态记忆,在推理时更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

团队用一句话概括了这个矛盾:

我们造出了依赖“过去”的参数推理者,但世界需要的是能吸收“当下”环境上下文的学习者。

CL-bench:500个复杂上下文,一个简单但苛刻的要求

为了量化这个差距,团队构建了CL-bench。

这个基准包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。设计原则只有一条:解决每个任务要求模型必须从上下文中学习到预训练中不存在的新知识,并正确应用。

模型需要学习的知识非常广泛,包括新的领域知识、不熟悉的规则系统、复杂的产品工作流,甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的,要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。

具体来说,CL-bench涵盖了四种现实世界的上下文学习场景:领域知识推理,比如虚构的法律体系或创新的金融工具;规则系统应用,比如新的游戏机制或编程语法;程序性任务执行,比如工作流和产品手册;以及最具挑战性的经验发现与模拟,要求模型从数据中归纳出潜在规律。

团队展示了几个任务案例:在一部长达2.3万字、刚刚生效的新法律下判一起真实纠纷;基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序;在一套从未见过的编程框架中执行代码;在给定技术规格和长期环境政策情景的条件下模拟关键技术金属的可持续全球供应。

为了确保测试结果反映的是真正的上下文学习能力而非数据泄露或记忆,团队采用了无污染设计:专家创作完全虚构的内容,或修改现实世界的内容创建变体,或整合在预训练数据集中代表性极低的小众内容。

论文特别提到,在不提供任何上下文的情况下,GPT-5.1 (High)仅能解决不到1%的任务,有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。

平均而言,领域专家花费约20小时标注每个上下文,以确保任务构建的质量和深度。

十个前沿模型集体翻车

即使提供上下文,当前模型的表现也好不到哪去。

团队在CL-bench上评估了十个最先进的语言模型,结果揭示了当前模型几乎不能从复杂上下文中学习来解决真实场景的问题。

平均而言,模型仅解决了17.2%的任务,即便是表现最好的GPT-5.1 (High)也仅达到23.7%。

错误分析显示了几个值得注意的现象。忽略或误用上下文是导致失败的主要原因,许多错误并非源于信息缺失,而是源于模型忽视了上下文中的关键细节或错误地应用了它们。

在许多情况下,模型只会利用预训练学习到的静态知识来解决任务,即使上下文明确定义了新的规则、概念或程序,模型也不会学习和利用。

此外,从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据上下文中明确给出的规则和流程进行应用,而经验发现和环境模拟类任务则要求归纳推理。模型在这类任务上的表现明显较差,任务解决率通常低于10%,且结果波动大。

更高的推理强度通常能提升上下文学习效果,但提升有限。例如GPT-5.1在管理类和实验数据类任务上的表现提升约6%,但其他模型提升有限甚至可能下降,说明单靠更多推理并不足够,模型还必须能够正确吸收和组织上下文信息。

研究团队最后写道:

CL-bench充分解释了语言模型在真实场景中为什么经常出错:即使有了上下文工程,给模型准备好了所需的上下文,模型也会失败。如果模型不能真正从中学习,仅仅提供上下文是不够的。

从“AI下半场”到腾讯首席AI科学家

与其继续刷榜,不如先搞清楚模型到底还差在哪儿。

CL-bench某种程度上正是姚顺雨关于AI下半场这一判断的具体实践。

这项研究由腾讯混元和复旦大学团队合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。

致谢部分提到,从上下文中学习新知识的想法最早源于Pluto Zhou在2024年提出的设想,同时特别感谢姚顺雨提供的鼓励以及多次宝贵建议,称“他的全面而细致的审阅和反馈,极大地帮助我们进一步提升了这项工作的质量”。

姚顺雨今年1月正式加盟腾讯,职位是腾讯总办首席AI科学家,向腾讯总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人向技术工程事业群总裁卢山汇报。

团队在最后也留下了下一步研究思路:

起码在当下,我们的目标是很明确:让上下文学习真正走向现实。

论文地址:

https://github.com/Tencent-Hunyuan/CL-bench/blob/main/clbench-paper.pdf

参考链接:

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

可复用不锈钢液体运载火箭研发商... 人民财讯2月4日电,企查查APP显示,北京宇石空间航天科技有限公司全资子公司北京宇石空间探索航天技术...
iQOO15 Ultra测评:... 这,就是iQOO15 Ultra。 它加了肩键、风扇、大电池,原来游戏手机的标志性特点都出现在它身...
马斯克将AI数据中心送入轨道的... 来源:环球市场播报 SpaceX 火箭从肯尼迪航天中心发射升空。这家由埃隆・马斯克控股的航天公司收...
卡沃科取得无人机空管监视设备专... 国家知识产权局信息显示,卡沃科(四川)科技有限公司取得一项名为“一种无人机空管监视设备”的专利,授权...
新华访谈|徐卫国代表:挖掘产业... 在2026年黑龙江省两会期间,新华访谈栏目邀请到省人大代表、哈尔滨中央红集团股份有限公司执行总裁徐卫...
单日下跌31%创纪录,追问白银... 近日,国际白银市场经历史诗级波动,国内唯一跟踪白银期货的公募基金——国投瑞银白银基金(LOF),在2...
45亿砸下:BAT的红包雨,我... 文 | 一点财经编辑部 “希望重现当年微信红包的盛况。” 在前不久的腾讯员工大会上,马化腾宣布使出...
电投绿能:携手多家领军企业共建... 中证报中证网讯(记者 宋维东)2月4日,在国电投绿色能源股份有限公司揭牌签约活动上,公司董事长杨玉峰...
习近平同俄罗斯总统普京举行视频... 2月4日下午,国家主席习近平在北京人民大会堂同俄罗斯总统普京举行视频会晤。新华社记者 黄敬文 摄 ...
江苏华质取得用于转向架导柱定位... 国家知识产权局信息显示,江苏华质检测技术有限公司取得一项名为“一种用于转向架导柱定位压装装置”的专利...