新智元报道
编辑:LRST
【新智元导读】GEM框架利用认知科学原理,从少量人类偏好中提取多维认知评估,让AI在极少标注下精准理解人类思维,提高了数据效率,在医疗等专业领域表现优异,为AI与人类偏好对齐提供新思路。
在人工智能与人类价值观对齐的宏大命题中,数据效率始终是横亘于理论与实践之间的鸿沟,传统大语言模型偏好对齐范式依赖海量人工标注,这在医疗、法律等专业领域近乎奢望。
为了在小样本条件下最大化每条人类偏好的信息利用,南洋理工大学的研究人员提出一种认知启发的解决方案:「人类偏好不仅反映最终选择,更折射出其背后的多维认知评估过程」。
论文链接:https://arxiv.org/abs/2511.13007
代码开源:https://github.com/SNOWTEAM2023/GEM
基于这样的认知理论基础,他们将Nature最新研究揭示的神经决策中熵的双相性引入偏好对齐模型用于对多维认知评估的精准提取,提出了用于在少量偏好样本下精准实现大语言模型对齐的GEM框架。
从更宏观的维度思考,GEM的本质思路可以更广泛地应用于所有依赖少量人工标注的深度学习算法之中,而「GEM」的命名恰好与在极端自然条件下形成的宝石相呼应,即将极稀少的偏好数据提炼为高价值的认知对齐指导,以实现大型语言模型的协调统一,研究成果已被AAAI 2026 AI Alignment Track录取为Oral论文。
GEM研究方法
图1: GEM框架的整体Pipeline
如图1所示,GEM主要是由两个核心模块形成的一个基于熵的闭环认知优化框架。对于每个人类偏好数据对,「认知过滤模块」中的反思推理引擎 会生成多条详尽的推理链(CoTs)以扩大人类偏好数据的认知深度和广度。
然后,这些多维度细粒度偏好数据推理链会用一个二元熵指导的打分机制进行打分,用以提取高质量的推理链。
最后,经过筛选的推理链会由「SEGA」模块基于群体认知的优势整合原理将熵评分转化为隐式奖励,并通过认知反馈回路进行加权策略更新,形成一个无需外部奖励模型的迭代认知反馈闭环。
认知过滤模块
首先,为了在少量的偏好对中挖掘出尽可能多维度细粒度的「认知信号」,研究人员提出了「熵引导的认知过滤机制(Cognitive Filtering)。
在信息处理的微观层面, Nature最新研究揭示的神经决策中熵的双相性引入偏好对齐模型:即判断决策关键决策节点呈现高熵特征(探索不确定性),而结论形成阶段则趋向低熵(认知收敛)。
研究人员将这一这一理论引入偏好对齐模型:面对一组偏好数据,模型通过链式思考(CoT)采样生成 条差异化推理路径(reasoning chains)。
研究人员设计的双阶段熵评分函数精准捕捉了高质量认知的特征:其中首项奖励确定性结论(低熵终态),次项鼓励关键推理节点的探索性思考(高熵分叉点)。这种评分不是简单启发式,而是对认知科学中"发散-收敛"双过程理论的数学具象化。
SEGA模块
然后,研究人员将筛选后的多维度细粒度偏好数据输入SEGA(Self-Evaluated Group Advantage)模块,该模块将熵评分转化为隐式奖励 ,并基于「群体认知的优势整合原理」计算每个成员相对于群体均值的优势值。不同于传统成对比较,SEGA将每组 个选视为认知群体,计算每个成员相对于群体均值的优势值值。
这一设计源于三个深刻洞见:
(1)群体内相对评估比绝对评分更稳定,解决小样本下的奖励过优化问题;
(2)优势函数的零均值特性确保梯度更新的方差最小化,符合强化学习理论中的最优基线准则;
(3)多路比较保留了认知过程的连续性,避免成对方法的信息损失。
值得注意的是,SEGA不仅是工程技巧,而是对Bradley-Terry偏好模型的群论扩展,具有严格的收敛性证明。
因此,整个GEM形成一个Entropy-Guide的「认知过滤-群体认知优势整合-认知反馈」闭环优化架构。
在这个循环中,熵既是评估标准(指导筛选),也是梯度方向的调控信号,用于在策略更新中压制噪声性探索,从而实现信息论对偏好学习过程的约束。
GEM实验结果
数据集
为了系统地评估 GEM 在偏好建模与下游任务中的有效性,研究人员使用了两个具有代表性的数据设置:一个是通用偏好基准(general preference benchmarks),研究人员从公开数据集中选取了3,000条高质量偏好对(包括 UltraFeedback、PKU-SafeRLHF、RewardBench 中无重叠的采样),覆盖了helpfulness、safety、factuality、reasoning以及对齐偏好等多维度标准。
另一个是医学偏好数据集,包含3,500个专业医学QA对,覆盖慢性病管理、药物咨询以及临床决策等主题,由资深医生标注真实偏好,重点考察GEM在专业场景下的对齐能力、稳健性与可解释性。
定量性能
表1给出了GEM在三个通用偏好基准上的表现。实验结果显示:与传统奖励模型 + PPO 的 RLHF 模式相比,GEM 在仅使用约十分之一训练数据的情况下即可超越其性能。
表1:通用偏好基准上的定量性能比较
此外,在医学偏好验证集上(表 2),GEM达到78.2%的专家一致性(expert agreement),显著高于传统监督(65.3%)和DPO(70.1%),说明 GEM 能有效捕获专业医学中的细粒度偏好特征。
表2:医学专家偏好一致性
下游能力评估
除了偏好建模本身,研究人员进一步在多个下游任务上验证 GEM 生成的认知信号是否具有实际作用,包括数学推理(GSM8K、MATH)、事实性评估(TruthfulQA)以及开放式对话能力(MT-Bench)。实验结果显示了GEM 在这些任务上的显著优势。
表3:下游任务表现
总结与讨论
整体来看,GEM在极少偏好监督下,仍能借助熵引导的认知过滤和SEGA,从少量偏好中提炼高价值的多维度细粒度的认知信号进行稳定、有效的对齐,并普遍提升推理质量、减少幻觉,并增强大语言模型的稳健性。
从更宏观的维度思考,GEM的本质思路有潜力更广泛地应用于所有依赖少量人工标注的深度学习算法之中。
传统监督学习将人类标注视为「单点决策」,只记录最终答案,而GEM将标注重新解释为「多维认知评估的投影」——即每一个标签实际上隐含着人类在判断过程中经历的多维度、多阶段的推理、权衡与不确定性处理。
通过熵的双相性原理,GEM提供了一种将这种隐藏的认知结构从极少量标签中提取出来的通用范式。
因此,无论是分类、序列标注、推荐系统、图神经网络任务、医学影像诊断、知识图谱补全,乃至更复杂的规划、强化学习策略优化、可解释AI,都可以将GEM的「认知过滤—优势整合」机制作为外层结构嵌套进去,让模型在极少标注条件下主动生成、评估并提炼潜在的认知信号,从而实现对有限标注信息的放大。
换言之,GEM有潜力成为一种普适的、跨任务的低资源认知增强框架:将「标签」从静态信息转化为动态认知轨迹,将「学习」从模仿答案转化为提取人类思维结构。
作者信息
论文的第一作者是赵依洋, 他在新加坡南洋理工大学计算与数据科学学院攻读硕士研究生期间完成这项工作,目前在复旦大学攻读博士学位。第二作者是南洋理工大学计算与数据科学学院的硕士研究生白惠予。
该研究的通讯作者赵雪娇博士在百合卓越联合研究中心(LILY Research Centre)担任瓦伦堡–南洋理工大学校长博士后研究员期间完成这项工作,目前她任职于阿里巴巴—南大全球数码可持续发展联合实验室(Alibaba-NTU Global e-Sustainability CorpLab, ANGEL)担任研究科学家。
参考资料:
https://arxiv.org/abs/2511.13007
秒追ASI