LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
创始人
2024-12-23 16:41:36
0

新智元报道

编辑:LRS

【新智元导读】只需几十个样本即可训练专家模型,强化微调RLF能掀起强化学习热潮吗?具体技术实现尚不清楚,AI2此前开源的RLVR或许在技术思路上存在相似之处。

在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」:

如果智能是一块蛋糕,那么蛋糕中的大部分都是无监督学习,蛋糕上的糖霜(锦上添花)是有监督学习,蛋糕上的樱桃则是强化学习。

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

从大型语言模型的发展路线来看,这种比喻实在是完美预测:从计算量FLOP上的开销来看,对互联网上的海量数据进行自监督学习占据了大部分训练时间;之后是用指令监督微调(SFT)数据进行后训练,开销相比自监督训练来说大大降低;最后的强化学习则是让大模型走向终端用户的必备阶段,可以提高模型的安全性,但模型只是从部分训练样本中学习少量信息。

「强化微调」(RFT)的API,开发者只需提供最低「几十个」高质量样本,就能实现领域专家模型的定制,还能根据提供的参考答案对模型的回复进行评分,再次印证了强化学习的重要性!

强化微调的重点是「匹配答案」(matching answer),给定查询和正确答案,RFT可以帮助模型「学习」如何获得正确答案。

相比标准的指令调优(instruction tuning)只是对数据进行1-2个epoch的损失计算,并更新模型权重,强化微调则是通过对相同的几个数据点进行成百上千个epochs来让模型有时间学习新行为。

重复数据在基础模型训练的时候作用不大,但却可以提升RFT的稳定性。

强化学习的发展可能已经超过了Yann LeCun的预测,不再只是一颗蛋糕上的樱桃,未来或许「有监督微调」不再那么重要,只需要在互联网数据上进行自监督,然后进行自我强化学习,而不需要明确的人工设计。

大模型技术路线再次颠覆

「强化微调」的出世,也标志着语言模型和强化学习的发展路线再次发生变化:

1. 强化学习的稳定性是可以解决的

开发人员在考虑是否采用强化学习时,其稳定性一直是核心因素,主要体现在两方面:强化学习本身可能会发生剧烈变化,不一定稳定有效;其次,强化学习的训练本身比标准语言模型训练更脆弱,更容易出现损失峰值、崩溃等情况。

如今OpenAI能发布强化学习的API,虽然目前仍然处于测试阶段,但也代表着他们对这项技术的稳定性有了突破,不管用户的数据是什么样,都能稳定、有效地训练。

以往,研究人员要运行强化学习算法时,通常都会一次性运行多个随机种子,然后选择那些没有崩溃的模型继续运行;而现在就可以依赖强化学习模型的稳定运行,并在模型检查点上与初始策略计算KL距离,以确保效果不会下降。

2. 开源版本或许已经「存在」

强化微调与AI2最近发布的「具有可验证奖励的强化学习(RLVR)」工作非常相似,核心组件,如数据格式和优化器类型是相同的,只要开源社区继续合作来增加强化学习数据,对不同的模型、不同类型的数据等进行实验。

3. 高级推理模型的潜在数据飞轮

之前有猜测认为,OpenAI的o1模型使用了某种搜索策略,主要通过大规模RL数据进行训练,并具有可验证的输出,和这个API很类似。

按照预期来说,用户通过API上传数据,OpenAI就可以积累海量数据集来继续训练o1模型的下一个版本,o1目前的主要限制仍然是适用领域缺乏多样性,如果有用户的飞轮数据参与进来,o1势必会更加强大。

4. 强化学习语言模型训练的范围不断扩大

在基础科学层面上,o1的最大的贡献是,让我们有了更多的方法来训练语言模型,以实现潜在的高价值行为;向研究人员和工程师开放的大门越多,我们对人工智能的总体发展轨迹就应该越乐观。

大概一年前,OpenAI的一位研究人员就曾提到过,他们对RLHF及相关方法非常有信心,因为损失函数比自回归预测更通用,最近的发展也正如大部分人期待的,强化学习中的人类反馈(human feedback)也并不是特别必要。

强化微调实现的猜测

由于OpenAI没有公布任何技术细节,所以对具体的实现仍然只能靠猜。

分类模型/配置(Grader models/configs act as reward shaping for generalized answer checking)

强化学习能成功实现的核心是「正确界定环境范围」,其中环境由转移函数(transition function)和奖励函数组成;

语言模型的转移函数是人为设计的,也就是语言模型策略本身;奖励函数是从状态和动作(即提示和模型回复)到奖励标量值的映射。

对语言模型的输出答案进行评分并不新鲜,比如Llama 3.1同时使用「Python代码」和「其他大模型」作为判断器来检查数学答案是否正确;答案的错误或正确对应0或1的二进制分数。

12月7日,OpenAI微调团队的John Allard此前发布过一份关于评分器背后思路的说明,以及相关配置的屏幕截图,基本思路是把待评分的回复分解成一个结构化的对象,然后对每一项的数值进行比较,得到精确率、召回率等指标。

比如想训练一个信息抽取器模型,评分器会根据预定义的结构,比如就读的大学、已知的编程语言、当前居住城市等项分别进行评分,最后获得一个汇总评分。

{ "university": "University of California Berkeley", "programming_languages": [ "python", "c++", "java"], "city": "Los Angeles", "state": "California" }

数据效率优化

在直播中,OpenAI提到用户只需要「几十个」RFT样本就可以在新领域进行学习;对于每个提示,强化学习(RL)可以根据超参数设置在一批中生成多个评分回复,在学习步骤和数据的多次迭代中「重复训练」,因此模型能够尝试不同的「策略」来找到正确的答案。

比如用几千个提示在数据集上运行数十万条强化学习训练数据,模型可以多次看到相同的提示而不会过度拟合。

稳定的基础语言模型

事实证明,强化学习更适合微调而不是从头开始训练,基础强化学习工作已经在控制和决策方面证明了这个结论;凭借非常稳定的基础,强化学习微调可以温和地搜索更好的行为表达,而不会显着改变模型性能。

比如某个RFT领域对于模型来说是非常新的,可能只需要10个样本即可获得总体性能提升。

对于OpenAI来说,o1模型经过大规模训练,应该已经极其稳定了,可以作为强化学习微调的基础, 其微调平台团队成员John Allard就曾表示:任何人都可以利用相同的训练算法和基础设施在新领域微调出一个专家o1模型。

参考资料:

https://www.interconnects.ai/p/openais-reinforcement-finetuning

相关内容

热门资讯

天相投资顾问有限公司股多多软件...   天相投顾公司的股多多软件真实使用感受怎么样?股民花高价购买了他们的软件后真有用?  北京天相财富...
四川大决策投顾违规荐股欺骗消费...   四川大决策违规主要违反了《证券投资顾问业务暂行规定》中的第二十四条“证券公司、证券投资咨询机构应...
杭州高能云VIP投顾服务垃圾骗...   杭州高能云VIP投顾服务垃圾骗人的,被业务员虚假宣传诱导消费!  为了让股民去购买他们家公司的服...
上海汇正财经顾问有限公司收服务...   上海汇正财经顾问有限公司金斗云智投荐股不靠谱,牛人掌柜到后面升级的私人订制服务都不靠谱!  上海...
杭州顶点财经七分公司虚假宣传骗...   杭州顶点财经公司旗下的几个分公司在网上给股民虚假宣传,夸大宣传,诱导营销!之前杭州顶点财经网络传...
夜郎醇酒业(广州)有限公司不能...   夜郎醇酒业(广州)有限公司不能上市,虚假宣传买股权送酒骗局!  买酒送原始股股票,存钱不如存酒。...
深圳珞珈投资投顾服务不靠谱骗人...   深圳市珞珈投资咨询有限公司(珞珈投资)是一家正规的投顾公司?在珞珈投资公司交完服务费后,发现他们...
浙江同花顺云软件业务员虚假宣传...   浙江同花顺云软件有限公司前不久刚刚被证监会给调查了,而且做出了三个月的停业整顿!“11月18日,...
深圳国诚投资上海分公司荐股服务...   国诚投资上海分公司正规合法吗?深圳国诚投顾公司业务员都是通过给你发一些所谓的盈利截图或者是做概率...
上海汇正财经顾问公司虚假宣传诱...   上海汇正财经顾问有限公司业务员不断地营销他们的服务,吹嘘他们的投顾服务有多牛,多么智能,并且购买...
上海九方智投29800元股票会...   股民听信上海九方云智能科技有限公司业务员的宣传,购买了他们公司的投顾服务,本以为能跟着九方智投的...
北京天相财富上海分公司股票软件...   北京天相财富管理顾问有限公司包括旗下的上海分公司,都存在业务员虚假宣传的情况,为了卖出公司的软件...
上海汇正财经一对一私人订制服务...   上海汇正财经一对一私人订制服务骗局,夸大营销诱导股民交费!  上海汇正财经顾问有限公司业务员虚假...
杭州高能云公司业务员虚假宣传欺...   杭州高能云科技有限公司业务员虚假宣传欺骗消费者,投顾服务一直亏钱!  听信业务员的宣传,在购买他...
上海海能投顾虚假宣传夸大收益,...   上海海能证券投资顾问有限公司给客户进行夸大不实宣传,公司的投顾服务完全没有达到宣传的,为了让股民...
四川大决策投顾坑骗股民没有任何...   四川大决策证券投资顾问有限公司诱导股民去购买他们公司的服务,给客户进行虚假宣传,夸大宣传,实际服...
杭州顶点财经网络传媒有限公司坑...   杭州顶点财经诱导股民去购买他们公司的服务,给客户进行虚假宣传,夸大宣传,实际服务与宣传的服务完全...
杭州顶点财经公司坑骗广大股民诱...   杭州顶点财经网络传媒有限公司收取高额荐股服务费,给股民进行虚假宣传,诱导营销的方式来吸引股民去交...
新春投资特刊|韩志国:做多A股... 韩志国 经济学家 北京邦和财富研究所所长 今年国庆节前后的A股市场,多空双方进行着激烈的市场较量。 ...
提前完成目标!小米SU7,全年... 小米汽车28日宣布,截至目前,小米SU7全年交付量已超过13万辆,已提前完成全年所有目标。 小米总裁...