浅析o1推理能力增强原理及复现路径
创始人
2024-10-23 12:41:13

今年9月,OpenAI发布新一代AI大模型o1,被视为大语言模型技术的重大突破和生成式AI发展的历史拐点。

在公开报道中,o1作为OpenAI迄今为止最强的一款AI大模型,数学竞赛的模型能力评分高达83.3,编程能力是GPT-4o的8倍,进一步试探AGI(通用人工智能)的能力上限。

但o1大模型的推理能力为何能快速进化?是什么造就了o1模型性能的突破?o1怎么复现?很多人好奇,却鲜有答案。

为此,笔者结合行业观察简单分享一二,希望对各位从业者有所启发。

o1大模型性能进化的原理

关于大语言模型性能的方法和思路,此前我们曾在《3分钟带你了解智能涌现与Scaling law》中探讨过。

简单来说,早期的AI大模型主要通过Scaling law(持续增加语料数据集、模型参数和训练量)的方法来实现模型性能的持续提升。但问题是,这招“大力出奇迹”要持续负担的资金投入、能源消耗极大,加上可用的优质数据集越发稀缺,模型性能的持续突破面临瓶颈。

而以o1系列为代表的新一代大模型在此基础上开辟了新思路,主要表现在模型训练阶段引入大规模强化学习(Reinforcement learning,简称RL),让推理侧拥有System2能力(又称慢思考或逻辑思考能力),以增强模型在逻辑推理和复杂任务处理上的表现。

虽然表面来看,o1只是加了个强化学习,不过,经RL训练的大模型能将思维链(Chain of Thought,简称COT)内化到模型当中,让硅基大脑像人类一样进行问题分解、反思优化、错误修正等,模型自身性能得以显著提升,System2能力下的模型幻觉问题也很大程度上迎刃而解。

“LLM+RL”的组合范式,让大模型在现有的数据、算力和参数量级下,打破固有的尺度桎梏,实现性能的持续改善。但它和Scaling law并不相悖,某种程度上其实算是核心要素权重的重新组合。

比如o1系列模型经RL训练后,伴随训练计算及推理时长的增加,能实现持续的性能提升。这里依然符合Scaling law定律,只是性能提升的促因从传统的模型参数量的增加,转向了模型进行更多RL 探索后带来的深度推理计算时间(Inference-time compute)的延长。

此外,System 2能力的提升,除了进一步扩大预训练( Pre training )的scale基础,业内更多认为在于后训练(Post -training) 及最终的模型推理(Inference)。

这意味着模型经RL训练后延续scaling law的思路,仍是推理性能提升的关键。

笔者注:Pre-training的效用,是GPT4路线,做system1推理。而system 2能力的提升,业内共识更多在后训练(Post -training)。

o1怎么复现?

o1爆火后,网上有不少关于o1的原理解析和逆向工程探讨,具体大家可以去翻帖。而在笔者看来:o1的复现路径,其实可以用一个泛函分析公式来理解。

即:F(M,D) = f: X -> Y

其中,f是表示推理,F表示训练。

M,对应AI,是深度学习模型。对应到人的智能,即生物神经网络。

D,对应到AI,是数据集。对应到人,即学习过程的环境输入和解题思维过程。

X是(token_1, token_2, ..., token_c), c是最大context_token长度。

Y是(token_1, token_2, ..., token_n), n是最大new_token长度。

token是d维向量,X是(d, c)维矩阵,Y是(d, n)维矩阵。

用这个公式来理解o1,RL的关注点是训练函数F,其核心在于通过融合LLM和RL生成思维链,以强化大模型在数学、逻辑推理、符号推理等方面的性能和表现。

为了保障RL 算法在连续推理任务上的性能,在system2进行逻辑推理时引进self-play(自我对弈)以更新模型参数,生成更多高质量博弈数据,是o1性能提升的关键,也是self-play的关注点是数据集D的一大原因。

图注:司普科技superAGI架构融入CoT、self-play

而从整个通用人工智能发展规律看,AGI其实相当于把能胜任所有人做的工作,都用一个推理函数f来实现。

笔者注:GPT4之后,科学家已就现有的算力和人工神经网络将能在数年内训练出代替人的推理函数f这一点达成共识。

据此推断,推理函数f处理AGI任务时需要什么,其实就可以倒推训练函数F需要什么。

比如让AI做数学题,需要在模型训练时具备训练题目(任务定义)、做题方法(探索与搜索)、正确答案(奖励机制)三大要素。

目前基础的大模型数学训练数据集可以从互联网大量采集加工,但数学公式之上的推理逻辑,多元准确的解题思路和方法,这类system2推理数据集却是互联网的稀缺资源。

这时,要想提升模型在数学计算上的表现,需要在掌握学科知识图谱基础上,利用self-play技术能力(即利用system2进行逻辑推理,通过持续自我博弈和修正)才能得到最优正解。

而self-play正是o1擅长的点,也是复现o1的关键所在。

备注:本文原创,首发司普科技,部分整理自黄洪武先生就拾象英雄帖的交流探讨,仅做分享。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

台积电基本面分析 # 台积电基本面分析## 一、公司概况台积电(Taiwan Semiconductor Manufa...
这些小细胞,竟能影响牛羊“打嗝... 你知道吗?全球因人类活动产生的甲烷,约有30%以上源于畜牧业中的牛、羊等反刍动物。牛、羊等反刍动物具...
卢伟冰:内存上涨影响显著 年底... PChome 5月18日消息,小米总裁卢伟冰在直播中透露,受上游存储芯片价格持续暴涨影响,今年下半年...
今年“6·18”,AI成最大卖... 今年“6·18”大促,AI站在了聚光灯下。5月18日,在京东2026年“6·18”启动发布会上,京东...
文凭贬值、AI为王:没有独立思... 陆天然/文 人生处世的底层章法,与掼蛋对局的制胜逻辑同源互通。深谙牌道之人始终明白,一局博弈的最终输...
原创 A... 今日,京东在京召开媒体发布会,宣布今年京东618将于5月30日晚8点正式开启。而今年京东618最大的...
寻城记——XR解码济南大明湖西... 齐鲁晚报·齐鲁壹点 王建伟 于子洋 5月18日,国际博物馆日到来之际,山东数字文化集团推出创意视频《...
英国拟调整银行业务分离规则 据路透社5月18日报道,英国政府今日发布银行业务分离(ring-fencing)规则的拟议改革方案,...
最低月租9.9元!中国电信推出... 中国电信(资料图) 5月17日,中国电信推出系列试商用“Token套餐”,具体包括以下三部分内容: ...
广东省贸促会周部长及企业代表莅... 2026年5月16日下午,广东省贸促会周油松部长、东莞市森亿合智能包装有限公司周邦副总经理、广州同华...