-通信：“合成数据+强化学习”：大模型进化的新范式_资讯

-通信：“合成数据+强化学习”：大模型进化的新范式

创始人

2024-09-20 16:20:57

今天分享的是【国盛证券-通信：“合成数据+强化学习”：大模型进化的新范式】报告出品方：国盛证券

当地时间 9 月 12 日，OpenAI 发布新模型系列 o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview 每百万 token 输入 15 美元，每百万输出 token60 美元，o1-mini 相对便宜，每百万 token 输入 3 美元，每百万 token 输出 12 美元。目前 ChatGPT Plus 和 Team 用户可以在模型选取器中手动选择，o1-preview 每周限制 30 条消息，o1-mini 每周限制 50 条消息。 o1 亮点一：或为 OpenAI 新模型“Orin”生成合成数据。

据 The Information，o1 或为 OpenAI 新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI 创始团队出走创办的 Anthropic——OpenAI 的有力竞争对手，2024 年 6 月发布了大模型 Claude 3.5 Sonnet，该模型使用了合成数据，在多个测试中的表现优于 GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面” “隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。

o1 亮点二：“合成数据+强化学习”，o1 或确认大模型进化新范式。市场认为，Scaling Law（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据 OpenAI 工程师 Jason Wei，o1 使用了强化学习（RL）做思维链（Chain of Thought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即 Scaling Law 可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL），指模型 A 生成推理结果后，由模型 B 给推理结果打分，帮助模型 A 不断调整参数、迭代、进化，分成 RLAIF（基于 AI 反馈的强化学习）和 RLHF（基于人类反馈的强化学习）多种，后者曾因被用于 ChatGPT 而名声大噪。

免责声明：以上报告均系本平台通过公开、合法渠道获得，报告版权归原撰写/发布机构所有，如涉侵权，请联系删除；资料为推荐阅读，仅供参考学习，如对内容存疑，请与原撰写/发布机构联系

上一篇：最新公告！327个医疗器械产品批准注册，四川有→

下一篇：融资总被拒,高负债人群如何通过贷款审批？

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

-通信：“合成数据+强化学习”：大模型进化的新范式

相关内容

热门资讯