今天分享的是【国盛证券-通信:“合成数据+强化学习”:大模型进化的新范式】 报告出品方:国盛证券
当地时间 9 月 12 日,OpenAI 发布新模型系列 o1(代号“草莓”),该 模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内 部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview 每 百万 token 输入 15 美元,每百万输出 token60 美元,o1-mini 相对便宜, 每百万 token 输入 3 美元,每百万 token 输出 12 美元。目前 ChatGPT Plus 和 Team 用户可以在模型选取器中手动选择,o1-preview 每周限制 30 条 消息,o1-mini 每周限制 50 条消息。 o1 亮点一:或为 OpenAI 新模型“Orin”生成合成数据。
据 The Information,o1 或为 OpenAI 新模型“Orin”生成合成数据。无独有偶, 我们注意到,OpenAI 创始团队出走创办的 Anthropic——OpenAI 的有力 竞争对手,2024 年 6 月发布了大模型 Claude 3.5 Sonnet,该模型使用了 合成数据,在多个测试中的表现优于 GPT4o。我们发现,在人类生成的数 据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面” “隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能 力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练 过程中积累数据”等方式尝试解决。
o1 亮点二:“合成数据+强化学习”,o1 或确认大模型进化新范式。市 场认为,Scaling Law(指大模型随着参数的增大而增强能力)只存在于大 模型训练阶段。但我们发现,根据 OpenAI 工程师 Jason Wei,o1 使用了 强化学习(RL)做思维链(Chain of Thought)来训练模型;思维链可以 使模型在推理阶段实现能力增强,即 Scaling Law 可以不止出现在训练阶 段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型 A 生成 推理结果后,由模型 B 给推理结果打分,帮助模型 A 不断调整参数、迭 代、进化,分成 RLAIF(基于 AI 反馈的强化学习)和 RLHF(基于人类反 馈的强化学习)多种,后者曾因被用于 ChatGPT 而名声大噪。
免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系