OpenAI Codex工程负责人Thibault Sottiaux做客Dev Interrupted播客,用40分钟拆解了Codex团队构建自主编程智能体的方法论。核心观点一句话:复杂的脚手架(scaffolding)不是在扩展能力,是在掩盖问题。
时间节点值得注意。播客发布不到三周,OpenClaw创始人Peter Steinberger宣布加入OpenAI,负责下一代个人智能体。Steinberger此前公开说自己是"Codex最大的免费广告",用Codex构建了整个OpenClaw,生产力翻倍——尽管他同时承认Claude Opus是"最好的通用智能体"。一个在Anthropic生态里成名的开发者最终选了OpenAI,背后逻辑跟Sottiaux在这期播客里讲的东西高度吻合:真正的竞争力在模型能力和垂直整合,不在外部堆叠的工程花活。
智能体优先,产品其次
Sottiaux开场划了一条线:Codex首先是一个通用智能体,产品界面是后来才考虑的事。先把智能体做强,再去找它能放在哪里工作。"当你转向先建智能体、再想放哪儿的时候,你会发现大量意想不到的应用场景。"
这个思路解释了一个现象:社区里每周都有公司告诉Codex团队,他们基于开源版本构建了自己的业务,而且往往用在非编程领域。有人改造成电子表格编辑器,有人嵌入浏览器做自动化。智能体本身是通用的,产品形态是可变的。
Sottiaux特别强调,对软件工程师来说真正的瓶颈不是代码生成,而是日常工作中的其他环节——规划、沟通、代码审查、理解系统状态。这些才是代码生产速度飙升后暴露出的真正卡点。
垂直整合:在正确的层级解决问题
Codex团队坐在一个独特位置:基础模型、智能体框架、面向用户的产品,全在一个组织内部。这带来的不只是效率,而是一种根本性的架构决策能力。
1、研究和工程形成双向飞轮。工程实践发现的问题会影响研究方向,研究突破又重塑整个工程路线图。Sottiaux说里面有很多大循环和小循环在同时转。
2、可以选择在哪一层修复问题。有些东西不需要在框架里打补丁,直接在下一版模型训练中解决效果更好。"我们知道三个月后、六个月后的模型训练会带来能力跳跃,这让我们能做出别人做不了的权衡。"
3、系统级的scaling law验证。Codex团队会在小模型、中等模型、前沿模型上分别测试同一套harness的表现,验证整个系统(不只是模型)是否符合预期的扩展曲线。这相当于把scaling laws(扩展定律)从模型层面延伸到了完整系统层面。
他还引用了No Free Lunch定理:试图在所有分布上都表现智能,必然不如为特定分布专门优化。harness和model耦合在一起训练和部署,就是在做这种特定分布的优化,所以能获得单独优化任何一边都拿不到的能力提升。
对于没有垂直整合条件的团队,Sottiaux也给了判断:如果你想对所有基础模型保持完全无关性,你就只能找到这些模型的公共子集来构建,性能必然打折扣。他预计主流玩家最终只会为少数几个模型做深度适配,"为几千个模型都做调整是不现实的"。
脚手架是拐杖,不是翅膀
这是整期最核心的观点。
Sottiaux用了一个精准的框架:之所以叫harness(脚手架),是因为你在给模型搭临时支撑,目标是随着模型能力增强逐步拆除。模型应该能独立站立。但很多团队走向了反方向——把脚手架当成喷气背包,不断往里塞工具、塞逻辑、塞规则,系统越来越重。
这带来一个Sottiaux称之为capability overhang(能力悬崖)的风险:框架中引入太多偏见和约束,当模型能力出现跳跃时,你反而无法表达这些新能力。系统复杂度锁住了模型潜力。垂直整合的好处在于,Codex团队只需要关心自己的模型系列,每次改进都可以移除一部分脚手架,而不用担心破坏不在控制范围内的东西。
"一旦你发现了正确的原语(primitive),它们看起来简单得令人愉悦。但寻找这些原语的过程本身是复杂的。"这跟Richard Sutton的bitter lesson(苦涩教训)一脉相承:在AI发展史上,依赖人类领域知识的聪明技巧,最终总是输给能随计算规模扩展的简单方法。
开源策略的三重逻辑
Codex开源不是简单的社区建设,背后有三层考量。
第一层,破除智能体的神秘感。当时市场上对智能体有大量迷思。开源就是要展示:其实可以做得非常简单,关键是把几个原语做对,就能从模型中榨出惊人的性能。
第二层,理解开源世界本身将如何被改变。一个大胆的判断:如果AI解决了代码生成,开源的运作方式会发生根本性变化。Codex团队想通过参与开源来提前理解这种变化。
第三层,借社区创造力发现新用法。目前仓库有超过一千个fork,团队跟fork作者合作,把好的改动移植回主仓库。
从Type迁移到Rust是社区关系中的艰难时刻。之前接受了大量PR,迁移等于重写代码库。但团队有明确信念:预期未来会有数百万甚至数十亿个智能体并发运行,需要一门高效语言。迁移之后,社区关系重新建立,一批优秀的Rust贡献者加入了核心开发。
2025年的教训和2026年的方向
去年最大的痛点是上下文压缩(compaction)。当智能体工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文继续。这个过程中模型会丢失大量之前的工作上下文。用提示词和框架层的启发式方法解决,效果始终不好。Sottiaux说对很多智能体来说,这类启发式逻辑是harness中最大的复杂度来源。
最终决定在模型训练层面端到端解决。现在智能体可以跨越20个上下文窗口持续工作,相关投诉几乎降为零。又是一个"在正确层级解决问题"的案例。
2026年三个方向:
多智能体网络。去年单智能体变得可靠,今年将看到多智能体协作,产出量提升一到两个数量级。随之而来的问题是:同样的时间段内要消耗多得多的token,也要审查多得多的代码。
速度。"我们在智能前沿,还没到速度前沿。"预计模型今年显著加速,达到智能水平与响应速度的甜蜜点,让产品体验从"能用"变成"愉悦"。
协作型人格。 Codex目前的交互风格被用户评价为"固执的直男工程师"。Sottiaux自己也希望模型在协作中给一些情感确认,"承认我也在笔记本后面努力"。不同场景需要不同风格:头脑风暴时别挑剔代码质量,关键代码库里则要把每个潜在风险都标出来。Codex去年参与发现了一些重量级React漏洞,那种场景下不需要友好人格,需要的是冷酷精准。
开发者角色的重塑
1、代码审查成了关键瓶颈。Codex团队去年构建了专门的代码审查模型,部署到整个OpenAI内部。结果出乎意料:几乎所有团队默认启用,很多团队强制要求Codex审查PR,因为它捕获了大量bug。代码产出速度大幅提升后,质量把关不能还靠人力。
2、智能体加速了人与人的协作,而不是替代。Sottiaux说了一个反直觉的观察:团队里面对面的时间反而增加了,创意讨论和规划更多了。因为每个人都被加速了,一旦达成共识就能立即执行,一周能完成过去一个月的量。所以在决定做什么之前对齐得更充分了。
3、super bus factor问题。一个工程师能独立交付整个产品,协作还有必要吗?Sottiaux的答案是:记录意图变得至关重要。他开始构建工具来追踪团队和组织层面的变更,让每个人都能快速理解正在发生什么、为什么这样实现。"不只是让代码生成快100倍,而是让人类理解系统状态的速度也快100倍。"
4、spec和plan的局限性。Sottiaux承认自己是design doc的信徒,但也指出大型spec会随时间变得过于庞大,出现内部矛盾,跟实现脱节。有时候plan就是"我们需要获取信号",列出五件要做的事来验证方向,而不是写一份完整蓝图。"有时你不知道该做什么,但知道需要构建什么来获取做决定所需的信号。"
5、工程师的职业路径向TLM(Tech Lead Manager)演进。每个工程师现在能查用户反馈、跑查询、分析数据库schema、管理多个智能体任务,独立运转一个小型工程团队。核心技能越来越像技术负责人加产品经理的混合体。未来甚至可以派智能体去做用户访谈、汇总互联网对产品的评价。Sottiaux认为这跟传统的晋升路径兼容——很多人本来就想往这个方向走。
6、新人的独特优势。团队里最受信任的成员之一是个新毕业生。没有几十年编程习惯的包袱,对新工具和新方式完全开放,每天都在适应,反过来教整个团队如何提高生产力。"没有这些人,我们整个团队会慢很多。"每个组织都有这样的人,可能藏在某个角落悄悄用智能体做出惊人的事情,找到他们,让他们的方法传播开来。
终极建议:训练你的宝可梦
Sottiaux最后的建议是关于Skills(技能)。这是一个开放标准,你可以教模型用你认为最有效的方式执行特定任务——看日志、跑性能测试、自动QA。他自己有一个QA skill,让Codex在终端里用自己的一个版本来测试新功能是否符合规格、有没有回归。
"这是我最接近训练宝可梦的感觉。每次交互它都在升级,做得比上次更好一点。你开始跟它建立一种类似信任的关系,因为它越来越可靠。"宝可梦是任天堂旗下的经典游戏系列,玩家扮演训练师,收集各种小精灵并通过反复战斗让它们升级、学会新招式,从弱变强。Sottiaux用这个比喻想说的是,给智能体添加Skills的过程就像培养一只专属于你的精灵——不是一次性配置好就完事,而是持续投入和调教,最终得到一个只适配你工作流的、越来越强的搭档。
关键在于不要只自动化代码生成。想想日常工作中所有你不想做但必须做的环节,把那些交出去,保留编程中真正让你愉悦的部分。Skills让你把智能体塑造成适配自己工作流的样子,就像厨师随身带着自己的刀具——你磨它、养护它、带着它去下一个厨房。
Takeaway
这期播客的信息密度很高,但底层逻辑其实就一条:在AI智能体领域,复杂度是债务,简洁是资产。Codex团队通过垂直整合,把scaling laws从模型延伸到整个系统,持续寻找能随模型能力扩展的简单原语,然后在正确的层级解决问题——上下文压缩搞不定就别在框架里打补丁,直接在模型训练里根治。对于没有垂直整合条件的团队,教训同样成立:你的框架应该是脚手架,不是喷气背包,随着模型变强你应该在拆东西而不是加东西。如果你只做一件事,就是开始构建属于自己的Skills,把智能体从一个通用工具变成专属于你工作流的搭档。别只自动化写代码这一个环节,想想你每天花时间最多但最不想做的那些事。