OpenAI Codex负责人：脚手架是自欺欺人，可扩展的原语才是正道_资讯

OpenAI Codex负责人：脚手架是自欺欺人，可扩展的原语才是正道

创始人

2026-02-23 22:01:51

OpenAI Codex工程负责人Thibault Sottiaux做客Dev Interrupted播客，用40分钟拆解了Codex团队构建自主编程智能体的方法论。核心观点一句话：复杂的脚手架（scaffolding）不是在扩展能力，是在掩盖问题。

时间节点值得注意。播客发布不到三周，OpenClaw创始人Peter Steinberger宣布加入OpenAI，负责下一代个人智能体。Steinberger此前公开说自己是"Codex最大的免费广告"，用Codex构建了整个OpenClaw，生产力翻倍——尽管他同时承认Claude Opus是"最好的通用智能体"。一个在Anthropic生态里成名的开发者最终选了OpenAI，背后逻辑跟Sottiaux在这期播客里讲的东西高度吻合：真正的竞争力在模型能力和垂直整合，不在外部堆叠的工程花活。

智能体优先，产品其次

Sottiaux开场划了一条线：Codex首先是一个通用智能体，产品界面是后来才考虑的事。先把智能体做强，再去找它能放在哪里工作。"当你转向先建智能体、再想放哪儿的时候，你会发现大量意想不到的应用场景。"

这个思路解释了一个现象：社区里每周都有公司告诉Codex团队，他们基于开源版本构建了自己的业务，而且往往用在非编程领域。有人改造成电子表格编辑器，有人嵌入浏览器做自动化。智能体本身是通用的，产品形态是可变的。

Sottiaux特别强调，对软件工程师来说真正的瓶颈不是代码生成，而是日常工作中的其他环节——规划、沟通、代码审查、理解系统状态。这些才是代码生产速度飙升后暴露出的真正卡点。

垂直整合：在正确的层级解决问题

Codex团队坐在一个独特位置：基础模型、智能体框架、面向用户的产品，全在一个组织内部。这带来的不只是效率，而是一种根本性的架构决策能力。

1、研究和工程形成双向飞轮。工程实践发现的问题会影响研究方向，研究突破又重塑整个工程路线图。Sottiaux说里面有很多大循环和小循环在同时转。

2、可以选择在哪一层修复问题。有些东西不需要在框架里打补丁，直接在下一版模型训练中解决效果更好。"我们知道三个月后、六个月后的模型训练会带来能力跳跃，这让我们能做出别人做不了的权衡。"

3、系统级的scaling law验证。Codex团队会在小模型、中等模型、前沿模型上分别测试同一套harness的表现，验证整个系统（不只是模型）是否符合预期的扩展曲线。这相当于把scaling laws（扩展定律）从模型层面延伸到了完整系统层面。

他还引用了No Free Lunch定理：试图在所有分布上都表现智能，必然不如为特定分布专门优化。harness和model耦合在一起训练和部署，就是在做这种特定分布的优化，所以能获得单独优化任何一边都拿不到的能力提升。

对于没有垂直整合条件的团队，Sottiaux也给了判断：如果你想对所有基础模型保持完全无关性，你就只能找到这些模型的公共子集来构建，性能必然打折扣。他预计主流玩家最终只会为少数几个模型做深度适配，"为几千个模型都做调整是不现实的"。

脚手架是拐杖，不是翅膀

这是整期最核心的观点。

Sottiaux用了一个精准的框架：之所以叫harness（脚手架），是因为你在给模型搭临时支撑，目标是随着模型能力增强逐步拆除。模型应该能独立站立。但很多团队走向了反方向——把脚手架当成喷气背包，不断往里塞工具、塞逻辑、塞规则，系统越来越重。

这带来一个Sottiaux称之为capability overhang（能力悬崖）的风险：框架中引入太多偏见和约束，当模型能力出现跳跃时，你反而无法表达这些新能力。系统复杂度锁住了模型潜力。垂直整合的好处在于，Codex团队只需要关心自己的模型系列，每次改进都可以移除一部分脚手架，而不用担心破坏不在控制范围内的东西。

"一旦你发现了正确的原语（primitive），它们看起来简单得令人愉悦。但寻找这些原语的过程本身是复杂的。"这跟Richard Sutton的bitter lesson（苦涩教训）一脉相承：在AI发展史上，依赖人类领域知识的聪明技巧，最终总是输给能随计算规模扩展的简单方法。

开源策略的三重逻辑

Codex开源不是简单的社区建设，背后有三层考量。

第一层，破除智能体的神秘感。当时市场上对智能体有大量迷思。开源就是要展示：其实可以做得非常简单，关键是把几个原语做对，就能从模型中榨出惊人的性能。

第二层，理解开源世界本身将如何被改变。一个大胆的判断：如果AI解决了代码生成，开源的运作方式会发生根本性变化。Codex团队想通过参与开源来提前理解这种变化。

第三层，借社区创造力发现新用法。目前仓库有超过一千个fork，团队跟fork作者合作，把好的改动移植回主仓库。

从Type迁移到Rust是社区关系中的艰难时刻。之前接受了大量PR，迁移等于重写代码库。但团队有明确信念：预期未来会有数百万甚至数十亿个智能体并发运行，需要一门高效语言。迁移之后，社区关系重新建立，一批优秀的Rust贡献者加入了核心开发。

2025年的教训和2026年的方向

去年最大的痛点是上下文压缩（compaction）。当智能体工作超出模型上下文窗口后，需要摘要已完成工作、重置上下文继续。这个过程中模型会丢失大量之前的工作上下文。用提示词和框架层的启发式方法解决，效果始终不好。Sottiaux说对很多智能体来说，这类启发式逻辑是harness中最大的复杂度来源。

最终决定在模型训练层面端到端解决。现在智能体可以跨越20个上下文窗口持续工作，相关投诉几乎降为零。又是一个"在正确层级解决问题"的案例。

2026年三个方向：

多智能体网络。去年单智能体变得可靠，今年将看到多智能体协作，产出量提升一到两个数量级。随之而来的问题是：同样的时间段内要消耗多得多的token，也要审查多得多的代码。

速度。"我们在智能前沿，还没到速度前沿。"预计模型今年显著加速，达到智能水平与响应速度的甜蜜点，让产品体验从"能用"变成"愉悦"。

协作型人格。 Codex目前的交互风格被用户评价为"固执的直男工程师"。Sottiaux自己也希望模型在协作中给一些情感确认，"承认我也在笔记本后面努力"。不同场景需要不同风格：头脑风暴时别挑剔代码质量，关键代码库里则要把每个潜在风险都标出来。Codex去年参与发现了一些重量级React漏洞，那种场景下不需要友好人格，需要的是冷酷精准。

开发者角色的重塑

1、代码审查成了关键瓶颈。Codex团队去年构建了专门的代码审查模型，部署到整个OpenAI内部。结果出乎意料：几乎所有团队默认启用，很多团队强制要求Codex审查PR，因为它捕获了大量bug。代码产出速度大幅提升后，质量把关不能还靠人力。

2、智能体加速了人与人的协作，而不是替代。Sottiaux说了一个反直觉的观察：团队里面对面的时间反而增加了，创意讨论和规划更多了。因为每个人都被加速了，一旦达成共识就能立即执行，一周能完成过去一个月的量。所以在决定做什么之前对齐得更充分了。

3、super bus factor问题。一个工程师能独立交付整个产品，协作还有必要吗？Sottiaux的答案是：记录意图变得至关重要。他开始构建工具来追踪团队和组织层面的变更，让每个人都能快速理解正在发生什么、为什么这样实现。"不只是让代码生成快100倍，而是让人类理解系统状态的速度也快100倍。"

4、spec和plan的局限性。Sottiaux承认自己是design doc的信徒，但也指出大型spec会随时间变得过于庞大，出现内部矛盾，跟实现脱节。有时候plan就是"我们需要获取信号"，列出五件要做的事来验证方向，而不是写一份完整蓝图。"有时你不知道该做什么，但知道需要构建什么来获取做决定所需的信号。"

5、工程师的职业路径向TLM（Tech Lead Manager）演进。每个工程师现在能查用户反馈、跑查询、分析数据库schema、管理多个智能体任务，独立运转一个小型工程团队。核心技能越来越像技术负责人加产品经理的混合体。未来甚至可以派智能体去做用户访谈、汇总互联网对产品的评价。Sottiaux认为这跟传统的晋升路径兼容——很多人本来就想往这个方向走。

6、新人的独特优势。团队里最受信任的成员之一是个新毕业生。没有几十年编程习惯的包袱，对新工具和新方式完全开放，每天都在适应，反过来教整个团队如何提高生产力。"没有这些人，我们整个团队会慢很多。"每个组织都有这样的人，可能藏在某个角落悄悄用智能体做出惊人的事情，找到他们，让他们的方法传播开来。

终极建议：训练你的宝可梦

Sottiaux最后的建议是关于Skills（技能）。这是一个开放标准，你可以教模型用你认为最有效的方式执行特定任务——看日志、跑性能测试、自动QA。他自己有一个QA skill，让Codex在终端里用自己的一个版本来测试新功能是否符合规格、有没有回归。

"这是我最接近训练宝可梦的感觉。每次交互它都在升级，做得比上次更好一点。你开始跟它建立一种类似信任的关系，因为它越来越可靠。"宝可梦是任天堂旗下的经典游戏系列，玩家扮演训练师，收集各种小精灵并通过反复战斗让它们升级、学会新招式，从弱变强。Sottiaux用这个比喻想说的是，给智能体添加Skills的过程就像培养一只专属于你的精灵——不是一次性配置好就完事，而是持续投入和调教，最终得到一个只适配你工作流的、越来越强的搭档。

关键在于不要只自动化代码生成。想想日常工作中所有你不想做但必须做的环节，把那些交出去，保留编程中真正让你愉悦的部分。Skills让你把智能体塑造成适配自己工作流的样子，就像厨师随身带着自己的刀具——你磨它、养护它、带着它去下一个厨房。

Takeaway

这期播客的信息密度很高，但底层逻辑其实就一条：在AI智能体领域，复杂度是债务，简洁是资产。Codex团队通过垂直整合，把scaling laws从模型延伸到整个系统，持续寻找能随模型能力扩展的简单原语，然后在正确的层级解决问题——上下文压缩搞不定就别在框架里打补丁，直接在模型训练里根治。对于没有垂直整合条件的团队，教训同样成立：你的框架应该是脚手架，不是喷气背包，随着模型变强你应该在拆东西而不是加东西。如果你只做一件事，就是开始构建属于自己的Skills，把智能体从一个通用工具变成专属于你工作流的搭档。别只自动化写代码这一个环节，想想你每天花时间最多但最不想做的那些事。

上一篇：孩子压岁钱存款利率竟比成人“香”？多家银行扎堆争抢“小客户”

下一篇：原创那艺娜被定性为劣迹艺人，演艺活动全面叫停，账号被封禁

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

OpenAI Codex负责人：脚手架是自欺欺人，可扩展的原语才是正道

相关内容

热门资讯