在AI编程助手日益普及的当下,OpenAI内部的一项实践将这场变革推向了极致。工程师Ryan Lopopolo近期在一档播客中披露,他所带领的团队已经连续数月执行一项铁律:严禁任何人手写一行代码。取而代之的,是一种被称为“Harness Engineering”的全新工作模式,让AI Agent全权负责代码的生成、测试与合并。
这项实践的起点,是Lopopolo在2025年6月做出的一个激进决定。当时,连GPT-5模型都尚未发布,团队使用的还是能力相对有限的O3模型和初代Codex CLI工具。在那种条件下,完全依赖AI编码的过程异常痛苦,Agent频繁卡壳,最初只能反复向人类求助。Lopopolo将这种痛苦视为契机,他开始系统性地观察Agent的失败模式,并通过构建自动化工具来逐一消除这些瓶颈,逐步建立对系统的信任。
“Harness Engineering”的核心思想,并非简单地让AI写代码,而是构建一套严密的约束和引导体系。Lopopolo将其比喻为,要为AI铺好一条生产高质量软件的“金线”。团队将大量关于代码风格、架构原则、常见错误等“非功能性需求”编写成文档,并设计了一套机制,让Agent在生成代码的恰当时刻能读取到这些上下文。这不同于传统的提示工程,它更强调利用工具调用对Agent进行动态的“提示注入”,用压缩且语义丰富的自然语言指令,而非机械的错误日志,来引导其修正行为。
这种模式带来的效率提升是惊人的。随着GPT-5系列模型的迭代,团队人均每周处理的PR(Pull Request)数量从3.5个飙升至70个。更令人意外的是,新成员入职的磨合期被极大缩短。在传统团队中,新人通常需要一到三个月来吸收团队的最佳实践。而在Lopopolo的团队,所有代码都通过Codex这个唯一入口生成,最佳实践已经内化在代码库的上下文里。新成员无需手动学习,就能直接通过Agent产出符合团队标准的高质量代码,并在入职头两周内就推动团队整体吞吐量提升。
在代码审查环节,团队同样采取了激进策略:零人类代码审查。传统的逐行代码审查被前置的高层设计审查所取代。团队成员将精力集中在编写精确的任务描述文档上,因为这份文档本质上就是给Agent的提示词,其质量直接决定了最终产出。对于代码细节,团队则依赖一套自动化的“反垃圾”循环系统。他们曾用一个积累了100到150条评论的GitHub议题作为种子,训练Agent自动扫描整个代码库,识别违背原则的“垃圾代码”,并自主提出修复PR。
Lopopolo强调,这种模式要求工程师的角色发生根本转变。核心技能不再是编写代码,而是系统思维:如何为团队成功创造条件,如何预见问题、设计流程,以最快速度将代码交付给客户。他将自己比作一个管弦乐队的指挥,而非乐手,需要同时管理多达15个并行工作的Agent窗口。
当然,这套系统并非完全无人监督。对于复杂的跨周里程碑计划,团队仍保留传统的人工预合并审查。同时,在最终发布环节,团队也维持着人工冒烟测试,以确保关键路径的可靠性。Lopopolo认为,在代码生产成本极低的新范式下,允许Agent犯错并从错误中学习,与培养人类工程师的逻辑并无二致。关键在于建立系统性的反馈闭环,让每一次修复都能沉淀为组织的知识,从而让整个开发体系持续进化。