
最近 AI 编程圈里,一个词又开始刷屏了 — Loop Engineering。 Claude Code 的创始人 Boris Cherney 和 OpenClaw 之父 Peter Steinberger 都在 X 上大力推荐过。
很多人吐槽这又是一个 “人造AI概念”,但小编不这么认为。今天,借着最新一期《吴恩达来信》[1]中给出的Loop Engineering三个闭环方法,我们来彻底的掌握 Loop Engineering 和其相应的方法。学习把这个概念放到了产品开发的语境里,讨论 AI Agent 如何通过不同层级的 loop,持续构建 0-to-1 产品。

Loop(闭环工程)并不新
如果直译,Loop Engineering 可以叫“闭环工程”。这并不是一个全新的概念,相反,软件工程一直在追求闭环。
测试是闭环:写代码、运行测试、发现错误、修复错误、再次测试。数据分析是闭环:产品上线、用户使用、数据回流、分析问题、继续迭代。CI/CD 是闭环:提交代码、自动构建、自动测试、自动部署、监控反馈。A/B 测试也是闭环:提出假设、上线实验、收集数据、验证判断、调整方案。
甚至敏捷开发里的 sprint、review、retro,也是在缩短“做出行动”和“获得反馈”之间的距离。
所以,loop 并不是 AI 时代凭空出现的新概念。它更像是软件工程一直想实现的目标:让系统尽快看到结果,尽快暴露问题,尽快进入下一轮修正。

那为什么闭环这个概念最近又被 AI 带火了呢?因为过去很多闭环跑得很慢,也很贵。
测试要人写,QA 要人测,用户反馈要人收集,竞品分析要人整理。一个想法从产品愿景变成规格说明,再从规格说明变成可运行的软件,中间要经过很多角色、会议和文档。闭环当然重要,但不是所有团队都有能力把每个闭环都跑起来。
AI 改变的正是这个地方。
它没有发明 loop,但它大幅降低了 loop 的执行成本。AI Agent 可以写代码、跑测试、读报错、打开浏览器看界面、根据结果继续修改。AI 也可以帮助整理用户反馈、分析使用数据、做竞品监控。那些原本需要大量人工参与的反馈动作,开始变得更快、更便宜,也更容易自动化。
这也是 Loop Engineering 值得重视的地方。它不是一个单纯的热词,而是 AI 时代重新理解软件开发的一种方式。
Agentic Coding Loop:工程闭环
第一个 loop,是最容易理解的工程闭环。
给定一份产品规格说明,必要时再提供一套 evals,也就是用于衡量结果的数据集,AI Agent 就可以开始写代码、测试自己的工作,并不断迭代,直到代码没有明显 bug,也符合规格要求。
这个“关闭循环”的思路,是从去年年底开始真正变得重要的。它让 coding agent 不再只是回答问题或生成代码片段,而是可以在较长时间里持续推进任务。一个典型例子是,为孩子做一个练习打字的 app,coding agent 可以自己工作大约一个小时,中间多次用浏览器检查已经构建出来的页面,最后再回来请求下一步指令。
这里最关键的变化,不是 AI 写出了代码。
而是 AI 完成了一段完整的工程循环:写代码,运行,观察结果,发现问题,修改,再运行。

过去我们评价 AI 编程,往往会问它能不能“一次写对”。但在真实的软件开发里,一次写对从来不是常态。靠谱的工程师并不是靠一次性完美工作,而是靠不断运行、测试、定位、修复,把结果一步步推近目标。
AI Agent 也是一样。
当它只有聊天窗口时,它只是一个会生成文本的模型。当它拥有编辑器、终端、测试命令、浏览器和明确的规格说明时,它才有机会变成一个能持续推进任务的系统。
规格说明给它目标,测试和 evals 给它反馈,浏览器让它看到真实界面,终端和编辑器让它能够修改结果。这几个部分连起来,才构成 Agentic Coding Loop。
这个 loop 执行得非常快。每隔几分钟,coding agent 可能就会构建并测试一个新版本。也正因为如此,如何设计更有效的工程闭环,正在变成开发者们主动探索的新领域。
AI 为什么能加速这个 loop?
原因并不神秘。它把大量原本由人手动完成的中间动作压缩了。
以前一个工程闭环通常是这样的:开发者写代码,保存,运行,看到报错,复制错误信息,查文档或搜索,修改代码,再运行,打开页面,点几下,看 UI 是否正常,再回到代码里继续修。
这些动作每一个都不难,但很碎,也很消耗注意力。
Coding agent 的价值,正是在一个明确目标下,把这些碎动作连续执行下去。它不一定比高级工程师聪明,但它很适合在清晰约束里反复尝试,读取反馈,并继续修正。
这里还要补充一个更底层的原因:Agentic Coding Loop 之所以在这个时间点兴起,根本上仍然是因为模型能力增长到了临界点。
以前也经常能看到一些“AI 连续独立工作数小时”的报道,但那时我通常会下意识忽略掉。原因很简单:很多所谓长时间独立运行,并不是真正的闭环。
它只是跑了很久,并不代表每一轮都在变好。
更常见的情况是,模型在每个循环里引入一个新错误;下一轮它修正了这个错误,但同时又创造了另一个新错误。循环确实存在,但它不是良性迭代,而是在错误之间来回摆动。
这类系统看起来很努力,实际上没有稳定收敛。
现在的变化在于,模型能力开始支撑更稳定的工具调用、错误处理、上下文保持和目标推进,开始具备调用 agent 完成长期任务、迭代的可能性。
模型不只是能生成一段结果,而是开始能在一次次工具调用和反馈修正中维持任务方向。
当模型能力足够支撑“每一轮比上一轮更接近目标”,长时间运行才真正有意义。
这也是 Agentic Coding Loop 变得重要的根本原因。更进一步说,也正因为单个 agent 的闭环能力开始成立,多个 agent 围绕同一个工程目标协作的 Agentic Group Engineering 才开始变得可能。
所以 AI 编程真正提升的,不只是“写代码速度”。
更准确地说,是缩短了反馈间隔,并提高了循环收敛的概率。
一个 bug 从出现到被发现,从被发现到被修复,中间的摩擦变少了。工程闭环越短,系统迭代就越快。每一轮越能保留正确改进、减少新错误,闭环才越有价值。
这也是 Loop Engineering 的第一层含义:让 AI 进入工程反馈循环,而不是只停留在一次性生成,也不是让它在错误里空转。
Developer Feedback Loop:开发者反馈闭环
第二个 loop,是开发者反馈闭环。
在这个循环里,开发者会查看当前产品,然后引导 coding agent 继续改进。去年很多开发者使用 coding agent 时,实际承担的是 QA 角色:手动找 bug,再让 agent 修复。随着 coding agent 越来越能测试自己的代码,开发者花在手动 QA 上的时间会下降,于是可以把更多注意力放到更高层级的产品判断上。
比如,应该提供哪些核心功能,UI 哪里需要调整,用户流程是否顺畅。

这个反馈循环通常不是几分钟一轮,而是几十分钟到几小时一轮。比如在练习打字 app 的例子里,产品方向会随着实现结果不断变化:视觉设计是否合适,孩子学习时可以解锁什么猫猫服装,大人如何登录并管理孩子的学习流程。
这些问题并不是纯工程问题,而是产品问题。
当开发者有一个清晰愿景时,把愿景翻译成 coding agent 能执行的规格说明,依然是一项重要工作。并且,在看到实现之后,开发者往往会继续更新或澄清规格,把产品推向自己真正想要的方向。如果系统反复遇到同类问题,就有必要为 agent 建立一套 evals,让它在后续迭代里少踩同样的坑。
这部分变化很重要。
过去开发者使用 AI 编程,常常像是在带一个速度很快但需要盯着的实习生。它能快速写出东西,但页面坏了、按钮不动了、接口错了、样式崩了,还是需要人发现并指出来。
这时,人其实不是在做产品判断,而是在做 AI 的 QA。
当 agent 的自测能力增强后,人类角色会自然上移。开发者不再只是帮 AI 找 bug,而是开始判断产品方向。
要做什么?为什么做?做给谁?先做哪一个?做到什么程度算够?
这些问题会变得越来越重要。
因为当实现成本下降,真正的瓶颈就会从“能不能做出来”,转移到“是否知道要做什么”。
AI 加速开发者反馈闭环的方式,是让开发者更快看到“可被评价的东西”。
人很难评价一个抽象想法,但很擅长评价一个已经摆在眼前的版本。一个按钮是否顺手,一个流程是否绕,一个视觉风格是否合适,一个功能是否应该提前出现,这些判断通常要在产品被做出来之后才会变清楚。
AI 把“做出来”的成本降低了,于是开发者可以更频繁地看到版本,更频繁地形成判断,也更频繁地修正方向。
这并不代表 AI 替代了产品判断。恰恰相反,AI 让产品判断变得更重要。
如果把 AI 当成一次性外包,只是丢一句“帮我做一个产品”,然后等待成品,结果大概率不会稳定。更有效的方式,是把它当成一个可以不断响应反馈的系统:给出规格,生成版本,检查结果,调整方向,再生成下一版。
Developer Feedback Loop 的价值就在这里。它让开发者从“盯着 AI 找错”,逐渐回到“定义方向和判断取舍”。
External Feedback Loop:外部反馈闭环
第三个 loop,是外部反馈闭环。
它包括很多具体做法:找几个朋友给反馈,发布给 alpha 测试者,或者把代码放到生产环境里做 A/B 测试。相比工程闭环和开发者反馈闭环,这一层通常慢得多。它很少能在几小时内完成,有时需要几天,甚至几周。
但它也是最关键的一层。
因为前两层再快,仍然是开发者和 agent 在内部迭代。真正的产品,最终要接受真实用户的反馈。
外部反馈会反过来影响开发者愿景。开发者愿景会继续驱动更详细的产品规格,产品规格再驱动 coding agent 进入下一轮工程实现。
这就形成了一个更大的循环:用户反馈改变产品判断,产品判断改变规格,规格改变 agent 的实现方向。

随着 coding agent 加快软件开发,越来越多工程师会自然承担一部分产品管理角色。对很多正在进入这个角色的工程师来说,最难的部分不是写代码,而是形成产品愿景,并在“构建”和“获取用户反馈”之间找到平衡。
构建很重要,因为愿景需要变成可运行的软件。反馈也很重要,因为愿景需要被真实世界校准。两件事都不能少。
AI 能否加速外部反馈闭环?
它不能让真实用户的时间变短。用户是否愿意留下来,是否愿意付费,是否会在一周后继续使用,这些都需要真实时间来验证。
但 AI 可以加速反馈的收集、整理和理解。
用户访谈录音可以被转写并提炼主题。客服反馈可以被聚类,找出反复出现的问题。竞品变化可以被持续监控,形成差异总结。使用数据里的异常,也可以被 AI 辅助分析,帮助团队更快找到线索。
AI 不一定能替你判断“这个产品到底该不该做”,但它可以让你更快看到真实世界给出的信号。
这就足够重要。
这里还有一个很值得注意的概念:context advantage,也就是上下文优势。
很多人会把人类在产品中的贡献称为“品味”。但“品味”这个词有点抽象,像是一种说不清的直觉。相比之下,“上下文优势”更具体。
人类通常比 AI 更了解用户,也更了解产品要运行的真实环境。用户有什么顾虑,工作流里有哪些历史包袱,业务里有哪些隐形限制,组织内部有哪些不能明说但必须遵守的规则,这些都是 AI 默认不知道的上下文。
因此,人类仍然需要在 loop 里。
不是因为人类天然更高级,而是因为人类掌握了 AI 没有的上下文。只要人知道 AI 不知道的东西,human-in-the-loop 就不是一个口号,而是一种必要的信息注入机制。
这也是为什么外部反馈闭环不能完全自动化。AI 可以帮助团队更快处理反馈,但决定哪些反馈重要、哪些反馈应该进入产品愿景,仍然需要人类的上下文判断。
Loop Engineering 重点是理念
看到这里,Loop Engineering 很容易让人想起另一个软件工程里的经典理念:Test-Driven Development,测试驱动开发。
TDD 表面上看是一套写代码的方法:先写测试,再写实现,然后通过测试推动代码完成。
但真正重要的并不是“先写测试”这个动作本身,而是它背后的理念:先定义什么叫正确,再让实现不断向这个正确靠近。

Loop Engineering 也是一样。
表面上,它涉及 coding agent、evals、自动测试、浏览器检查、用户反馈、A/B 测试、数据分析等工具和流程。但更深一层,它讲的是一种工作方式:不要迷信一次性正确,而是设计一个能持续反馈、持续纠错、持续逼近目标的系统。
工具会变,模型会变,今天流行 Claude Code,明天可能是 Codex 或 OpenClaw,后天又会出现新的 agent 产品。
但 loop 这个理念不会很快过时。因为它对应的是一个更底层的问题:我们如何在不确定中前进。
答案不是等想清楚了再动,也不是把所有希望押在一次生成上,而是建立一个能不断暴露问题、吸收反馈、修正方向的系统。
所以,Loop Engineering 真正值得关注的地方,不是它又给 AI 圈增加了一个新名词。
它更像是在提醒我们,AI 编程的核心能力正在从“让模型生成代码”,转向“设计可持续迭代的闭环”。如果没有闭环,再强的模型也只能给出一次性答案。
如果有闭环,AI 才可能成为一个持续推进系统。这也是为什么工程师会越来越多地承担产品判断。实现速度被 AI 拉快以后,开发者必须更理解目标、反馈、用户和取舍。否则,代码会写得更快,但方向未必更正确。
借助 AI 可以实现几乎全自动的快速迭代:先把模糊想法变成规格,再把规格变成可运行版本,再让版本产生反馈,最后把反馈变成下一轮更好的输入。这就是 Loop Engineering 最有价值的地方。
《吴恩达来信》: https://www.deeplearning.ai/the-batch/issue-359
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 Agent | Agent 技术交流群