不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering图1

周末冲浪的时候，偶然发现一个开源的 Harness Engineering 教程，点进去一看——惊了。

完全遵守 OpenAI 和 Anthropic 大厂的原意，没有自己胡编乱造，所有的概念、框架、实例都严格对齐官方文档。然后查了一下，发现很多老外在推，Reddit、Hacker News 上都有人安利。

这门课叫 Learn Harness Engineering。

不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering图2 — 课程首页

仓库地址：https://github.com/walkinglabs/learn-harness-engineering
在线文档：https://walkinglabs.github.io/learn-harness-engineering/

先说结论：如果你在用 AI 写代码，这门课是目前最值得花时间的资料。

不是因为它讲了什么新奇的算法，而是因为它解释了一件大多数人一直没搞明白的事：

为什么你的 AI coding agent 总是出问题？

你大概见过这种情况。

给 Claude 或者 GPT 一个任务，在自己的仓库里。开始还不错——读文件、写代码、看起来很顺。然后不对了。它跳过了一步。它把测试搞坏了。它说"完成了"，但实际上什么都跑不了。你花在收拾残局上的时间，比自己做还长。

下一次会话更惨。它从头开始，不记得上次做了什么，要么重做一遍，要么做完全不同的事情。

你以为这是模型的问题。

其实不是。

这是 harness 的问题。

什么是 Harness Engineering？

Harness（"线束"，源自给马套具的英文词）是你在模型周围搭建的工作环境。

不是更好的提示词。不是更长的系统提示。是模型运行其中的整个系统。

一个 Harness 有五个部分：

子系统	作用
指令	告诉智能体做什么、按什么顺序、开始前读什么——不是一个大文件，是按需展开的分层结构
状态	追踪已完成的工作和下一步——持久化到磁盘，下一次会话从上次的精确位置继续
验证	只有测试通过才算完成——智能体不能在没有可运行证据的情况下宣布收工
范围	一次只做一个功能——不越界，不同时做三个半成品
会话生命周期	开始时初始化，结束时清理，留下干净的重启路径

道理用一句话说清楚：

模型决定写什么代码。
Harness 管控何时、何地以及如何写。
Harness 不会让模型更聪明。
它让模型的输出更可靠。

有没有数据？

有。Anthropic 做过一个对照实验：

同一个模型（Claude Opus 4.5），同一个任务（"构建一个 2D 复古游戏编辑器"）。

没有 Harness：20 分钟，花了 9 美元，产出了一个跑不起来的东西。
有完整 Harness（规划器 + 生成器 + 评估器）：6 小时，花了 200 美元，构建了一个真的能玩的游戏。

模型没有变。变的只是 Harness。

OpenAI 在 Codex 上报告了同样的结论：在一个良好 Harness 的仓库中，同一个模型从"不可靠"变成了"可靠"。不是边际提升，是质变。

这门课叫 Learn Harness Engineering

GitHub 上看到的，叫 Learn Harness Engineering，一个开源课程，12 讲 + 6 个动手项目。

仓库地址：https://github.com/walkinglabs/learn-harness-engineering
在线文档：https://walkinglabs.github.io/learn-harness-engineering/

课程综合了来自 OpenAI、Anthropic、LangChain、Martin Fowler（Thoughtworks）、Cursor 等多家机构的 Harness Engineering 理论与实践——把业界分散的最佳实践系统化成了一套可学习的体系。

课程覆盖了什么

12 讲，每讲回答一个核心问题

讲次	问题	核心观点
L01	强模型为什么还是会在真实任务上失败？	基准测试与真实工程之间的能力差距
L02	"Harness" 到底是什么意思？	五个子系统：指令、状态、验证、范围、生命周期
L03	为什么仓库必须是唯一的真实来源？	如果智能体看不到它，它就不存在
L04	为什么一个巨大的指令文件会失败？	渐进式披露：给一张地图，不是一本百科全书
L05	为什么长任务会失去连续性？	将进度持久化到磁盘；从上次离开处继续
L06	为什么初始化需要单独的阶段？	智能体开始工作前先验证环境是否健康
L07	为什么智能体会越界和欠完成？	一次一个功能；明确的完成定义
L08	为什么功能列表是 Harness 基本单元？	机器可读的范围边界，智能体无法忽视
L09	为什么智能体会过早宣布完成？	验证缺口：信心 ≠ 正确
L10	为什么端到端测试能改变结果？	只有完整的流水线运行才算真正的验证
L11	为什么可观测性应该属于 Harness？	看不到智能体做了什么，就无法修复它破坏的东西
L12	为什么每次会话必须留下干净的状态？	下一次会话的成功取决于这一次会话的清理

不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering图3 — 12讲课程大纲

每讲不是理论讲座，是用一个真实的工程问题开始，然后讲清楚为什么会有这个问题，解法是什么。

6 个动手项目，全部围绕同一个 Electron 应用

课程选了一个具体的产品做贯穿线：一个基于 Electron 的个人知识库桌面应用，支持导入文档、AI 问答、带引用的回答。

每个项目的起点是上一个项目的终点——应用在演进，你的 Harness 技能随之增长。

项目	你要做什么	核心机制
P01	同一任务跑两遍：仅提示词 vs. 规则优先	最小 Harness：AGENTS.md + init.sh + feature_list.json
P02	重构仓库让智能体能读懂它	智能体可读工作空间 + 持久化状态文件
P03	让智能体从上次离开处继续	进度日志 + 会话交接 + 多会话连续性
P04	阻止智能体做太多或太少	运行时反馈 + 范围控制 + 增量索引
P05	让智能体验证自己的工作	自验证 + 有据问答 + 基于证据的完成
P06	从零构建完整的 Harness（毕业项目）	完整 Harness + 可观测性 + 消融实验

P01 的对比实验尤其值得做一遍：用完全相同的模型，完全相同的任务，跑两次——一次只靠提示词，一次加上最小的 Harness。结果的差异不是微小的，是能直接看到的。

资源库：拿来即用

课程还配了一套现成的模板，包括 AGENTS.md、feature_list.json、init.sh，以及各种检查清单、方法手册。不用等学完 12 讲，现在就能把这些文件放进自己的项目用起来。

不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering图4 — 资源库模板

智能体会话生命周期

课程里最值得记住的东西之一，是这个生命周期模型：

启动
  1. 读取 AGENTS.md / CLAUDE.md
  2. 运行 init.sh（安装、验证、健康检查）
  3. 读取 claude-progress.md（上次发生了什么）
  4. 读取 feature_list.json（哪些完成，哪些待做）
  5. 检查 git log（最近的变更）

选择
  6. 精确选择一个未完成的功能
  7. 只做那个功能

执行
  8. 实现功能
  9. 运行验证（测试、lint、类型检查）
  10. 验证失败 → 修复并重跑
  11. 验证通过 → 记录证据

收尾
  12. 更新 claude-progress.md
  13. 更新 feature_list.json
  14. 记录仍有问题或未验证的内容
  15. 仅在安全可恢复时提交
  16. 为下一次会话留下干净的重启路径

没有 Harness，第 9 步是"智能体说看起来没问题"。

有了 Harness，第 9 步是"测试通过，lint 干净，类型检查通过"。

区别就这么大。

快速上手

项目仓库里有个 skills/harness-creator/ 技能，可以在几分钟内为你的项目自动生成 Harness 的骨架文件（AGENTS.md、feature_list.json、init.sh、验证工作流）。

不需要读完 12 讲再动手。把四个文件放进你的仓库，下一次用 coding agent 的体验就会有明显改观。

本地运行文档站点：

git clone https://github.com/walkinglabs/learn-harness-engineering
cd learn-harness-engineering
npm install
npm run docs:dev

适合谁

这门课适合：

已经在用 Claude Code、Codex 或其他 coding agent 的工程师——你已经踩过坑，这门课告诉你为什么
想系统理解 Harness 设计的研究者或构建者
技术负责人，需要理解"环境设计"对智能体性能的影响

不适合：

寻找零代码 AI 入门的人
只关心写提示词、不打算动代码的人

还有一件事

课程开源协议是 MIT。所有内容免费，14 种语言（中、英、日、韩、西、法、俄、德、阿拉伯……），直接访问，没有付费墙。

而且，这门课也是同一个团队做的——walkinglabs，来自 THU SIGS（清华深研）的开源实验室，，这次是 Harness Engineering 课。

两门课搭配起来读其实挺互补的：RL 课解决"模型怎么学"，Harness Engineering 课解决"agent 怎么干活"。

不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering图5 — Star History

仓库：https://github.com/walkinglabs/learn-harness-engineering
在线文档：https://walkinglabs.github.io/learn-harness-engineering/
中文 README：https://github.com/walkinglabs/learn-harness-engineering/blob/main/docs-readme/zh-CN/README.md

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群