
周末冲浪的时候,偶然发现一个开源的 Harness Engineering 教程,点进去一看——惊了。
完全遵守 OpenAI 和 Anthropic 大厂的原意,没有自己胡编乱造,所有的概念、框架、实例都严格对齐官方文档。然后查了一下,发现很多老外在推,Reddit、Hacker News 上都有人安利。
这门课叫 Learn Harness Engineering。

仓库地址:https://github.com/walkinglabs/learn-harness-engineering
在线文档:https://walkinglabs.github.io/learn-harness-engineering/
先说结论:如果你在用 AI 写代码,这门课是目前最值得花时间的资料。
不是因为它讲了什么新奇的算法,而是因为它解释了一件大多数人一直没搞明白的事:
为什么你的 AI coding agent 总是出问题?
你大概见过这种情况。
给 Claude 或者 GPT 一个任务,在自己的仓库里。开始还不错——读文件、写代码、看起来很顺。然后不对了。它跳过了一步。它把测试搞坏了。它说"完成了",但实际上什么都跑不了。你花在收拾残局上的时间,比自己做还长。
下一次会话更惨。它从头开始,不记得上次做了什么,要么重做一遍,要么做完全不同的事情。
你以为这是模型的问题。
其实不是。
这是 harness 的问题。
什么是 Harness Engineering?
Harness("线束",源自给马套具的英文词)是你在模型周围搭建的工作环境。
不是更好的提示词。不是更长的系统提示。是模型运行其中的整个系统。
一个 Harness 有五个部分:
| 指令 | |
| 状态 | |
| 验证 | |
| 范围 | |
| 会话生命周期 |
道理用一句话说清楚:
模型决定写什么代码。
Harness 管控何时、何地以及如何写。
Harness 不会让模型更聪明。
它让模型的输出更可靠。
有没有数据?
有。Anthropic 做过一个对照实验:
同一个模型(Claude Opus 4.5),同一个任务("构建一个 2D 复古游戏编辑器")。
没有 Harness:20 分钟,花了 9 美元,产出了一个跑不起来的东西。 有完整 Harness(规划器 + 生成器 + 评估器):6 小时,花了 200 美元,构建了一个真的能玩的游戏。
模型没有变。变的只是 Harness。
OpenAI 在 Codex 上报告了同样的结论:在一个良好 Harness 的仓库中,同一个模型从"不可靠"变成了"可靠"。不是边际提升,是质变。
这门课叫 Learn Harness Engineering
GitHub 上看到的,叫 Learn Harness Engineering,一个开源课程,12 讲 + 6 个动手项目。
仓库地址:https://github.com/walkinglabs/learn-harness-engineering
在线文档:https://walkinglabs.github.io/learn-harness-engineering/
课程综合了来自 OpenAI、Anthropic、LangChain、Martin Fowler(Thoughtworks)、Cursor 等多家机构的 Harness Engineering 理论与实践——把业界分散的最佳实践系统化成了一套可学习的体系。
课程覆盖了什么
12 讲,每讲回答一个核心问题

每讲不是理论讲座,是用一个真实的工程问题开始,然后讲清楚为什么会有这个问题,解法是什么。
6 个动手项目,全部围绕同一个 Electron 应用
课程选了一个具体的产品做贯穿线:一个基于 Electron 的个人知识库桌面应用,支持导入文档、AI 问答、带引用的回答。
每个项目的起点是上一个项目的终点——应用在演进,你的 Harness 技能随之增长。
P01 的对比实验尤其值得做一遍:用完全相同的模型,完全相同的任务,跑两次——一次只靠提示词,一次加上最小的 Harness。结果的差异不是微小的,是能直接看到的。
资源库:拿来即用
课程还配了一套现成的模板,包括 AGENTS.md、feature_list.json、init.sh,以及各种检查清单、方法手册。不用等学完 12 讲,现在就能把这些文件放进自己的项目用起来。

智能体会话生命周期
课程里最值得记住的东西之一,是这个生命周期模型:
启动
1. 读取 AGENTS.md / CLAUDE.md
2. 运行 init.sh(安装、验证、健康检查)
3. 读取 claude-progress.md(上次发生了什么)
4. 读取 feature_list.json(哪些完成,哪些待做)
5. 检查 git log(最近的变更)
选择
6. 精确选择一个未完成的功能
7. 只做那个功能
执行
8. 实现功能
9. 运行验证(测试、lint、类型检查)
10. 验证失败 → 修复并重跑
11. 验证通过 → 记录证据
收尾
12. 更新 claude-progress.md
13. 更新 feature_list.json
14. 记录仍有问题或未验证的内容
15. 仅在安全可恢复时提交
16. 为下一次会话留下干净的重启路径
没有 Harness,第 9 步是"智能体说看起来没问题"。
有了 Harness,第 9 步是"测试通过,lint 干净,类型检查通过"。
区别就这么大。
快速上手
项目仓库里有个 skills/harness-creator/ 技能,可以在几分钟内为你的项目自动生成 Harness 的骨架文件(AGENTS.md、feature_list.json、init.sh、验证工作流)。
不需要读完 12 讲再动手。把四个文件放进你的仓库,下一次用 coding agent 的体验就会有明显改观。
本地运行文档站点:
git clone https://github.com/walkinglabs/learn-harness-engineering
cd learn-harness-engineering
npm install
npm run docs:dev
适合谁
这门课适合:
已经在用 Claude Code、Codex 或其他 coding agent 的工程师——你已经踩过坑,这门课告诉你为什么 想系统理解 Harness 设计的研究者或构建者 技术负责人,需要理解"环境设计"对智能体性能的影响
不适合:
寻找零代码 AI 入门的人 只关心写提示词、不打算动代码的人
还有一件事
课程开源协议是 MIT。所有内容免费,14 种语言(中、英、日、韩、西、法、俄、德、阿拉伯……),直接访问,没有付费墙。
而且,这门课也是同一个团队做的——walkinglabs,来自 THU SIGS(清华深研)的开源实验室,,这次是 Harness Engineering 课。
两门课搭配起来读其实挺互补的:RL 课解决"模型怎么学",Harness Engineering 课解决"agent 怎么干活"。
仓库:https://github.com/walkinglabs/learn-harness-engineering
在线文档:https://walkinglabs.github.io/learn-harness-engineering/
中文 README:https://github.com/walkinglabs/learn-harness-engineering/blob/main/docs-readme/zh-CN/README.md
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 Agent | Agent 技术交流群