不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering

机智流 2026-06-21 21:00

不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering图1

周末冲浪的时候,偶然发现一个开源的 Harness Engineering 教程,点进去一看——惊了。

完全遵守 OpenAI 和 Anthropic 大厂的原意,没有自己胡编乱造,所有的概念、框架、实例都严格对齐官方文档。然后查了一下,发现很多老外在推,Reddit、Hacker News 上都有人安利。

这门课叫 Learn Harness Engineering

不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering图2
课程首页

仓库地址:https://github.com/walkinglabs/learn-harness-engineering

在线文档:https://walkinglabs.github.io/learn-harness-engineering/


先说结论:如果你在用 AI 写代码,这门课是目前最值得花时间的资料。

不是因为它讲了什么新奇的算法,而是因为它解释了一件大多数人一直没搞明白的事:

为什么你的 AI coding agent 总是出问题?


你大概见过这种情况。

给 Claude 或者 GPT 一个任务,在自己的仓库里。开始还不错——读文件、写代码、看起来很顺。然后不对了。它跳过了一步。它把测试搞坏了。它说"完成了",但实际上什么都跑不了。你花在收拾残局上的时间,比自己做还长。

下一次会话更惨。它从头开始,不记得上次做了什么,要么重做一遍,要么做完全不同的事情。

你以为这是模型的问题。

其实不是。

这是 harness 的问题。


什么是 Harness Engineering?

Harness("线束",源自给马套具的英文词)是你在模型周围搭建的工作环境。

不是更好的提示词。不是更长的系统提示。是模型运行其中的整个系统。

一个 Harness 有五个部分:

子系统
作用
指令
告诉智能体做什么、按什么顺序、开始前读什么——不是一个大文件,是按需展开的分层结构
状态
追踪已完成的工作和下一步——持久化到磁盘,下一次会话从上次的精确位置继续
验证
只有测试通过才算完成——智能体不能在没有可运行证据的情况下宣布收工
范围
一次只做一个功能——不越界,不同时做三个半成品
会话生命周期
开始时初始化,结束时清理,留下干净的重启路径

道理用一句话说清楚:

模型决定写什么代码。
Harness 管控何时、何地以及如何写。
Harness 不会让模型更聪明。
它让模型的输出更可靠。

有没有数据?

有。Anthropic 做过一个对照实验:

同一个模型(Claude Opus 4.5),同一个任务("构建一个 2D 复古游戏编辑器")。

  • 没有 Harness:20 分钟,花了 9 美元,产出了一个跑不起来的东西。
  • 有完整 Harness(规划器 + 生成器 + 评估器):6 小时,花了 200 美元,构建了一个真的能玩的游戏。

模型没有变。变的只是 Harness。

OpenAI 在 Codex 上报告了同样的结论:在一个良好 Harness 的仓库中,同一个模型从"不可靠"变成了"可靠"。不是边际提升,是质变。


这门课叫 Learn Harness Engineering

GitHub 上看到的,叫 Learn Harness Engineering,一个开源课程,12 讲 + 6 个动手项目。

仓库地址:https://github.com/walkinglabs/learn-harness-engineering

在线文档:https://walkinglabs.github.io/learn-harness-engineering/

课程综合了来自 OpenAI、Anthropic、LangChain、Martin Fowler(Thoughtworks)、Cursor 等多家机构的 Harness Engineering 理论与实践——把业界分散的最佳实践系统化成了一套可学习的体系。


课程覆盖了什么

12 讲,每讲回答一个核心问题

讲次
问题
核心观点
L01
强模型为什么还是会在真实任务上失败?
基准测试与真实工程之间的能力差距
L02
"Harness" 到底是什么意思?
五个子系统:指令、状态、验证、范围、生命周期
L03
为什么仓库必须是唯一的真实来源?
如果智能体看不到它,它就不存在
L04
为什么一个巨大的指令文件会失败?
渐进式披露:给一张地图,不是一本百科全书
L05
为什么长任务会失去连续性?
将进度持久化到磁盘;从上次离开处继续
L06
为什么初始化需要单独的阶段?
智能体开始工作前先验证环境是否健康
L07
为什么智能体会越界和欠完成?
一次一个功能;明确的完成定义
L08
为什么功能列表是 Harness 基本单元?
机器可读的范围边界,智能体无法忽视
L09
为什么智能体会过早宣布完成?
验证缺口:信心 ≠ 正确
L10
为什么端到端测试能改变结果?
只有完整的流水线运行才算真正的验证
L11
为什么可观测性应该属于 Harness?
看不到智能体做了什么,就无法修复它破坏的东西
L12
为什么每次会话必须留下干净的状态?
下一次会话的成功取决于这一次会话的清理
不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering图3
12讲课程大纲

每讲不是理论讲座,是用一个真实的工程问题开始,然后讲清楚为什么会有这个问题,解法是什么。

6 个动手项目,全部围绕同一个 Electron 应用

课程选了一个具体的产品做贯穿线:一个基于 Electron 的个人知识库桌面应用,支持导入文档、AI 问答、带引用的回答。

每个项目的起点是上一个项目的终点——应用在演进,你的 Harness 技能随之增长。

项目
你要做什么
核心机制
P01
同一任务跑两遍:仅提示词 vs. 规则优先
最小 Harness:AGENTS.md + init.sh + feature_list.json
P02
重构仓库让智能体能读懂它
智能体可读工作空间 + 持久化状态文件
P03
让智能体从上次离开处继续
进度日志 + 会话交接 + 多会话连续性
P04
阻止智能体做太多或太少
运行时反馈 + 范围控制 + 增量索引
P05
让智能体验证自己的工作
自验证 + 有据问答 + 基于证据的完成
P06
从零构建完整的 Harness(毕业项目)
完整 Harness + 可观测性 + 消融实验

P01 的对比实验尤其值得做一遍:用完全相同的模型,完全相同的任务,跑两次——一次只靠提示词,一次加上最小的 Harness。结果的差异不是微小的,是能直接看到的。

资源库:拿来即用

课程还配了一套现成的模板,包括 AGENTS.mdfeature_list.jsoninit.sh,以及各种检查清单、方法手册。不用等学完 12 讲,现在就能把这些文件放进自己的项目用起来。

不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering图4
资源库模板

智能体会话生命周期

课程里最值得记住的东西之一,是这个生命周期模型:

启动
  1. 读取 AGENTS.md / CLAUDE.md
  2. 运行 init.sh(安装、验证、健康检查)
  3. 读取 claude-progress.md(上次发生了什么)
  4. 读取 feature_list.json(哪些完成,哪些待做)
  5. 检查 git log(最近的变更)

选择
  6. 精确选择一个未完成的功能
  7. 只做那个功能

执行
  8. 实现功能
  9. 运行验证(测试、lint、类型检查)
  10. 验证失败 → 修复并重跑
  11. 验证通过 → 记录证据

收尾
  12. 更新 claude-progress.md
  13. 更新 feature_list.json
  14. 记录仍有问题或未验证的内容
  15. 仅在安全可恢复时提交
  16. 为下一次会话留下干净的重启路径

没有 Harness,第 9 步是"智能体说看起来没问题"。

有了 Harness,第 9 步是"测试通过,lint 干净,类型检查通过"。

区别就这么大。


快速上手

项目仓库里有个 skills/harness-creator/ 技能,可以在几分钟内为你的项目自动生成 Harness 的骨架文件(AGENTS.mdfeature_list.jsoninit.sh、验证工作流)。

不需要读完 12 讲再动手。把四个文件放进你的仓库,下一次用 coding agent 的体验就会有明显改观。

本地运行文档站点:

git clone https://github.com/walkinglabs/learn-harness-engineering
cd learn-harness-engineering
npm install
npm run docs:dev

适合谁

这门课适合:

  • 已经在用 Claude Code、Codex 或其他 coding agent 的工程师——你已经踩过坑,这门课告诉你为什么
  • 想系统理解 Harness 设计的研究者或构建者
  • 技术负责人,需要理解"环境设计"对智能体性能的影响

不适合:

  • 寻找零代码 AI 入门的人
  • 只关心写提示词、不打算动代码的人

还有一件事

课程开源协议是 MIT。所有内容免费,14 种语言(中、英、日、韩、西、法、俄、德、阿拉伯……),直接访问,没有付费墙。

而且,这门课也是同一个团队做的——walkinglabs,来自 THU SIGS(清华深研)的开源实验室,,这次是 Harness Engineering 课。

两门课搭配起来读其实挺互补的:RL 课解决"模型怎么学",Harness Engineering 课解决"agent 怎么干活"。

不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering图5
Star History

仓库:https://github.com/walkinglabs/learn-harness-engineering

在线文档:https://walkinglabs.github.io/learn-harness-engineering/

中文 README:https://github.com/walkinglabs/learn-harness-engineering/blob/main/docs-readme/zh-CN/README.md


-- 完 --


加入机智流 Pro,1 天一块钱,AI 能力指数级增长时代,不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。


机智流推荐阅读

1. 

2. 

3. 

4. 

关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • Agent | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR
more
AI巨头的“Token补贴大战”,快打完了吗?
独家|获超亿美元融资,Sand.ai 曹越:为什么视频是通往世界模型最重要的路径
瞄准AI数据中心,安森美发布全新功率GaN产品线
卖马桶的,靠AI芯片赢麻了
我们为何总是错判AI?——AI的预测悖论
AI奇观:我在主会场卷,Agent在20余个分会场替我听会
腾讯研究院AI速递 20260622
一部「黑」奥特曼的电影,被 OpenAI 金主连夜雪藏
5000万,“保健品一哥”投了家AI芯片公司
睿芯集团与网新集团达成战略合作,共建国产AI算力全链路产业生态
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号