
导读:当AI的“方向盘”和“仪表盘”不再隐藏在代码深处,而是变成人人都能看懂的自然语言文档,智能体开发将迎来怎样的革命?
在当今AI智能体开发领域,一个不为人知却至关重要的现实是:智能体的成败往往不取决于核心模型本身,而取决于那个被称为“缰绳”(harness)的控制层。这个缰绳负责规划多步推理、调用工具、管理记忆、协调多智能体协作,并决定何时停止。
然而,这些至关重要的控制逻辑,长期以来却像“黑箱魔法”一样,深藏在控制器的代码、框架的默认设置、工具适配器和运行时特有的假设之中。
这使得不同系统之间的缰绳设计难以移植、公平比较和科学分析。我们常常看到,两个名义上仅有一个设计差异的系统,实际上在提示词、工具中介、工件约定、验证关卡和状态语义上同时存在诸多不同,导致评估沦为对整个控制器“捆绑包”的模糊比较,而非模块级别的清晰论证。
来自清华大学深圳国际研究生院和哈尔滨工业大学的研究团队,最近发布了一项突破性研究《Natural-Language Agent Harnesses》(NLAH),首次将智能体的控制逻辑从代码的禁锢中解放出来,使其成为一个用自然语言编写、可编辑、可执行、可移植的显式对象。
他们提出了 “自然语言智能体缰绳” 和配套的 “智能缰绳运行时” ,为AI智能体开发的可解释性、可复用性和可研究性开辟了一条全新的道路。

图1:现代智能体使用的典型缰绳设计模式示例,包括“推理-行动”循环、检索、反思、验证、记忆、搜索和多智能体编排。
论文标题:Natural-Language Agent Harnesses
论文链接:https://arxiv.org/pdf/2603.25723
作者:Linyue Pan, Lexiao Zou, Shuo Guo, Jingchen Ni, Hai-Tao Zheng
研究背景:从“提示词工程”到“上下文工程”的范式转移
随着大语言模型能力的飞速发展,AI研究的焦点正从单次调用的“提示词工程”转向长期、多步任务的“上下文工程”。对于需要跨越多个上下文窗口的复杂任务,稳健的进展不再依赖于一次性的措辞技巧,而更取决于持久的状态表面(state surface)、清晰的验证关卡和明确的责任边界。
近期,业界领先的AI公司如Anthropic、OpenAI等在其工程博客中反复强调“缰绳工程”(harness engineering)和“长时运行智能体的有效控制”的重要性,开始将缰绳视为一个一等公民的系统对象,而非包裹在模型外的一层薄薄的包装纸。
然而,一个根本性的问题依然存在:尽管缰绳设计日益重要,但其逻辑却很少以一个连贯、可移植的“工件”形式暴露出来。它散落在各处,导致缰绳难以跨运行时移植、难以公平比较、难以进行干净的模块化消融实验。
这项研究正是为了解决这一核心痛点。研究团队提出了一个大胆的设想:能否将智能体缰绳内部的设计模式层,在共享的运行时假设下,显式地表达为一个可执行的自然语言对象?
核心创新:自然语言缰绳与智能运行时
研究团队的核心贡献是两套相辅相成的系统:
1. 自然语言智能体缰绳(NLAH)
NLAH是一个结构化的自然语言表示,它捕获了缰绳的控制逻辑,并与明确的“契约”和“工件载体”绑定。自然语言在这里并非替代底层的确定性代码,而是承载可编辑、可审查的编排逻辑,而适配器和脚本则提供确定性的钩子(如测试、检查器、验证器)。
一个NLAH显式地定义了以下核心组件:
-
契约:必需的输入输出、格式约束、验证关卡、权限边界、重试与停止规则。 -
角色:具有非重叠职责的角色提示(如求解器、验证器、研究员、协调员)。 -
阶段结构:明确的工作负载拓扑(如“计划-执行-验证-修复”循环)。 -
适配器与脚本:用于确定性操作的命名钩子。 -
状态语义:指明哪些内容需要在步骤间持久化(工件、分类账、子工作空间)以及如何重新打开它们。 -
失败分类法:驱动恢复机制的命名失败模式(如工件缺失、路径错误、验证失败等)。

传统代码耦合的缰绳:复杂、与框架锁定、逻辑不透明。

自然语言缰绳:逻辑显式、可移植、可组合。
2. 智能缰绳运行时(IHR)
由于NLAH是用自然语言编写的,执行它们需要“解释”。因此,IHR将一个LLM置于运行时循环内部:在每个步骤,它读取(i)缰绳文本,(ii)当前状态与环境,以及(iii)运行时章程,然后选择符合契约和预算的下一步行动。
IHR被分解为三个组件:
-
循环内LLM:解释缰绳逻辑。 -
后端:提供终端工具和一等公民的多智能体接口。 -
运行时章程:定义契约、状态、编排和子智能体生命周期的语义。
这种设计实现了 “运行时章程” 与 “任务族特定缰绳逻辑” 的清晰分离。运行时章程是固定的、共享的,它规定了跨任务通用的策略和语义;而NLAH则专注于特定任务类型的控制流程。这种分离使得缰绳逻辑首次成为可以在不同任务间移植、比较和研究的独立对象。
实验验证:在编码与计算机使用任务上的系统性评估
为了验证NLAH与IHR的可行性与价值,研究团队在编码和计算机使用两大代表性任务族上进行了严格的控制实验,回答了三个核心研究问题。
RQ1:行为效应——共享运行时与缰绳逻辑如何改变智能体行为?
实验结果表明,运行时章程和缰绳逻辑显著改变了系统的行为过程,而不仅仅是最终成功率。在SWE-bench Verified(一个基于真实GitHub仓库的问题修复基准)上,使用完整IHR的TRAE风格缰绳,其工具调用、LLM调用和运行时间都大幅增加。
深入分析发现,超过90%的计算资源消耗发生在“被委托的子智能体”中,而非运行时拥有的父线程。这意味着增加的预算反映了真实的多阶段探索、候选方案比较、工件交接和额外验证。缰绳逻辑是真实的行为控制器,而非简单的提示装饰。
同时,研究也发现了一个重要现象:大多数任务实例的结果并未因配置改变而“翻转”。差异集中在少数对组件敏感的“边界案例”上。完整IHR更像是一个“已解决集合的替换器”,而非均匀地扩展能力边界——它在一些案例上获胜,但也失去了一些更轻量设置下能完成的直接修复路径。
RQ2:可组合性——显式化的模式能否进行模块级组合与消融?
一旦缰绳模式变得显式,研究团队便能像搭积木一样,在共享的底层基础上逐个添加或移除模块,例如:
-
文件支持的状态 -
证据支持的应答 -
独立验证器阶段 -
自我进化 -
多候选搜索 -
动态编排

图3:SWE-bench上各模块的解决率与预估API成本对比。自我进化模块(黑色)在提升性能的同时未显著增加成本,体现了其“收紧解决循环”的效率优势。
结果揭示了几个关键模式:
-
模块效应集中在少数边界案例上,而非均匀改变整个基准的表现。 -
模块分为两类:一类如“自我进化”,通过更严格的验收门控来改进解决循环本身;另一类如“文件支持的状态”,主要改善过程结构和可审计性。 -
更显式的结构并不自动意味着更好的最终性能。只有当添加的模块能有效对齐中间行为与最终评估器的验收条件时才有帮助。反之,如果模块主要添加了其自身成功标准与最终基准弱对齐的本地流程层,则可能无益甚至有害。
RQ3:迁移——从代码缰绳到自然语言缰绳的保真度如何?
研究团队进行了配对迁移研究,将原有的代码实现的缰绳(如OS-Symphony)重构为NLAH,并在共享的IHR下进行比较。
在OSWorld(计算机使用基准)上,迁移后的NLAH实现取得了比原生代码实现更高的成功率。更重要的是,行为发生了根本性转变:
-
可靠性机制的重新定位:原生运行通常依赖于脆弱的GUI屏幕修复循环,而NLAH实现则更倾向于围绕文件支持的状态和工件支持的验证来组织运行。智能体更倾向于生成确定性的文件、分类账和显式工件,并从GUI操作转向文件、Shell或包级别的操作,因为这些操作能提供更强的完成凭证。 -
拓扑结构的变化:原生拓扑是带有偶尔分支的桌面控制循环,而迁移后的拓扑是契约优先的运行时流,其状态存在于任务文件、分类账和工件中。
这表明,迁移的主要效果并非高级编排逻辑的丢失,而是将可靠性机制从本地屏幕修复重新定位到了持久的运行时状态和工件支持的闭环上。
讨论与展望:迈向“缰绳表示科学”
这项工作的意义远不止于提出一个新的工具。它指向了一个更宏大的愿景:将缰绳设计模式层外部化为可执行、可比较、可消融的对象,从而开启“缰绳表示科学”的新领域。
自然语言 vs. 代码:研究团队并非主张用自然语言取代代码。代码仍然负责确定性的操作、工具接口和安全沙箱。科学主张在于比较的单位:在共享的运行时语义下,将缰绳模式逻辑外部化为一个可读、可执行的对象。
为什么自然语言仍然重要?即使基础模型越来越强大,用于指定缰绳级别控制(角色、契约、验证关卡、持久状态语义、委托边界)的自然语言仍然至关重要。这与业界强调上下文工程和长时运行缰绳设计的实践是一致的。
搜索缰绳表示:一旦缰绳成为显式对象,它们就变成了一个可搜索的空间。未来,我们可以自动化地搜索和优化缰绳表示,而非进行不透明的捆绑包工程,使得缰绳工程成为一个更受控的科学对象。
结语
清华大学与哈尔滨工业大学团队的这项研究,为AI智能体开发领域带来了一个范式级别的创新。通过将智能体的“控制大脑”从代码的深海中打捞出来,并用人类可读的自然语言重新塑造,他们不仅解决了当前开发中的痛点,更打开了一扇通往更透明、更可复用、更科学的智能体工程方法的大门。
当AI的“缰绳”变得清晰可见、可自由编辑时,我们距离构建真正可靠、可信、可协作的智能体系统,无疑又迈进了一大步。
论文标题:Natural-Language Agent Harnesses
作者单位:清华大学深圳国际研究生院,哈尔滨工业大学(深圳)
论文链接:https://arxiv.org/pdf/2603.25723
> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对
-- 完 --