点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图1

大模型真连上机器人、拿到物理执行权，出了问题谁背锅？

答案是一套叫 Harness 的东西。它不是模型，也不是硬件，是模型的意图要经过它翻译成动作，同时整个过程被记录、约束、检查，出错了还能回退和复盘。

这周有三个工作从不同角度把这事说透了。

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图2

1）Harness Engineering for Physical AI：机器人中间件，就是新一层的运行护栏

论文：https://arxiv.org/abs/2606.09416

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图3

这篇论文没搞新模型，但指出了一个被忽视很久的问题：Physical AI 时代，robot middleware 本身就是 harness layer。

以前聊 Harness，通常是在软件 Agent 语境下。模型调工具，Harness 管边界、管上下文、管日志。但机器人不一样。模型每输出一次，最终不是停在内存里的函数参数，是要变成物理世界里的真实运动。这里同时扯着三条线。控制侧，轨迹一变，安全边界可能就破了；计算侧，推理时间一抖，控制周期就乱了；通信侧，传感器数据涌进来，带宽和实时性全跟着遭殃。

所以论文的判断很直接：Physical AI 的 Harness 不能只盯"工具调用边界"，控制、计算、通信三条线都得管。

作者把缺的能力分成三类：

Projection——模型输出得先过安全空间、动力学边界和任务约束，不能想去哪儿就去哪儿。

Isolation——模型不能无限吃时间、带宽和算力，推理和通信必须有预算。

Transfer——检查失败时，系统能切回可验证的基线策略，而不是在"硬着头皮继续"和"彻底宕机"之间二选一。

这三条背后有个硬逻辑：以后机器人接入模型，不能光带个权重文件，还得带份"运行规范"——输出范围、推理预算、适用工况、失败转移路径、不可逾越的边界。

这才是 Harness 的意思。不是事后补救，是事前约束。

2）ros2_medkit：机器人出问题，不该再靠工程师 SSH 进去翻日志

项目：https://github.com/selfpatch/ros2_medkit

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图4

上一篇论文讲的是"为什么需要 Harness"，ros2_medkit 回答的问题更实际：机器人上线后，怎么知道它到底哪儿坏了？

做过 ROS 2 的人都熟悉这个场景——现场出问题，工程师远程 SSH 进去，看节点、查 topic、翻日志、抓 rosbag、重启进程。几台机器还能硬扛，规模一上去就是灾难。

ros2_medkit 的定位很清楚：面向 ROS 2 的 diagnostics gateway。不做控制，不做规划，就干一件事——把运行中的系统状态暴露成标准化诊断接口。

这类项目短期看确实不如"机器人听懂自然语言"吸引眼球，但真部署过机器的人都知道，最大的痛点往往不是缺功能，而是不可观测。坏了不知道原因，修好了不知道是不是真修好了，版本之间没法对比，用户现场出问题只能远程猜。

ros2_medkit 补的就是这层。它把 ROS 2 从"黑盒运行"推向"可诊断运行"。对上层 Agent 来说，这是 Harness 最基础的能力——调用任何工具之前，它得先知道自己脚下的系统还稳不稳。

3）AgenticNav：导航不只是路径规划，也可以是 Tool-Calling Harness

论文：https://arxiv.org/abs/2606.10577

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图5

前两个项目补的是系统层 Harness，AgenticNav 把这个概念带进了具体任务。

它做的是视觉语言导航。传统做法里，VLM 要么从预设 waypoint 里选一个，要么依赖一套训练好的导航策略。问题是模型动作空间被锁死了，深度信息和历史记忆也没充分利用。

AgenticNav 的思路很直接：不给模型一个巨大黑盒，而是给它一个轻量级的 navigation harness。这个 Harness 只有三类工具：

action tool——模型不在预设 waypoint 里选，而是直接在 RGB 图像上指目标像素，系统再把像素转成可执行运动。

depth tool——模型不用吞下整张深度图，在关键位置主动查询距离就行。省上下文，也让空间判断更准。

memory tool——不是把全部历史图像和文本塞给模型，而是维护一个紧凑轨迹地图，模型需要时再回看关键观察。

这个设计的意义不小。导航被拆成一组可调用工具：看、问距离、记路径、选目标、执行动作。每一步都可解释、可回放、可干预。

对 OpenClaw × Robot 这条线来说，这是个很直接的启发：以后的机器人 skill，不一定是个巨大黑盒，也可以是一组可调用、可管理、可复盘的工具集合。上层 Agent 真正需要的不是直接控制每个电机，而是一个设计良好的任务 Harness。

总结：机器人 Agent 的下一步，不是更自由，而是更可控

机器人 Agent 正在从"能调用工具"走向"被 Harness 管理的物理执行系统"。

Harness Engineering for Physical AI 给了理论框架：中间件就是 Harness 层，必须同时管住控制、计算和通信。

ros2_medkit 给了工程入口：系统首先要可诊断、可观测、可复盘，否则长期运行无从谈起。

AgenticNav 给了任务范式：即使是导航，也可以设计成 tool-calling harness，而不是黑盒决策。

三条线合在一起，其实在回答同一个问题：当大模型和机器人真正连在一起，我们到底该信什么？

不是盲目信模型。不是盲目信一次成功的 Demo。而是信一套能记录、能约束、能检查、能回退、能复盘的系统。

这也是 Harness × Robotics 值得单独做成栏目的原因。它不是机器人 Agent 的附属方向，是真正落地之前必须长出来的那一层系统。

项目速查

Harness Engineering for Physical AI: Robot Middleware Is the Harness Layer，论文：https://arxiv.org/abs/2606.09416
ros2_medkit，GitHub：https://github.com/selfpatch/ros2_medkit
AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness，论文：https://arxiv.org/abs/2606.10577

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

Harness × Robotics 项目专栏｜机器人 Agent 不是只要会动，还要有一层"运行时护栏"图6