给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动

量子位 2026-06-16 20:41

RoboSafe团队投稿
量子位 | 公众号 QbitAI

当大模型开始控制机械臂、家用机器人时，“安全”这件事也变得不一样了。

过去，一个大语言模型输出了不安全内容，风险主要停留在文本层面；但一个机器人如果误执行了风险动作，危险后果将直接发生在物理世界：打碎物品、损坏设备，甚至伤害人。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图1

更麻烦的是，危险并不总是写在指令表面，而是与智能体的执行情境和状态密切相关。

具身智能体的安全风险很难靠一句提示词“不要做危险的事”解决，因为机器人面对的是动态环境、连续动作和变化的执行上下文，很多安全风险都是隐式的。

针对这一问题，来自北航、360 AI安全实验室、牛津大学、北京大学等机构的研究团队提出了RoboSafe框架，以补足现有防御方法在隐式风险识别上的不足。该研究荣获ICLR 2026 ESR研讨会杰出论文奖（Outstanding Paper Award，CCF-A）。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图2

具身智能体的安全问题，不只是“拒绝坏指令”

研究团队指出，现有具身智能体防护方法大多依赖两类思路：一种是在提示词里加入安全约束，另一种是提前写好规则过滤危险动作。它们面对显式危险指令时有一定效果，例如“打碎杯子”这类明显风险较容易被识别。

真正困难的是那些隐式风险。

一种是情境风险：同一个动作在不同环境中安全性完全不同。比如“开启微波炉”是否危险，取决于微波炉里有什么：如果只是普通食物，动作是安全的；如果有金属餐具，那就是危险的。
另一种是时序风险：单个动作看起来都没问题，但组合起来就会产生危险。比如智能体打开炉灶后继续做别的事，长时间没有关闭，就可能导致炉灶过热并引发火灾。

RoboSafe：让机器人行动前多一道安全护栏

RoboSafe为具身智能体加上了一层运行时安全护栏，其核心是论文提出的可执行安全逻辑。

简单来说，RoboSafe 会把安全判断转化成可执行、可验证的逻辑代码。例如：这个动作是否会在当前环境中造成破坏？之前是否打开过某个危险的设备？

如果检测到风险，RoboSafe就会进行明确的安全干预：阻止执行，或者要求重新规划生成更安全的执行序列。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图3

向前看：识别潜藏在当前环境中的情境危险

RoboSafe的第一个模块叫前向预测推理。它关注的是“即将发生的下一步动作”。比如智能体打算执行指令：“把叉子放进微波炉。”

这一步危险不只来自动作本身，还来自情境上下文：动作目标是什么、在哪里、当前状态如何。

RoboSafe会结合当前视觉场景、任务指令和智能体状态，从长期安全记忆中检索相关安全知识，再生成可执行的情境安全逻辑。如果情境逻辑判断当前动作会造成风险，系统就阻止执行。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图4

这里的关键不在于“看到微波炉就拒绝”，而在于理解“叉子+微波炉”这个组合在当前场景下危险。

向后看：从动作序列中挖掘正在累积的时序风险

RoboSafe的第二个模块叫后向反思推理。它关注的是“过去发生了什么”。

很多物理风险不是瞬间出现的，而是在动作序列中逐渐形成的。比如智能体先打开了炉灶，然后去做别的任务，迟迟没有关闭。

RoboSafe维护了一个短期安全记忆，用来记录当前任务中最近发生的动作，并持续反思是否违反了时序安全逻辑。

如果发现必要的安全动作还没有发生，它不会简单终止任务，而是触发重新规划，把安全纠正动作插入原计划中。

例如发现炉灶已经打开太久，就临时执行纠正动作“关闭炉灶”，再返回到原任务去。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图5

这让RoboSafe不只是一个安全拦截器，更像一个会反思执行轨迹的安全监督员。

实验结果：识别危险动作，保障安全任务

研究团队在AI2-THOR仿真环境中对多种多模态具身智能体进行实验，并在SafeAgentBench上进行全面评估。

结果显示，在情境风险任务中，原始智能体几乎不会拒绝危险行为。在RoboSafe的防护下，危险执行率被压低到4.78%。

在长时序风险任务中，RoboSafe也显著优于当前基线方法。实验数据显示，RoboSafe相比现有防护方法整体降低了36.8%的危险执行率。

值得注意的是，在安全任务上它仍能保持较高的执行成功率。这说明它并非简单粗暴地拦截所有动作，而是在区分正常行为和真正风险。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图6

面对越狱攻击：RoboSafe仍能守住执行前的最后一道关

论文进一步测试了RoboSafe面对越狱攻击时的防御效果。这类攻击会通过上下文诱导等方式说服智能体生成危险动作计划。

实验结果显示，RoboSafe在越狱攻击下依然保持较强鲁棒性。即使前端提示词被扰动，它仍然可以在动作落地前进行安全检查。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图7

不局限于仿真：真机系统验证可落地性

仿真测试外，研究团队还进一步在真实机械臂上验证了RoboSafe的防护效果，团队采用了两个真实世界中的危险任务用来测试。

在多轮测试下，RoboSafe都成功阻止了危险动作。

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图8

这说明RoboSafe是能够迁移到真实物理世界的实用防御框架。

从“能做什么”到“不该做什么”

具身智能体的发展，正在把大模型从屏幕内搬到物理世界，其安全风险日益显著。

这意味着我们不能只关心智能体能否完成任务，也必须关心它在什么情况下应该停下来、改计划，或者拒绝执行。

RoboSafe的意义正在于此：它没有把安全问题简化为“多写几条约束规则”，而是提出了一种更适用于物理世界的运行时安全机制，把安全判断转化为动作执行前的一道实际护栏。

当机器人逐渐走近真实家庭、工厂和公共空间，这样的安全机制将会成为具身智能体落地前不可或缺的一环。

论文链接：https://openreview.net/pdf?id=wyKCkQ2GyO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉

给机器人装安全护栏，北航联合团队提出RoboSafe，让具身智能体在物理世界中安全行动图9

🌟 点亮星标 🌟

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

安全机器人

more

Anthropic CEO发万字檄文！指数级AI不可逆，不安全必封杀

新智元 5天前

Anthropic CEO发万字檄文！指数级AI不可逆，不安全必封杀

柔性触觉传感器厂商完成近亿元融资，切入具身智能与锂电安全双场景｜早起看早期

36氪 2个月前

柔性触觉传感器厂商完成近亿元融资，切入具身智能与锂电安全双场景｜早起看早期

特斯拉Model Y成首款符合美国最新驾驶辅助安全标准车辆

电车界 1个月前

特斯拉Model Y成首款符合美国最新驾驶辅助安全标准车辆

Anthropic限制发布超强AI模型Mythos，安全与商业考量并存

科技区角 2个月前

Anthropic限制发布超强AI模型Mythos，安全与商业考量并存

山姆就食品安全问题致歉，世界杯创小红书直播在线人数记录，李斌称汽车业进入最残酷阶段，浙江联通全面关停3G，这就是今天的其他大新闻！

差评X.PIN 1天前

山姆就食品安全问题致歉，世界杯创小红书直播在线人数记录，李斌称汽车业进入最残酷阶段，浙江联通全面关停3G，这就是今天的其他大新闻！

零重力座椅狂飙突进：舒适背后的安全隐忧亟待正视

科技区角 1个月前

零重力座椅狂飙突进：舒适背后的安全隐忧亟待正视

一加Ace 6至尊版：三个大版本升级，四年安全维护更新

科技美学 1个月前

一加Ace 6至尊版：三个大版本升级，四年安全维护更新

前OpenAI高管出庭作证，马斯克诉OpenAI案迎来关键转折

科技区角 1个月前

前OpenAI高管出庭作证，马斯克诉OpenAI案迎来关键转折

5秒攻破，仅需1次对话：Fable 5最强安全机制被华人团队破解

机器之心 4天前

5秒攻破，仅需1次对话：Fable 5最强安全机制被华人团队破解

AI算力下半场，“内生安全”是一块芯片的入场券

智东西 3周前

AI算力下半场，“内生安全”是一块芯片的入场券

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号