OpenClaw爆火，暴露12类致命隐患！MCP协议安全基准发布

新智元报道

编辑：LRST

【新智元导读】MCP协议正推动AI Agent自主执行任务，但安全风险飙升。研究发现，攻击者可借工具名称混淆、虚假错误等12类手法诱骗Agent执行恶意操作，连顶级模型也难以幸免。北京邮电大学团队发布MSB安全基准，通过真实环境测试揭示：性能越强的模型，反而越易受攻击。新指标NRP首次平衡安全与实用性，为AI Agent筑牢防线提供关键标尺。

最近，OpenClaw等开源AI Agent项目在开发者社区火爆出圈。只需要一句话，Agent就能自动帮你写代码、查资料、操作本地文件，甚至接管电脑。

这些 Agent 惊人自主性的背后，离不开工具调用提供的能力，MCP（Model Context Protocol，模型上下文协议）正是统一AI工具生态的接口。就像USB-C让电脑可以连接各种设备一样，MCP让大模型能够以标准化方式调用文件系统、浏览器、数据库等外部工具。

面对如此庞大的生态，连主打原生命令行的OpenClaw，也通过适配器接入了 MCP，以获取更广阔的工具能力。

然而，当AI的「手」越伸越长，危险也随之降临。如果Agent调用的工具本身被黑客投毒了呢？如果工具返回的报错信息里藏着恶意指令呢？

当大模型毫无防备地执行这些指令时，你的隐私数据、本地文件甚至服务器权限，都将沦为黑客的囊中之物。

为了填补MCP生态的安全测评空白，来自北京邮电大学等机构的研究团队推出了专门针对MCP协议的安全基准：MSB（MCP Security Bench）。研究发现：针对MCP的每个阶段的攻击都具有有效性。性能越强大的模型，反而更容易受到攻击。该论文已被ICLR 2026接收。

OpenClaw爆火，暴露12类致命隐患！MCP协议安全基准发布 | ICLR图2

论文链接：https://openreview.net/pdf?id=irxxkFMrry

代码：https://github.com/dongsenzhang/MSB

Agent背后的MCP安全风险

OpenClaw爆火，暴露12类致命隐患！MCP协议安全基准发布 | ICLR图4

图1：MCP攻击框架

MCP极大地拓宽了Agent的能力，同时也极大地拓宽了攻击面。在MCP体系下，Agent的工具调用流程通常包含三个阶段：

1. 任务规划（Task Planning）：Agent根据用户查询，通过工具名称和描述选择合适的工具。

2. 工具调用（Tool Invocation）：Agent向选定工具发送请求，并传入相应参数以执行具体操作。

3. 响应处理（Response Handling）：Agent解析工具响应结果，并据此继续推理或生成最终回答。

每一个阶段，都可能成为新的攻击入口。MSB覆盖完整的MCP工具调用阶段，专门用于评估基于MCP工具使用的 Agent安全性，具有三大核心亮点：

MCP 攻击分类体系

在 MCP 工作流程中，Agent通过工具标识（名称和描述）、参数以及工具响应与工具进行交互，这些都可能成为攻击途径。MSB根据这些攻击途径和交互阶段对攻击类型分类：

Tool Signature Attack：在任务规划阶段，利用工具名称和描述进行攻击，包括：

名称冲突（Name Collision，NC）：伪造名称与官方工具相似的恶意工具，诱导Agent选择。

偏好操纵（Preference Manipulation，PM）：向工具描述中注入宣传语句，诱导Agent选择。

提示注入（Prompt Injection，PI）：向工具描述中注入恶意指令。

Tool Parameter Attack：在工具调用阶段，利用工具参数进行攻击，包括：

越权参数（Out-of-Scope Parameter，OP）：设置超出正常功能的工具参数，通过参数传递引发信息泄露

Tool Response Attack：在响应处理阶段，利用工具响应进行攻击，包括：

用户模拟（User Impersonation，UI）：冒充用户下达恶意指令。

虚假错误（False Error，FE）：提供虚假的工具执行错误信息，要求Agent遵循恶意指令才能成功调用工具。

工具重定向（Tool Transfer，TT）：指示Agent调用恶意工具。

Retrieval Injection Attack：在响应处理阶段，利用外部资源进行攻击，包括：

检索注入（Retrieval Injection，RI）：嵌入恶意指令的外部资源通过工具响应破坏上下文。

Mixed Attack：在多个阶段，同时利用多个工具组件进行攻击，包括对以上攻击的组合。

基于真实环境的执行套件

MSB 拒绝纸上谈兵的模拟评测，其搭载了真实的MCP 服务器，涵盖10个现实场景、405个真实工具和 2,000 个攻击实例。所有实例都通过MCP运行真实的工具执行，真实地反映实际操作环境，以直接观测攻击对环境状态的破坏程度。

平衡性能与安全的指标NRP

在Agent安全测评中，单纯看攻击成功率（ASR, Attack Success Rate）极具欺骗性，如果一个 Agent 为了避免风险而拒绝执行任何工具调用，其ASR可能接近0，但同时也无法完成用户任务，失去实际应用价值。

为此，MSB提出了净弹性性能 NRP（Net Resilient Performance）指标：

NRP=PUA⋅（1−ASR）

其中，PUA（Performance Under Attack）为Agent在对抗环境中完成用户任务的比例，ASR为攻击成功率。NRP旨在评估Agent在抵御攻击的同时保持性能的整体抗风险能力，提供平衡性能与安全的综合性量化标准。

OpenClaw爆火，暴露12类致命隐患！MCP协议安全基准发布 | ICLR图8

图2：NRP vs ASR，NRP vs PUA。

所有攻击方式均有效

OpenClaw爆火，暴露12类致命隐患！MCP协议安全基准发布 | ICLR图10

图3：主实验结果。

研究团队使用MSB对GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流模型进行了大规模测试，所有攻击方式均表现出有效性，总体平均ASR为40.35%。其中MCP引入的新型攻击更具侵略性，相较于在function calling中已存在的PI和RI攻击，基于MCP的攻击例如UI和FE有更高的成功率。混合攻击则是展现出协同增强，混合攻击的成功率要高于组成其的单一攻击。