让AI自己修服务器？先过了这场“火线测试”再说

让AI自己修服务器？先过了这场“火线测试”再说图1

全球首个面向AI Infra运维场景的智能体评测基准来了。

作者 | 陈骏达

编辑 | 漠影

随着大模型能力持续提升，智能体正从聊天、写作等辅助场景走向软件开发、网络管理和基础设施运维等生产环节。尤其在AI基础设施领域，面对庞大的GPU集群和复杂架构，越来越多企业开始尝试让智能体承担故障排查、告警分析和资源管理等工作，以提升运维效率并降低人力成本。

然而，运维场景对智能体构成了空前挑战。AI算力集群运维横跨GPU硬件、网络通信、分布式存储、容器编排、训练框架等多个技术栈，问题现象往往模糊、不完整甚至相互矛盾，智能体需要在开放环境中主动探索、反复验证，自行界定问题并寻求解决路径。

要提升智能体在此类复杂场景的综合能力，一套与之匹配的评测基准不可或缺。但当前行业恰恰缺乏对这种多步推理、开放决策过程的系统化评估能力，导致运维智能体研发长期“无标可依”，进展评估与方向校准均缺乏牵引。

正是在这样的背景下，中国信息通信研究院开源了全球首个面向AI Infra运维场景的智能体评测基准——AISHPerf-智算运维智能体评测基准，国内头部AI原生基础设施企业无问芯穹重点参与技术建设。

这套基准源自百亿条真实运维数据，不再只关注“会不会回答问题”，而是聚焦智能体“能不能解决问题”，为运维智能体能力评估提供了一套贴近真实生产环境的参考标准。

开源地址：

https://gitee.com/aishperf-caict/aishperf_openness

01.

百亿条运维数据

炼出103道“考题”

任何评测体系的价值，最终都建立在数据质量之上。对于运维智能体而言尤其如此。因为真实世界中的故障往往具有高度随机性和复杂性，许多问题并不存在标准答案，甚至需要跨越多个技术栈进行联合分析。如果评测数据脱离真实生产环境，即使得到再高的测试分数，也很难证明智能体具备实际应用价值。

无问芯穹之所以能够重点参与这一评测基准的技术建设，与其在AI基础设施领域的长期实践密切相关。根据披露的信息，其早在2025年便已将运维智能体应用到实际训练推理业务中，并取得明显成效。工单平均处理时长缩短50%，关键故障处理效率提升约6倍，运维人效提升超过5倍，综合运维成本下降约30%。然而在实践过程中，他们也发现行业缺少一套能够客观衡量运维智能体能力的标准体系，这成为推动AISHPerf-智算运维智能体评测基准诞生的重要原因。

这一需求背后有着非常现实的行业背景。随着AI基础设施规模不断扩大，许多故障已经超出了传统监控系统和规则引擎的处理能力。运维工程师不仅需要理解硬件设备状态，还需要掌握网络通信、分布式系统、容器平台以及训练框架等多层知识体系。智能体如果要进入这样的场景，需要拥有相同的能力集合，并且要能真正将知识运用到实际问题解决中去。

为了构建高质量评测集，研究团队从无问芯穹成立以来积累的百亿条真实运维数据中进行筛选，收集了2024年至2026年初全部用户工单、即时通信记录、运维文档以及线上集群监控告警数据，并通过多轮数据清洗剔除低质量内容。整个过程不仅包含去重和严格脱敏，还排除了与特定业务强绑定、无法泛化的问题案例，确保最终保留下来的样本既真实可信，又具备普适评测价值。

经过严格筛选后，团队从10万条有效数据中进一步抽象整理，最终形成103个高保真评测用例。每一个案例都对应真实发生过的生产故障，包含完整的问题现象、排查路径以及最终根因，确保评测结果能够真实反映智能体在生产环境中的实际表现。

值得注意的是，AISHPerf-智算运维智能体评测基准覆盖的问题范围极其广泛，按照技术栈层级将问题划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类，涵盖44种问题现象和22个细分故障领域，基本覆盖了真实运维场景中可能遇到的所有情况。

此外，所有问题共分为3种难度级别，平均人工处理耗时为1.5小时，充分保障了问题的复杂性与挑战性。

对于智能体而言，这意味着它不仅需要理解单点故障，还要具备跨系统关联分析能力，而这恰恰是现实运维工作中最具挑战性的部分。

更有意义的是，该基准首次将国产算力平台纳入评测体系。天数智芯、壁仞科技、沐曦、摩尔线程以及昇腾等国产芯片相关问题均被覆盖其中。

随着国产GPU集群规模快速增长，越来越多企业开始部署异构算力环境，不同芯片架构带来的兼容性和运维挑战也随之增加。将国产算力场景纳入统一评测体系，不仅能够提升基准的现实价值，也为未来国产智算生态建设提供了重要参考。

02.

不考笔试考实操：

故障模拟注入，智能体自主排障

如果说高质量数据决定了评测内容，那么评测方式则决定了测试结果是否具有参考意义。

当前大多数模型Benchmark本质上仍属于“笔试”模式。模型面对一道题目，通过知识记忆和推理给出答案即可获得分数。然而运维工作并非如此。现实中的故障往往没有明确线索，工程师需要不断收集信息、验证假设并逐步缩小排查范围，最终找到真正原因。因此，对一个真正优秀的运维智能体而言，考察重点不应该是知道多少知识，而是能否把问题解决掉。

AISHPerf-智算运维智能体评测基准最大的创新之一，正是在于将评测从知识问答转变为真实实操。测试开始后，系统不会直接告诉智能体故障原因，而只会提供有限的问题描述以及真实运行环境。智能体需要自行调用工具、查看日志、执行命令、分析状态，并在不断探索过程中完成问题定位和修复。这种开放式测试模式更加接近真实生产环境，也对智能体提出了更高要求。

例如在“训练任务卡死”场景中，评测系统会提前向环境中注入故障，同时提供一个包含训练脚本的开发容器。智能体只能获得来自用户的一段问题反馈，之后需要独立完成问题复现、原因分析和故障修复的全过程。整个过程对知识储备、决策能力、工具使用能力以及长链路推理能力进行了全面的考察。

为了支撑这种实操评测，无问芯穹同时建设了配套工具AIops-Chaos。这是一套面向GPU集群的故障模拟工程，专门用于构造真实而可控的异常环境。在传统运维测试中，直接制造硬件故障往往成本极高，而且存在设备损坏风险；而纯软件模拟又难以还原真实场景。AIops-Chaos则尝试在两者之间找到平衡。

通过软件层面对GPU和RDMA等智算集群环境进行精准模拟，该系统能够构造掉卡、显存异常、NVLink故障以及网络分区等多种典型问题，同时结合真实业务负载形成高保真测试环境。相比物理故障注入方式，这种方案既避免了设备损坏风险，又能够实现快速重复测试，大幅降低验证成本。

与此同时，团队还推出了端到端评测工具链AIops-Eval。与现有评测框架相比，其最大的特点是能够追踪智能体整个决策过程。系统通过User、Agent、Env、Evaluator以及Tracing五大模块，对智能体行为进行全流程记录和分析，从而实现细粒度评测。

这种评测方式的重要性在于，运维智能体的价值既体现在最终能否解决问题，也体现在解决问题的路径是否合理。如果智能体单纯靠猜测来找到问题根因，其工程价值显然远低于真正与环境交互得到根因的智能体。因此，对过程进行评估成为衡量智能体实际能力的重要组成部分。

03.

实测成绩单出炉，

三大失败模式揭示智能体的“强项”与“死穴”

为了尽可能客观衡量智能体能力，AISHPerf-智算运维智能体评测基准设计了一套结果导向的多维评估体系。

其中最核心指标是综合得分。系统根据简单、中等和困难三种难度的问题分别统计成功率，并按照不同权重计算总成绩。这样的设计避免了模型通过大量完成简单任务获得虚高分数，而是鼓励其真正解决复杂问题。此外，评测还同时记录平均耗时、Token消耗以及工具调用次数，从准确率、效率和成本多个维度进行综合评价。

值得注意的是，评测明确规定智能体必须与环境发生真实交互。如果模型没有调用工具而直接猜测答案，即使结果正确也不会得分。这一规则有效避免了投机行为，使评测结果更加真实可信。

在测试中，研究团队选取了包括Claude Sonnet在内的多个国内外主流模型进行验证，为了突出模型自身能力，测试环境仅开放Shell工具，同时禁止联网搜索，所有问题都必须依靠自主分析完成。

测试结果显示，虽然所有模型都展现出明显高于人类运维工程师的处理速度，但总体得分仍然不高，全部低于50分。这意味着即使当前最先进的大模型，在复杂运维场景中依然远未达到成熟可用阶段。

进一步分析发现，随着任务难度增加，各模型正确率迅速下降。在中等和困难问题上，大多数模型成功率不足50%。与此同时，工具调用时间占比持续增加，但最终正确率却没有同步提升。这表明模型虽然愿意收集更多信息，却缺乏有效筛选和利用信息的能力，导致排查效率下降。

从技术栈维度来看，不同模型也呈现出明显能力差异。整体而言，模型更擅长处理代码逻辑和软件层问题，而在GPU硬件、网络设备等基础设施故障上表现相对较弱。

面对硬件问题时，模型往往消耗更多Token进行分析，却依然难以准确定位根因，反映出其技能与人类运维工程师存在差异。

这些差异恰恰证明了评测体系本身具备良好区分度。AISHPerf-智算运维智能体评测基准能够清晰拉开不同模型之间的能力差距，说明其确实捕捉到了运维场景中的关键能力指标。

通过大量测试轨迹分析，研究团队总结出当前运维智能体最典型的三类失败模式。

第一类是稳定性不足，包括工具调用格式错误、执行流程异常终止以及违反规则等问题。

第二类是推理链质量不足，表现为只解决表面现象而未找到真正根因，或者在缺乏证据情况下直接下结论。

第三类则是安全性问题，一些模型可能执行危险命令，甚至导致环境崩溃，需要人工介入恢复。

这些失败模式对于行业具有重要参考意义，为大模型在基础设施场景后续的能力优化提供了明确依据。

04.

结语：给运维Agent建立一把统一标尺

当AI进入大规模落地阶段后，提升GPU利用率、缩短故障恢复时间以及降低运维成本，正在成为更加迫切的课题。运维智能体被寄予厚望，但其能力边界究竟在哪里，同样需要被客观衡量。

AISHPerf-智算运维智能体评测基准的价值，正在于为行业提供了这样一把统一标尺。它不仅首次将真实生产环境引入智能体评测体系，也让“智能体是否真正解决问题”成为核心评价标准。

随着未来更多模型、Agent框架和国产算力生态加入这一体系，这套Benchmark有望逐步演变为AI基础设施领域的重要公共基线，为整个行业探索“AI for Infra”的未来提供持续参考。