Agent全链路成功率0%？首个真实DevOps基准曝致命短板｜ICLR'26

新智元报道

编辑：LRST

【新智元导读】AI能写代码，却修不好构建环境、看不懂系统监控、串不起全链路运维——新基准DevOps-Gym显示，顶级模型在真实软件工程任务中全链路成功率归零，暴露其缺乏长程推理与动态系统理解能力，AI辅助编程远未触及真实开发核心。

随着LLM的爆发，Coding Agent似乎已经无所不能：写函数、修Bug、甚至刷LeetCode，但任何一位在一线摸爬滚打过的软件工程师都知道，写代码（Coding）仅仅是软件工程（Software Engineering）的一小部分。

在软件工程领域，尽管AI Agent在代码生成方面表现出色，但在处理真实的DevOps全链路时能力依然未知。

在真实世界中，一个代码变更的生命周期是漫长而痛苦的：你需要搞定复杂的构建环境（Build & Config）；你需要将代码部署上线，并盯着仪表盘监控它是否导致了内存泄漏（Monitoring）；当警报响起，你需要从日志中定位问题并修复（Issue Resolving）；最后，你还得补上回归测试，确保问题不再复发（Test Generation）。

实际开发不仅是写代码，更涉及复杂的环境构建、运行时监控、故障排查与测试验证，现有的评估基准大多局限于独立的编码任务或模拟环境，缺乏对真实运维场景的覆盖。

目前的Benchmark（如SWE-bench或HumanEval）大多只关注「写代码」这一环。

为填补这一空白，UCSB、NUS与Berkeley等联合团队提出了首个针对DevOps核心工作流（构建配置、监控、问题修复、测试生成）的端到端评估框架DevOps-Gym，不仅要评估 AI 「写」代码的能力，更要评估其「运维」和「治理」代码的能力。

Agent全链路成功率0%？首个真实DevOps基准曝致命短板｜ICLR'26图2

论文链接：https://arxiv.org/abs/2601.20882

主页链接：https://www.devops-gym.com/

DevOps-Gym包含来自30+个真实Java和Go项目的700+个任务，并提供全容器化的执行环境。

实验表明，即使是SOTA模型（如Claude-4-Sonnet），在构建与配置任务上的成功率仅为51.85%，监控任务仅为20.56%，而在全链路流水线任务中成功率更是为0%，揭示了当前AI在处理动态系统与长链路推理上的显著短板。

DevOps-Gym不只是代码

真实世界的「修罗场」标题

Agent全链路成功率0%？首个真实DevOps基准曝致命短板｜ICLR'26图4

DevOps-Gym是首个针对软件DevOps全生命周期的端到端Benchmark，研究人员没有使用模拟环境，而是基于30+个真实的Java和Go开源项目，构建了700+个真实任务。

在这个Gym里，Agent需要像人类工程师一样，在隔离的容器环境中，通过命令行工具与系统交互，覆盖了DevOps的四大核心阶段：

构建与配置 (Build & Configuration)：Agent 的「盲区」

这可能是目前 AI 最不擅长的领域，任务不仅仅是简单的编译，还包括：

环境修复：解决依赖版本冲突、构建配置错误、工具链不匹配等「环境地狱」问题。
系统迁移与升级：例如，将一个大型项目的构建系统从 Maven 迁移到 Gradle，或者升级关键依赖版本。
挑战：这要求 Agent 深入理解构建工具的内部机制（Internal Mechanics），而不仅仅是根据报错修代码。

监控与异常检测 (Monitoring)：像侦探一样工作

这是现有Benchmark极少涉及的领域，模拟了应用上线后的运行时环境：

场景：系统正在运行，但存在隐患。Agent 无法直接查看源码，只能通过 top, iostat, netstat, ps 等标准命令行工具来观察系统。
任务：诊断性能异常（I/O 瓶颈、SQL 查询低效）或资源异常（内存泄漏、磁盘耗尽、CPU 尖峰）。
挑战：很多异常是渐进式的（如内存缓慢泄漏），Agent 往往难以在长周期的日志流中保持注意力，或者将正常的系统波动误判为异常。

问题修复 (Issue Resolving)：跨越语言的鸿沟

基于真实的GitHub Issue和PR构建任务。与SWE-bench不同的是，该基准专注于Java和Go项目。

实验表明，从Python切换到这些编译型语言后，由于涉及复杂的编译过程和更严格的类型系统，Agent的表现出现了断崖式下跌。

测试生成 (Test Generation)：闭环的关键

Agent必须在不看修复代码的情况下，仅根据Bug描述编写回归测试。

挑战在于，生成的测试必须满足「Fail-to-Pass」标准——在Bug版本上失败，在修复版本上通过，要求Agent对程序的运行时行为有极强的推理能力。

终极挑战

End-to-End Pipeline

为了模拟最真实的生产环境，研究人员设计了18个全链路流水线任务 (End-to-End Pipelines)。

规则很残酷，Agent必须连续完成Build → Monitor → Fix → Test的全过程，这是一个串行任务，任何一个阶段失败（比如构建没修好，或者监控没发现问题），整个 Pipeline 直接终止。

实验结果

残酷的现实

研究人员评估了包括Claude-4-Sonnet、OpenAI o4-mini、DeepSeek-V3.1等在内的SOTA模型。结果如下：

全链路全军覆没：在End-to-End Pipeline任务中，目前所有Agent的成功率均为0%，这说明Agent极度缺乏在长链路任务中保持上下文和跨阶段推理的能力。
构建与监控是短板：即使是表现最好的Agent (Claude Code)，在构建任务上的成功率也仅为51.85%，而在监控任务上仅为20.56%。
监控中的「注意力涣散」：研究人员发现Agent在监控任务中经常「走神」。面对不断刷新的系统状态，它们往往过度关注早期的观测结果，而忽略了后续出现的关键异常信号。
非Python语言的弱势：在Issue Resolving任务上，同样的模型在Python Benchmark上表现出色，但到了Java/Go环境中，能力大打折扣（例如Claude-4-Sonnet + OpenHands仅有23.87%的修复率）。这可能与预训练数据中Python的主导地位有关。