
RepoMaster 旨在让AI智能体像人类专家一样,解决真实世界中的复杂开发任务。
作者丨QuantaAlpha

GitHub 上托管着超过5.2亿个代码仓库,形成了一个庞大且持续增长的开源生态系统。然而,对于开发者而言,这片富饶的“代码海洋”也常常意味着巨大的挑战:我们都曾有过这样的经历——在GitHub上找到一个看似完美的项目,满怀希望地 git clone,却旋即陷入环境配置、依赖冲突和代码理解的泥潭。过时的文档、复杂的内部逻辑和隐藏的入口点,常常让“复用”的初衷演变成一场耗时费力的“考古”。
与主流社区致力于“为AI智能体开发更多专用工具”的思路不同,我们认为,真正能被转化的工具并不匮乏,解决智能体落地应用的挑战并非需要耗费大量人力、时间来专门设计和制造工具,而是如何让智能体学会驾驭这个已经存在的、海量的代码世界。
因此,中科院、清华大学、北京大学、新加坡国立大学等机构的研究者,与前沿开源学术组织 QuantaAlpha 及阶跃星辰姜大昕团队联合,共同推出了RepoMaster,其核心理念并非“造轮子”,而是“找到并用好轮子”——它能够根据任务需求,首先利用深度搜索技术在海量开源项目中定位并筛选出最相关的代码仓库,然后将这个仓库视为一个潜在的、可以直接调用的强大工具。RepoMaster 旨在让AI智能体像人类专家一样,能够自主探索和理解陌生的代码库,从中快速提炼核心功能并加以利用;然后,它基于这份理解,自主地规划任务、编写和执行代码,并根据环境反馈进行动态调整,从而以最小的适配成本,解决真实世界中的复杂开发任务。

论文标题:RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving
论文链接: https://arxiv.org/pdf/2505.21577
GitHub: https://github.com/QuantaAlpha/RepoMaster

01
RepoMaster核心框架:从深度理解到自主执行的三步闭环
RepoMaster的工作流程始于动态搜索与选择:它首先根据任务需求,利用深度搜索技术在GitHub上筛选并锁定最合适的代码仓库。在此之后,RepoMaster的核心优势便体现于其三阶段闭环框架,该框架系统性地解决了AI智能体在面对陌生代码库时“看不懂、用不来”的根本难题,从而实现高效、自主的任务执行。

第一阶段:层级化仓库分析—— 从全局到核心
面对陌生的代码库,RepoMaster首先进行静态的、结构感知的分析,为后续探索建立一幅“导航地图”。
混合结构化仓库映射: 通过AST解析,RepoMaster构建出三种互补视图来描绘代码库全貌:
○ 层次化代码树 (HCT): 揭示代码的包、模块、类、函数间的层级关系。
○ 函数调用图 (FCG): 描绘函数间的调用关系,追踪程序脉络。
○ 模块依赖图 (MDG): 理清模块间的导入依赖,洞察项目架构。
核心组件识别: RepoMaster独创了一套多维度评分机制(综合依赖度、复杂度、Git更新频率等),从全局视图中精准定位出仓库最关键的核心模块与类,为后续探索提供焦点。
第二阶段:自主探索与执行 (Autonomous Exploration & Execution) —— 从静态地图到动态导航
有了结构化的“地图”和初始上下文,RepoMaster便开始了任务驱动的动态探索与执行循环。
上下文感知的代码探索 (Context-aware Code Exploration): RepoMaster配备了一套强大的探索工具集,允许智能体:
○ 精细化代码查看: 按需查看任意文件、类或函数的具体实现。
○ 依赖分析: 沿着函数调用图(FCG)和模块依赖图(MDG)追溯调用链和依赖路径。
○ 代码搜索: 通过关键词快速定位相关代码片段。
基于反馈的交互式执行 (Interactive Feedback-based Execution): 探索与执行并非线性序列,而是一个紧密交织的闭环。智能体可以灵活地在编写代码、查看文件、分析日志和追踪依赖之间切换,并根据执行结果(成功或失败)的反馈,实时调整下一步的行动策略,实现“边做边学、边学边做”。
第三阶段:高效信息筛选—— 为LLM上下文“减负”
为在有限的token窗口内进行高效的多轮交互,RepoMaster采用了一套多层次信息筛选策略,确保每一轮交互都聚焦于高价值信息:
代码减负: 对源代码,仅提取与任务相关的AST子树。
文档减负: 对大型文档,将其分块并根据任务相关性检索最关键的片段。
日志减负: 对执行日志,模仿人类调试习惯,只保留包含关键错误信息的首尾部分,过滤掉冗长的中间输出。

02
实验评估:效果与效率的双重飞跃
为了验证RepoMaster的实力,我们选用了两大极具挑战性的评测基准,二者均摒弃了传统的“从零生成代码”模式,转而考察智能体直接在现有代码库上解决复杂任务的能力。第一个是 MLE-R,它改编自 OpenAI 的 MLE-Bench,将评测范式从“从零写代码”转变为“复用GitHub项目解决机器学习任务”。第二个是我们全新构建的 GitTaskBench,它将这一理念扩展到更广泛的真实世界任务(如老照片修复、语音降噪等),并开创性地引入了交付质量(Task Pass Rate) 作为核心指标,旨在评测AI智能体端到端“交付成果”而非仅仅“跑通代码”的能力。


性能全面超越: 无论是在MLE-R还是GitTaskBench上,RepoMaster的表现都远超OpenHands和SWE-Agent等主流框架。以GitTaskBench为例,在Claude 3.5模型的驱动下,RepoMaster将最高任务成功率从40.74%提升至62.96%,实现了跨越式增长。
效率大幅领先: 更令人印象深刻的是,RepoMaster在取得优异性能的同时,展现了极高的效率。在GitTaskBench上,RepoMaster的token消耗量仅为SWE-Agent的约57%,极大地降低了使用成本。
消融实验验证核心组件有效性: 通过逐一移除核心组件,实验证明了层级化分析、代码探索和信息筛选三大模块对于性能的决定性作用。移除任何一个组件都会导致性能显著下降,验证了RepoMaster设计的科学性与完整性。

03
案例分析:直观对比
在一个复杂的3D姿态估计任务中,基线智能体或因无效的试错而失败,或因缺乏对仓库的整体理解而偏离核心算法。相比之下,RepoMaster凭借其结构化分析能力,迅速锁定了关键组件,高效地完成了任务,直观地展示了其在解决真实世界复杂问题上的优势。


04
结论与展望
RepoMaster的提出,不仅是性能指标上的突破,更重要的是,它为AI智能体如何有效利用庞大的人类代码遗产库指明了一条清晰可行的道路。它证明了将开源仓库被有效利用后能被视为可组合、可复用的“工具”,而非从零开始的“负担”,是解决复杂现实世界任务的强大范式。
未来,RepoMaster的设计理念有望推动一个更具可持续性和协作性的AI-for-code生态系统,为实现多项目的大规模协同、软件缺陷的自动化修复,乃至向硬件描述语言、机器人中间件等领域的迁移奠定基础。通过让AI智能体真正学会“站在巨人的肩膀上”,RepoMaster正在加速人机协作的良性循环,推动整个开源世界的持续创新与进步。

关于 QuantaAlpha ✨ 2025 年,我们将在 CodeAgent(真实世界任务的端到端自主执行)、DeepResearch、Agentic Reasoning/Agentic RL、自进化与协同学习 等方向持续产出高质量研究成果,欢迎对我们方向感兴趣的同学加入我们! 团队主页:https://quantaalpha.github.io/ |



未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。