上海交大 & 深势科技开源 X-Masters：首破人类终极考试 30% 大关，刷新科学 AI agent 性能天花板！ - 科技区角上海交大 & 深势科技开源 X-Masters：首破人类终极考试 30% 大关，刷新科学 AI agent 性能天花板！

点击下方卡片，关注“大模型之心Tech”公众号

今天大模型之心Tech为大家分享上交和深势团队最近新发布的Agent相关工作，这项工作围绕开发通用科学 AI Agent展开研究，介绍了作为 SciMaster 系列第一部分的 X-Master。如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→大模型技术交流群

>>点击进入→ Agent技术交流群

本文只做学术分享，如有侵权，联系删文

论文标题：SciMaster: Towards General-Purpose Scientific AI Agents. Part I. X-Master as Foundation — Can We Lead on Humanity’s Last Exam?

论文作者：Jingyi Chai等

作者单位：上海交通大学、深势科技

论文链接：https://arxiv.org/pdf/2507.05241

开源链接：X-Master: https://github.com/sjtu-sai-agents/X-Master

首个突破30%！上交大团队开源AI碾压谷歌DeepMind，攻克人类「终极考题」

★
SciMaster是一系列旨在开发通用科学AI Agent的研究。在Part I中，X-Master搭建了基础架构，为提升AI Agent的通用能力奠定了基础。

当AI开始攻克人类知识边界的"终极考题"，科学发现的加速度或许将被彻底改写。

上海交通大学人工智能学院与深度势能团队联合发布的X-Masters系统，在被称为"人类最后的考试（HLE）"的终极测评中，以32.1%的成绩创下世界纪录——这是首次有系统突破30%大关，将谷歌DeepMind（26.9%）和OpenAI（26.6%）的闭源模型远远甩在身后。更令人振奋的是，这个超越巨头的AI系统完全开源，意味着全球研究者都能站在这一肩膀上探索科学前沿。

图1：人类终极考试（HLE）表现对比。我们的X-Masters取得了32.1%的最先进成绩，超过了Kimi、Gemini和OpenAI的深度研究产品。

从"模拟人类"出发：X-Master的底层逻辑

图2：我们的X-Master（一种工具增强型推理代理）概述。当接收到用户查询后，该代理便开始思考过程，在此过程中，通过生成代码片段来调用与环境的交互（如工具调用）。执行结果会被附加到代理的上下文当中，从而丰富其理解并为后续思考提供依据。在这个案例中，代理进行了三次交互调用（先是搜索获取GitHub链接，接着解析获取arXiv论文链接，然后再次解析获取机构 affiliation），直至得出最终答案。

不同于多数大模型单纯依赖参数规模堆能力，X-Master的设计起点直指"人类解决问题的本质"。研究团队发现，人类在面对复杂任务时，总会在大脑内部思考与借助外部工具之间灵活切换——X-Master正是这种思维模式的AI复刻。

其核心创新在于将代码转化为"交互语言"，让AI既能调用内置Python库处理数据计算，又能接入定制工具拓展能力边界。这种设计让X-Master在推理过程中不再受限于模型本身的知识储备，而是像科研人员一样，需要计算时写段代码，需要查资料时调用工具，实现了"思考-工具-验证"的闭环。

本文首发于大模型之心Tech知识星球，硬核资料在星球置顶：加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

四人组工作制：X-Masters的分工哲学

图3：我们的X-Masters（一种分散-堆叠式智能体工作流）概述。该工作流利用X-Master担任不同角色，以在推理时提升解决方案质量。它包括（1）求解器生成5个初始解决方案，（2）评论者优化初始解决方案，（3）改写者综合所有5个解决方案以生成新的5个方案，以及（4）选择者挑选出最佳解决方案。

如果说X-Master是单个"科研高手"，那么X-Masters就是一套精密协作的"科研团队"。这个分散-堆叠的代理工作流，创造性地将AI拆分为四个专门角色，形成了层层递进的推理增强机制：

Solver（求解者） 率先出手，基于问题给出初始解决方案；Critic（批评家） 紧随其后，对方案进行严苛审视，指出逻辑漏洞与不足；Rewriter（改写者） 接过接力棒，根据批评意见优化完善方案；Selector（选择者） 则站在全局视角，从多个优化版本中挑选最优解。

这种分工并非简单的流程拆分，而是通过角色间的"思想碰撞"，系统性提升推理的广度与深度。就像一个顶尖科研团队的头脑风暴，每个角色专注于自己的专业领域，最终形成1+1远大于2的效果。

HLE封神之战：32.1%背后的全面碾压

图4：DeepSeek-R1-0528和X-Masters在人类终极考试（HLE）各分类下的表现。图5：人类终极考试（HLE）中生物学/医学类别的表现。

人类最后的考试（HLE）被公认为衡量AI科学推理能力的"终极试炼"，涵盖了从基础科学到应用研究的海量复杂问题。此前，即便是GPT-4、PaLM等顶尖模型，成绩也始终徘徊在30%以下，成为AI难以逾越的天堑。

X-Masters的32.1%绝非偶然，其在细分领域的表现更具说服力：在生物学相关基准测试中，它展现出对生命科学复杂机制的深刻理解；在其他分类测试中，也均以显著优势超越OpenAI、Google DeepMind等机构的模型。这种全面领先，印证了分散-堆叠工作流在提升推理质量上的有效性。

值得注意的是，这一突破并非依赖某个超大规模模型，而是通过优化代理协作机制实现——这为算力有限的研究团队提供了重要启示：合理的架构设计，或许比单纯堆参数更能释放AI潜力。

开源逆袭的实战指南：从benchmark到真实场景

图6：X-Masters与其他模型在生物学基准测试TRQA-lit（选择题）中的表现。未经任何修改，X-Masters在该基准测试中也达到了最先进的性能。图7：改写阶段前后正确答案的出现频率。改写显著提高了5个解决方案全部正确的可能性。

表1：X-Masters智能体工作流各阶段与DeepSeek-R1-0528相比的准确性逐步提升情况。工具增强和推理时计算推动了性能提升。

研究团队特别强调，X-Masters的成功并非偶然，其背后沉淀的"实用知识"正在为开源模型指明方向：如何通过工具增强突破推理瓶颈？如何用角色分工弥补单一模型缺陷？这些经验正在让越来越多的开源系统在挑战性基准上达到甚至超越最先进性能。

在具体表现上，X-Masters不仅在整体成绩上亮眼，在各分类测试中也展现出均衡实力。尤其是在生物学相关基准测试中，其对复杂生命现象的解析能力，让研究人员看到了AI助力基础科学研究的新可能。

未来已来：SciMaster的下一步野心

这场突破并非终点，而是一个全新起点。研究团队已明确SciMaster系列的未来路线图：一方面，将针对不同学科开发专门的科学代理和工具，让AI在物理、化学、生物等领域拥有更专业的能力；另一方面，端到端训练的代理系统正在酝酿中，这意味着未来的AI可能不再需要人工设计工作流，而是能自主进化出最优协作模式。

从X-Master到X-Masters，从工具增强到角色分工，这套系统正在用32.1%的成绩证明：AI解决科学问题的方式，正在从"单点突破"走向"系统协作"。当人类最后的考试迎来新王者，或许我们正在见证AI真正走进科学研究核心圈的开端。

更多有关Agent的讨论，可以加入我们⬇️！

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！