点击下方卡片,关注“大模型之心Tech”公众号
今天大模型之心Tech为大家分享上交和深势团队最近新发布的Agent相关工作,这项工作围绕开发通用科学 AI Agent展开研究,介绍了作为 SciMaster 系列第一部分的 X-Master。如果您有相关工作需要分享,请在文末联系我们!
>>点击进入→大模型技术交流群
>>点击进入→ Agent技术交流群
论文标题:SciMaster: Towards General-Purpose Scientific AI Agents. Part I. X-Master as Foundation — Can We Lead on Humanity’s Last Exam?
论文作者:Jingyi Chai等
作者单位:上海交通大学、深势科技
论文链接:https://arxiv.org/pdf/2507.05241
开源链接:X-Master: https://github.com/sjtu-sai-agents/X-Master
首个突破30%!上交大团队开源AI碾压谷歌DeepMind,攻克人类「终极考题」
★SciMaster是一系列旨在开发通用科学AI Agent的研究。在Part I中,X-Master搭建了基础架构,为提升AI Agent的通用能力奠定了基础。
当AI开始攻克人类知识边界的"终极考题",科学发现的加速度或许将被彻底改写。
上海交通大学人工智能学院与深度势能团队联合发布的X-Masters系统,在被称为"人类最后的考试(HLE)"的终极测评中,以32.1%的成绩创下世界纪录——这是首次有系统突破30%大关,将谷歌DeepMind(26.9%)和OpenAI(26.6%)的闭源模型远远甩在身后。更令人振奋的是,这个超越巨头的AI系统完全开源,意味着全球研究者都能站在这一肩膀上探索科学前沿。

从"模拟人类"出发:X-Master的底层逻辑

不同于多数大模型单纯依赖参数规模堆能力,X-Master的设计起点直指"人类解决问题的本质"。研究团队发现,人类在面对复杂任务时,总会在大脑内部思考与借助外部工具之间灵活切换——X-Master正是这种思维模式的AI复刻。
其核心创新在于将代码转化为"交互语言",让AI既能调用内置Python库处理数据计算,又能接入定制工具拓展能力边界。这种设计让X-Master在推理过程中不再受限于模型本身的知识储备,而是像科研人员一样,需要计算时写段代码,需要查资料时调用工具,实现了"思考-工具-验证"的闭环。
四人组工作制:X-Masters的分工哲学

如果说X-Master是单个"科研高手",那么X-Masters就是一套精密协作的"科研团队"。这个分散-堆叠的代理工作流,创造性地将AI拆分为四个专门角色,形成了层层递进的推理增强机制:
Solver(求解者) 率先出手,基于问题给出初始解决方案;Critic(批评家) 紧随其后,对方案进行严苛审视,指出逻辑漏洞与不足;Rewriter(改写者) 接过接力棒,根据批评意见优化完善方案;Selector(选择者) 则站在全局视角,从多个优化版本中挑选最优解。
这种分工并非简单的流程拆分,而是通过角色间的"思想碰撞",系统性提升推理的广度与深度。就像一个顶尖科研团队的头脑风暴,每个角色专注于自己的专业领域,最终形成1+1远大于2的效果。
HLE封神之战:32.1%背后的全面碾压

人类最后的考试(HLE)被公认为衡量AI科学推理能力的"终极试炼",涵盖了从基础科学到应用研究的海量复杂问题。此前,即便是GPT-4、PaLM等顶尖模型,成绩也始终徘徊在30%以下,成为AI难以逾越的天堑。
X-Masters的32.1%绝非偶然,其在细分领域的表现更具说服力:在生物学相关基准测试中,它展现出对生命科学复杂机制的深刻理解;在其他分类测试中,也均以显著优势超越OpenAI、Google DeepMind等机构的模型。这种全面领先,印证了分散-堆叠工作流在提升推理质量上的有效性。
值得注意的是,这一突破并非依赖某个超大规模模型,而是通过优化代理协作机制实现——这为算力有限的研究团队提供了重要启示:合理的架构设计,或许比单纯堆参数更能释放AI潜力。
开源逆袭的实战指南:从benchmark到真实场景



研究团队特别强调,X-Masters的成功并非偶然,其背后沉淀的"实用知识"正在为开源模型指明方向:如何通过工具增强突破推理瓶颈?如何用角色分工弥补单一模型缺陷?这些经验正在让越来越多的开源系统在挑战性基准上达到甚至超越最先进性能。
在具体表现上,X-Masters不仅在整体成绩上亮眼,在各分类测试中也展现出均衡实力。尤其是在生物学相关基准测试中,其对复杂生命现象的解析能力,让研究人员看到了AI助力基础科学研究的新可能。
未来已来:SciMaster的下一步野心
这场突破并非终点,而是一个全新起点。研究团队已明确SciMaster系列的未来路线图:一方面,将针对不同学科开发专门的科学代理和工具,让AI在物理、化学、生物等领域拥有更专业的能力;另一方面,端到端训练的代理系统正在酝酿中,这意味着未来的AI可能不再需要人工设计工作流,而是能自主进化出最优协作模式。
从X-Master到X-Masters,从工具增强到角色分工,这套系统正在用32.1%的成绩证明:AI解决科学问题的方式,正在从"单点突破"走向"系统协作"。当人类最后的考试迎来新王者,或许我们正在见证AI真正走进科学研究核心圈的开端。
更多有关Agent的讨论,可以加入我们⬇️!

大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!