横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%

机器之心 2026-06-24 18:00
横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图1


被一道数学竞赛题卡住很久时,高手往往能准确地判断:现在缺的是一个技术细节,还是整个思路从一开始就走错了?在回顾自己的探索和进展时,他们不断地评估哪些步骤已经通过验证,哪些命题存在缺陷,甚至凭直觉就能意识到哪些假设不可行;然后决定继续深挖,还是彻底转向一条全新的路径。知道自己卡在哪里、又该在何时推倒重来,是人类解决困难问题时极其关键的元认知能力。


而这恰恰是当前最强大语言模型仍难以稳定具备的能力。它们会沿着一条看似合理的路线不断补充细节、修饰论证,写出局部自洽、甚至颇具说服力的推导;但模型往往缺乏可靠的机制去识别「这不是一个需要继续打磨的解法,而是一条死路」。模型很难通过自我纠正跳出根本性错误的推理方向,而且缺乏像人类一样「从错误中学习」的主动意识。


为了解决这一瓶颈,清华大学与微软亚洲研究院的研究团队提出了一个推理多智能体系统 STAR-PólyaMath,在 LLM 外部构建了一套完整的探索-推理-验证框架(harness),通过协调 Reasoner、Verifier 和 Meta-Strategist 三个智能体角色,循环驱动长程证明,使推理过程变得可验证、可回溯,实现跨尝试积累经验。


STAR-PólyaMath 在八大顶级数学竞赛基准上全部取得最优成绩,其中 AIME 2025/2026、Putnam 2025、HMMT 2026 获得满分,在最难的 MathArena Apex 2025 上领先同基座的 GPT-5.5 模型达 13.5%。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图2



本文第一作者吴嘉骜,是清华大学人工智能学院 T-STAR Lab 的一年级博士生,研究方向是大模型推理及智能体系统。本文通讯作者是微软亚洲研究院首席研究员(Principal Researcher)张宪和清华大学人工智能学院董胤蓬助理教授。其他合作者来自纽约大学、MIT 等。清华大学 T-STAR Lab 聚焦 AI 基础理论、AI 安全、智能体、空间智能等方向研究,致力于理解人工智能模型的机理,发展安全、可靠、可信的人工智能理论与方法。


一、案例:GPT-5.5 反复错误,

STAR-PólyaMath 成功突破


MathArena Apex 是从 2025 年近百场公开数学竞赛中筛选出的前沿模型稳定无法解出的 12 道问题,彼时最强模型的平均正确率不到 5%。MathArena 团队在定性分析中指出了一个普遍现象:模型倾向于很快锁定一个(往往错误的)答案并努力证明其正确,而不是继续寻找更好的方案。


Apex 2025 Problem 2(「The Zigzagging Chessboard」,源自 Turkey TST 2025 P5)是其中的一个典型案例。问题要求确定一个和多边形边界方格计数相关的最优常数 k,正确答案是 k = 1/2。开启最高思考强度的 GPT-5.5 对这道题进行了 8 次独立尝试,只对了 1 次。仔细看每次的推理过程,它快速收敛到某个次优构造上,得出错误答案,并努力提供逻辑自洽的论证来支撑这个错误结论。


这正是我们前面提到的大模型在长程数学推理中面临的核心困境。尽管模型有足够的数学知识来解决问题,但当一个合理或普遍的错误方向形成后,它缺乏「跳出当前思路回顾」的元认知,在同一个错误上空转。


在 Apex Problem 2 上,STAR-PólyaMath 的 Reasoner 第一次尝试同样失败,尽管它认为做出了答案 3/4,但 Verifier 始终质疑其证明过程,且在经历三次超时失败后,Meta-Strategist 从跨尝试的失败记录中做出了一个关键判断:「这个方向是根本错误的」,明确禁止后续推理重新锚定在 3/4 上,并授权重新规划(re-plan)。新方案找到了一个更密集的构造,将结果推至 1/2,并通过数学推导和实际构造简单连通多边形的代码验证,完成了严格证明。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图3

STAR-PólyaMath 在 Apex 2025 Problem 2 上的案例对比


二、长程推理的三重困难


前沿大语言模型在推理上已经非常强大,在数学竞赛上能取得接近满分的成绩。但面对最困难的竞赛题时难以一上来就有正确的思路,需要不断探索、提出假设、取得进展或推翻猜想,甚至推倒重来。在这种长程推理中,三类系统性的失败模式反复出现。





三、STAR-PólyaMath:

结构化推理与持久元监督


STAR-PólyaMath 的设计灵感来源于波利亚(George Pólya)在《How to Solve It》中提出的解题步骤,即理解问题、制定计划、执行计划、回顾反思。这被结构化为框架的四个阶段:探索(exploration)、规划与分解(planning & decomposition)、逐步执行与挑战循环(step-wise execution & challenge loop)、解答生成(solution generation)。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图4

STAR-PólyaMath 系统工作流


架构设计


整个框架由一个无推理能力的 Python 编排器(Orchestrator)协调三个智能体。





使推理过程可验证


STAR-PólyaMath 通过分层验证标签(verification tags)让长程推理的每一步都具有可检验性。每个中间断言都必须标注为 [verified](已执行代码验证)、[easy-verify](可通过简单计算检查)或 [hard-verify](需要严格的数学审查)。这套标签决定了 Verifier 的审查力度,代码验证的结果被直接视为可信,纯数学论证则接受最严格的逻辑审查。


从实际运行统计来看,这种分层策略体现了清晰的适应性。在 AIME 和 HMMT 这类以计算为主的竞赛中,约 36-43% 的断言通过代码验证;而在 IMO、Putnam 等以证明为主的竞赛中,85% 以上的断言属于 [hard-verify],由 Verifier 承担主要验证工作。框架并非一刀切地偏向工具或推理,而是根据问题性质动态调整验证策略。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图5


挑战循环与错误恢复


Reasoner 与 Verifier 之间的交互是一种保留完整会话上下文的结构化辩论(structured debate)。当 Verifier 对某一步提出质疑时,Reasoner 可以为自己辩护、补充论证或修正错误,Verifier 则基于新的信息重新评估。这种双向辩论机制防止了过于保守的 Verifier 错误否决正确的论证。


当步骤内辩论无法收敛时,框架具备两层错误恢复机制。回溯(Trace-back)将推理回退到出错的源头步骤,归档错误的分支,同时保留已验证的中间结果供新尝试使用。重新规划(Re-plan)则是更彻底的回退,当 Meta-Strategist 判断整个计划方向有误时,它授权归档当前计划并重新开始,同时将先前失败的方向标定禁止,注入后续所有 Reasoner 的上下文中。


这些机制共同保证了推理过程的可靠性。错误被尽早发现,不会持续传播;失败被结构化记录,不再重复发生;长程推理的每一步都有独立的可验证性。


四、实验结果


STAR-PólyaMath 使用 GPT-5.5(xhigh effort)作为三个智能体的基座模型,在 8 个顶级数学竞赛基准上全部取得最优成绩(评测协议和 MathArena 对齐,详见论文):


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图6


STAR-PólyaMath 在 Apex 2025 上的提升最为显著,达到 93.75%,而直接调用同基座的 GPT-5.5 模型仅为 80.21%,差距达 13.5%。这组问题恰恰是需要多步证明和策略切换的最难问题,也正是 Meta-Strategist 发挥最大价值的场景。


从运行统计来看,计算开销与问题难度高度相关。AIME 级别的问题平均 8 分钟即可完成,100% 在探索阶段就直接解决,几乎不触发 Meta-Strategist。而 Apex 2025 和 IMO 2025 级别的问题平均耗时 55 分钟以上,Meta-Strategist 平均每题介入 1.6-2.2 次。框架不会对简单问题施加不必要的开销,但在真正困难的问题上投入充足的计算资源进行探索推理。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图7


基座模型替换实验清楚地表明性能提升来自结构化推理 harness 框架,而非模型本身。将基座模型从 GPT-5.5 替换为 GPT-5.2 或 Claude Opus 4.7 后,框架仍然在所有基准上超越对应模型的直接调用结果。混合配置(如 Reasoner 用一个模型、Meta-Strategist 用另一个)也未能超越统一配置,说明性能增益主要来自智能体间的协议和循环结构。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图8


逐一去除 harness 组件的消融实验进一步揭示了各机制的贡献。去掉回溯和重新规划的机制后,IMO 2025 和 Apex 2025 的得分在所有消融设置中损失最大,说明跨步骤错误恢复对长程推理的关键性。去掉 Meta-Strategist 的持久记忆(每次介入都是新会话、不保留历史),IMO 2025 比完全去掉 Meta-Strategist 还低,说明无记忆的干预反而引入了无效噪声。不允许 Reasoner 对 Verifier 的质疑进行辩护后,Putnam 2025 从 91.67% 跌至 75%,表明双向辩论对证明类任务尤为重要。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图9


五、超越数学:一种可泛化的推理范式


在前沿模型已经具备足够的知识和推理能力的前提下,越来越多人意识到制约其在长程任务上表现的瓶颈在于 harness 设计和结构化思考。STAR-PólyaMath 的设计并不依赖数学领域的特殊性质。其核心机制(将长程任务分解为可验证的子步骤、结构化检验每一步的正确性、跨尝试记忆、高层次监督和经验性指导)本质上适用于任何需要长程、可回溯、可验证推理的场景。


例如,在代码生成中,一个类似的框架可以将「生成-测试-调试」循环结构化为带有回溯的状态机,其中 Meta-Strategist 可以在反复修补失败后判断「当前架构方向本身有问题,需要重写」。在科学发现中,Reasoner 对应假设的提出和实验设计,Verifier 对应实验结果的审查,Meta-Strategist 则在多轮假设失败后综合判断「应该修正实验方法还是底层假设」。


该项目已开源完整的代码框架、所有角色的 prompt 和 skill 定义、运行配置,便于社区将这套推理协议迁移到其他领域。


横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%图10


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
Karpathy被踢?美或将外籍天才逼出ASI核心圈
阿里妈妈&清华提出生成式出价新算法AIGB-Pearl | ICLR 2026 Oral
王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现
全球 XR(AR及VR 头显)市场份额(2024 年 Q3 - 2026 年 Q1)
打破SWE-bench唯分数论,首个独立测量harness的基准开源了
阿里技术大牛组团分享!AI智能体大会进展公布,Harness研讨会议程出炉
Harness × Robotics 项目专栏|机器人 Agent 不是只要会动,还要有一层"运行时护栏"
坐标系里的万亿生意 | 从WorldArena全球第一到BEV重构具身基建:跨维智能正在铸造这个赛道最硬的护城河
产业 | 国内脑机接口新秀·芯生视界/思昇科技完成种子轮融资!WISE完成D轮融资/Paradromics首例植入手术/品驰DBS覆盖至西藏
不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号