ARC-AGI-2 的成功率30%，Sakana AI提出自适应搜索，Gemini、DeepSeek、o4‑mini联手解题 - 科技区角 ARC-AGI-2 的成功率30%，Sakana AI提出自适应搜索，Gemini、DeepSeek、o4‑mini联手解题

Sakana AI 的最新研究揭示，多种前沿模型能够借助一种名为自适应分支蒙特卡洛树搜索的算法进行协同思考。这种团队作战模式成功攻克了单一模型无法解决的难题，将高难度的 ARC-AGI-2 测试成功率提升至 30%。

相比之下，传统的大语言模型依赖固定的采样或优化策略，在处理许多 ARC-AGI-2 任务时常常以失败告终。

新的 AB-MCTS 算法则更为灵活，它允许搜索过程在两个维度间切换：既可以拓宽广度，发起全新的尝试；也可以加深深度，持续打磨有潜力的方案。更进一步，多模型 AB-MCTS 还能为每一步动态选择最合适的模型。最终，在相同的 250 次调用预算内，该方法的解题成功率从 23% 跃升至 30%。

上图直观地展示了自适应分支 MCTS 扩展其搜索树的过程。顶部的圆点代表初始方案，虚线代表所有可能的探索路径。

横向探索（拓宽广度）：算法可以探索一个全新的方案来测试一个崭新的思路。
纵向挖掘（加深深度）：算法也可以专注于一个有潜力的方案并对其进行持续优化。

通过在这两种动作之间进行动态切换，系统能够更高效地分配其计算资源（即调用预算），从而让模型团队比任何固定的单一策略都更有可能找到正确答案。

启发：单一策略的局限。 让一个模型思考再久，如果第一步就走错了方向，最终还是会陷入僵局。而那种只会不断从头再来的重启策略，则永远无法挽救那些功亏一篑的近似解。

AB-MCTS 的精髓在于，它模仿了人类在大胆试错与精细打磨之间灵活切换的解决问题方式。

机制：动态平衡探索与优化。 该算法的搜索树在每个节点都引入了一个特殊的生成(GEN) 分支。通过引入汤普森采样机制，算法能够实时权衡两者的收益：是创造一个全新方案，还是优化现有方案？

决策的结果是，当现有思路似乎走到尽头时，搜索树便横向生长，探索更多可能性；而当某个方案初见成效时，它便纵向深挖，力求突破。

从单打独斗到团队协作

更优的策略：深度与广度的平衡带来了显著效果。传统的重复采样策略在 250 次调用后成功率仅为 23%。而 AB-MCTS 在大约 50 次调用后，便不再是盲目地掷骰子进行新尝试，而是智能地复用表现最佳的部分代码，从而将成功率提升至 27.5%。

更强的团队：多模型模式引入了选贤任能的机制。团队中的每个成员各有所长：Gemini-2.5-Pro 擅长快速生成代码草稿，o4-mini 精于发现潜在模式，而 DeepSeek-R1 则是调试纠错的专家。

算法会智能追踪哪个模型在当前任务分支上表现更佳，然后将接力棒交给它。报告中的图表清晰地显示，一旦某个方向获得正向反馈，系统会果断地将更多计算资源倾向于最强的那个模型。

更高的上限：当模型之间协同作战时，最终的成功率突破了 30%。论文中的一个案例生动地展示了这种协作的价值：o4-mini 生成了一段有错误但极具启发性的代码，随后 DeepSeek-R1 和 Gemini-2.5-Pro 在后续步骤中接力修复并完善了它。

这证明了模型间是真正的优势互补，而非简单的投票表决。

赋能开发者：为了让更多人能利用这一思想，研究团队推出了名为 TreeQuest 的开源框架。它将复杂的协同搜索算法封装在简洁的 API 背后，并支持断点续搜。

这意味着，任何开发者都能轻松地将各种前沿模型 API 接入，构建属于自己的集体智慧大脑。

协作式 AI 的兴起

总体而言，这项研究印证了人工智能领域一个愈发清晰的范式转变：从追求更大的单一模型，转向构建更强的模型团队。

这种协作式方法，通过一个智能协调器为每个子任务匹配最合适的专家模型，从而有效弥补了任何单一模型都可能存在的短板。让各有所长的模型协同工作，其能力是相加甚至相乘的，而非简单的重叠。

这或许预示着，AI 领域的下一次重大飞跃，将不再仅仅来自于模型规模的暴力堆砌，而是源于这种更高效、更智慧的协作式人工智能。

参考资料：https://sakana.ai/ab-mcts/

想和更多聪明大脑一同探讨AI前沿？添加主理人微信：znqbs1，备注“情报”，我会邀请你进入“智能情报所”核心社群，共同进步，期待我们都有所获得。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

Sakana AI 的最新研究揭示，多种前沿模型能够借助一种名为自适应分支蒙特卡洛树搜索 的算法进行协同思考。这种团队作战模式成功攻克了单一模型无法解决的难题，将高难度的 ARC-AGI-2 测试成功率提升至 30%。

从单打独斗到团队协作

协作式 AI 的兴起

Sakana AI 的最新研究揭示，多种前沿模型能够借助一种名为自适应分支蒙特卡洛树搜索的算法进行协同思考。这种团队作战模式成功攻克了单一模型无法解决的难题，将高难度的 ARC-AGI-2 测试成功率提升至 30%。