
Sakana AI 的最新研究揭示,多种前沿模型能够借助一种名为自适应分支蒙特卡洛树搜索 的算法进行协同思考。这种团队作战模式成功攻克了单一模型无法解决的难题,将高难度的 ARC-AGI-2 测试成功率提升至 30%。
相比之下,传统的大语言模型依赖固定的采样或优化策略,在处理许多 ARC-AGI-2 任务时常常以失败告终。
新的 AB-MCTS 算法则更为灵活,它允许搜索过程在两个维度间切换:既可以拓宽广度,发起全新的尝试;也可以加深深度,持续打磨有潜力的方案。更进一步,多模型 AB-MCTS 还能为每一步动态选择最合适的模型。最终,在相同的 250 次调用预算内,该方法的解题成功率从 23% 跃升至 30%。

上图直观地展示了自适应分支 MCTS 扩展其搜索树的过程。顶部的圆点代表初始方案,虚线代表所有可能的探索路径。
横向探索(拓宽广度):算法可以探索一个全新的方案来测试一个崭新的思路。 纵向挖掘(加深深度):算法也可以专注于一个有潜力的方案并对其进行持续优化。
通过在这两种动作之间进行动态切换,系统能够更高效地分配其计算资源(即调用预算),从而让模型团队比任何固定的单一策略都更有可能找到正确答案。
启发:单一策略的局限。 让一个模型思考再久,如果第一步就走错了方向,最终还是会陷入僵局。而那种只会不断从头再来的重启策略,则永远无法挽救那些功亏一篑的近似解。
AB-MCTS 的精髓在于,它模仿了人类在大胆试错与精细打磨之间灵活切换的解决问题方式。
机制:动态平衡探索与优化。 该算法的搜索树在每个节点都引入了一个特殊的生成(GEN) 分支。通过引入 汤普森采样 机制,算法能够实时权衡两者的收益:是创造一个全新方案,还是优化现有方案?
决策的结果是,当现有思路似乎走到尽头时,搜索树便横向生长,探索更多可能性;而当某个方案初见成效时,它便纵向深挖,力求突破。

从单打独斗到团队协作
更优的策略:深度与广度的平衡带来了显著效果。传统的重复采样策略在 250 次调用后成功率仅为 23%。而 AB-MCTS 在大约 50 次调用后,便不再是盲目地掷骰子进行新尝试,而是智能地复用表现最佳的部分代码,从而将成功率提升至 27.5%。
更强的团队:多模型模式引入了选贤任能的机制。团队中的每个成员各有所长:Gemini-2.5-Pro 擅长快速生成代码草稿,o4-mini 精于发现潜在模式,而 DeepSeek-R1 则是调试纠错的专家。
算法会智能追踪哪个模型在当前任务分支上表现更佳,然后将接力棒交给它。报告中的图表清晰地显示,一旦某个方向获得正向反馈,系统会果断地将更多计算资源倾向于最强的那个模型。
更高的上限:当模型之间协同作战时,最终的成功率突破了 30%。论文中的一个案例生动地展示了这种协作的价值:o4-mini 生成了一段有错误但极具启发性的代码,随后 DeepSeek-R1 和 Gemini-2.5-Pro 在后续步骤中接力修复并完善了它。
这证明了模型间是真正的优势互补,而非简单的投票表决。
赋能开发者:为了让更多人能利用这一思想,研究团队推出了名为 TreeQuest 的开源框架。它将复杂的协同搜索算法封装在简洁的 API 背后,并支持断点续搜。
这意味着,任何开发者都能轻松地将各种前沿模型 API 接入,构建属于自己的集体智慧大脑。
协作式 AI 的兴起
总体而言,这项研究印证了人工智能领域一个愈发清晰的范式转变:从追求更大的单一模型,转向构建更强的模型团队。
这种协作式方法,通过一个智能协调器为每个子任务匹配最合适的专家模型,从而有效弥补了任何单一模型都可能存在的短板。让各有所长的模型协同工作,其能力是相加甚至相乘的,而非简单的重叠。
这或许预示着,AI 领域的下一次重大飞跃,将不再仅仅来自于模型规模的暴力堆砌,而是源于这种更高效、更智慧的协作式人工智能。
参考资料:https://sakana.ai/ab-mcts/
想和更多聪明大脑一同探讨AI前沿?添加主理人微信:znqbs1,备注“情报”,我会邀请你进入“智能情报所”核心社群,共同进步,期待我们都有所获得。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!