







为什么游戏会是一个有意义的评估基准?
谷歌在博客中提到,游戏提供了清晰明确的成功信号,其结构化特性和可衡量的成果使其成为评估模型和智能体的理想试验台。
游戏会迫使模型展现诸多技能,包括战略推理、长期规划和与智能对手的动态适应能力,从而有力地展现其普遍的解决问题能力,为了获胜,AI模型需具备可迁移的技能,例如世界知识、深度推理以及根据对手的动作实时调整策略。
此外,游戏还能够帮助检查和可视化模型的“推理”能力,研究人员得以一窥其战略思维过程,做更深入的技术研究,助推相关技术创新和进步。

业内最典型的案例就是AlphaGo到AlphaZero的技术跨越。AlphaGo首次让世界意识到AI在高复杂度智力竞技中可超越人类,推动了深度学习在决策领域的应用;AlphaZero自我学习21天便战胜了顶尖棋手柯洁,证明了AI可以不依赖人类经验,通过“自主探索”掌握复杂技能,为通用人工智能(AGI)研究提供了关键思路。
虽然当今的大型语言模型并非为任何特定游戏而构建,它们的表现可能还不如人类棋手,但让这些模型缩小这一差距依然很有现实意义,毕竟人们对于未来AGI的全面能力期待非常高。

谷歌方面表示,Game Arena构建于Kaggle之上,旨在为模型评估提供公平、标准化的环境,为了确保透明度,游戏框架将每个AI模型连接到游戏环境并执行规则的框架以及游戏环境也已开源。
谷歌的新目标是建立一个不断扩展的基准,随着模型之间更激烈的竞争,其难度也会随之增加,伴随着时间的推移,这可能会催生出新的AI策略。
就像AlphaGo著名的、极具创意的“第37步”那样,它曾让解说席上的职业棋手纷纷表示困惑,更是让九段棋手李世石陷入了长达15分钟的沉思,这步棋打破了人类3000年来的传统棋局认知,展现了对棋盘中腹战略价值的重新评估,也彻底改变了如今职业棋手的思维方式。
不过人类的智慧潜力仍是难以用数字化计算的,李世石当年与AlphaGo的人机大战中第四局第78手曾被业内称为人类智慧在绝境中反击AI的“神之一手”,成功扳回一局获胜,蕴含人类对“势”与“全局平衡”的深刻理解。
在棋盘游戏竞技中,在压力下进行规划、适应和推理的能力,类似于解决科学和商业领域复杂挑战所需的思维能力,有望推动AI在复杂决策领域的革命发生。
AI与AI的棋局对战会碰撞出怎样的新火花,可以拭目以待。
-END-

如果您有什么想说的,欢迎在评论区留言讨论! 投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。 【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长—— 扫描下方二维码,添加头部科技晶总微信! 

