战报：马斯克Grok4笑傲AI象棋大赛，DeepSeek没干过o4-mini，Kimi K2被喊冤

量子位 2025-08-06 16:14

不圆奕然发自凹非寺
量子位 | 公众号 QbitAI

最新战报最新战报：首届AI国际象棋对战……马斯克家的Grok 4“遥遥领先”了。

是的，谷歌给大模型整了个国际象棋比赛：Kaggle AI象棋竞赛。

在首日对决之后，参赛选手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一轮较量，结果——

Grok 4表现最佳，DeepSeek R1表现强劲，但不敌o4-mini，Kimi K2最惨——都让网友喊冤了。

资讯配图

眼见自家Grok 4表现出色，马斯克当然不会错过PR良机，不过回应略显凡尔赛：

我们没有刻意去训练，这只是一个副作用。

资讯配图

u1s1谁又能为这么个“无厘头”比赛专门刻意训练呢？

当然，让AI对战国际象棋，过程比输赢重要多了，毕竟谷歌发起这次比赛的初衷，就是测试“涌现”能力。

首届Kaggle AI国际象棋竞赛

本次比赛由谷歌发布，作为推广Kaggle游戏竞技场的一个环节。首次比赛以国际象棋开始。

参赛“选手”包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。

8月5日至8月7日每天10：30（太平洋时间）准时直播赛况。

资讯配图

除了各个顶级模型的象棋对决，直播还邀请了国际象棋特技大师中村光（Hikaru Nakamura）作为讲解。

他于7岁那年开始学习国际象棋，到15岁时成为全美国际象棋冠军并拿到GM头衔，也是本届EWC国际象棋（迄今为止规模最大的国际象棋锦标赛）的季军。

资讯配图

在一天的角逐后，目前挺入半决赛圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。

吃瓜群众坐等看ChatGPT的o4-mini和o3的“内斗”，以及Gemini 2.5 Pro对战Grok 4。

资讯配图

并且，所有在八分之一决赛中的比赛都以完美的4-0结束。实力差距非常明显。

网友们分析了这次赛况，表示Grok 4在这次基准测试中“在战术策略和速度上超越了所有其他模型”。

资讯配图

可是等等，现在不是才八进四么？这么快就下结论了？

让我们一起看看各模型的具体表现，是什么让网友作出了如此高的评价：

Grok 4 vs Gemini 2.5 Flash

Grok4如同猛兽，它轻松的表现就像“真正的GM”一样下棋，成为当天最佳。

另一方面，Gemini Flash从一开始就处于劣势，包括开局时吃王。

资讯配图

OpenAI o4-mini vs DeepSeek R1

在OpenAI o4-mini对阵DeepSeek R1的赛程中，R1开局强劲，但最终输给了o4-mini。

比赛中双方都犯了不少错误，但o4-mini率先抓住了R1犯下的失误。

R1提供的推理虽然自信却错误，而且对棋盘局势的缺乏洞察导致它留下了棋子给o4-mini率先拿走。

资讯配图

Gemini 2.5 Pro vs Claude Opus 4

这场Gemini 2.5 Pro和Claude Opus 4的对阵是当天最佳对局，两个模型都展示了高水平的棋艺。

Claude出现一些失误，而Gemini Pro展现了强大的战术视野，但给出的分析有时过于冗长。

资讯配图

Kimi K2 对阵o3

这是最快的四分之一决赛，Kimi K2被“碾压”，主要是因为它反复坚持走非法棋步，o3以弃权获胜，没有太多值得分析的表现。

不过也有人替Kimi鸣不平：因为Kimi不是推理模型，长思考才能有更好的性能，步骤越往后，越需要长思考。

资讯配图

为什么是国际象棋？

所以为什么要选国际象棋来让AI对战？

这么说吧，国际象棋规则明确但复杂度高（10^120种可能局面），是测试AI决策能力的理想场景。

虽然有网友会产生误读，认为它是“越大越优”，但实际上，这个数字已经远超穷举法的适用范畴。

资讯配图

前些时间，陶哲轩在Lex访谈中提到：有些数学问题无法直接通过暴力计算来解决。例如国际象棋排列的数量，我们至今无法用计算机完全解决，但我们现在有AI，它们不会探索博弈树中的每个位置，而是寻求近似值。

资讯配图

换句话讲，让AI去下国际象棋，考验的其实是AI的涌现能力。

有位网友也关注到了这点，并对这次Grok 4的表现做出了总结：

资讯配图

这位网友表示，在传统AI中，模型实力源于领域特定训练模（为任务量身定制）；而在前沿AI中，模型实力源于一致性泛化（进化出能够映射到一切事物的内部世界结构）。国际象棋只是其中一种投射。

网友们普遍认为，国际象棋是一种很可靠的评估AI能力的方式。

资讯配图

也有网友对AI的下一个竞技游戏进行了预测：或许会是UNO？（当然是开玩笑）

资讯配图

资讯配图

哪个AI最被看好？

在Kaggle AI象棋竞赛正式开始之前，有网友在Manifold上发起了一个投票：谁会是这场AI象棋竞赛的最终胜者？

起初，Gemini 2.5 Pro是最受欢迎的，o4紧随其后。

资讯配图

但在八进四比赛后，该投票发生了明显变化，Grok 4呈现压倒性优势。

资讯配图

不过越是这样就越让人期待，会不会出现什么抓马的意外呢？

参考链接：
[1]https://x.com/elonmusk/status/1952814912839008347
[2]https://www.youtube.com/watch?v=-nByurcQHDI
[3]https://x.com/_The_Prophet__/status/1952855259841478657
[4]https://x.com/richardcsuwandi/status/1952828128998699335

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

💻 8月7日周四，下午14点，量子位AI沙龙邀请了来自模型厂商、IDE、零代码平台、Agent等产品代表，一同聊聊AI Coding将如何重构开发？

👩‍💻 欢迎线下参会！来和百度文心快码、智谱、Kimi、硅心科技、海新智能、CREAO、IDEA面对面交流 👇

资讯配图

一键关注 👇 点亮星标

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AI

more

AI狙击战升温！云计算一哥亮出“模型自由”王牌

智东西 4小时前

AI狙击战升温！云计算一哥亮出“模型自由”王牌

能认主、可养成独特性格，卡西欧AI宠物机器人Moflin日本销量超预期

中国机器人网 15小时前

能认主、可养成独特性格，卡西欧AI宠物机器人Moflin日本销量超预期

又是浙大校友！AI眼镜“隔空取物”，戴上即可随心选中现实世界任意物体

量子位 6小时前

又是浙大校友！AI眼镜“隔空取物”，戴上即可随心选中现实世界任意物体

全球最大AI模型聚合平台诞生！不争冠军只做擂台

量子位 7小时前

全球最大AI模型聚合平台诞生！不争冠军只做擂台

结果揭晓！「制造企业AI应用有奖征文」这些文章脱颖而出

数字化企业 7小时前

结果揭晓！「制造企业AI应用有奖征文」这些文章脱颖而出

【明日直播预告】GPT-5将上线，OpenAI 这份“作业”合格吗？| 青源Workshop第33期

清华大学人工智能国际治理研究院 3小时前

【明日直播预告】GPT-5将上线，OpenAI 这份“作业”合格吗？| 青源Workshop第33期

GPT-5发布时间定了，图标版本曝光/大疆发布首款扫地机器人/马斯克Grok4或称霸AI象棋大赛

APPSO 15小时前

GPT-5发布时间定了，图标版本曝光/大疆发布首款扫地机器人/马斯克Grok4或称霸AI象棋大赛

GPT-5将上线，OpenAI 这份“作业”合格吗？| 青源Workshop第33期

智源社区 9小时前

GPT-5将上线，OpenAI 这份“作业”合格吗？| 青源Workshop第33期

当马斯克“AI版Vine”撞上Veo 3，谁更胜一筹？

AI研究所 6小时前

当马斯克“AI版Vine”撞上Veo 3，谁更胜一筹？

用平扫CT筛查早期癌症，阿里医疗AI正让国人夺回“主动权”

科工力量 6小时前

用平扫CT筛查早期癌症，阿里医疗AI正让国人夺回“主动权”

Copyright © 2025 成都科技区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号