
新智元报谈开云(中国)Kaiyun官方网站
裁剪:英智
【新智元导读】决赛前,它是千里默、精确、不行一生的冠军候选;决赛后,它成了连合送子、造作连连的配景板。Grok 4履历了从神坛到谷底的戏剧性一天,它的轰然倒塌,也建树了o3的不败王者传闻。
在Kaggle AI海外象棋锦标赛中,OpenAI o3以拉枯折朽之势横扫大热点Grok 4,勇夺首届AI海外象棋饰演赛冠军!
这不仅是一场代码与算法的较量,更被视为科技巨头OpenAI与xAI之间的一场「代理人干戈」。

稍早的季军战中,Gemini 2.5 Pro打败o4-mini,将铜牌收入囊中。
人人顶尖的生成式AI模子,通过海外象棋,伸开了一场关乎政策与推理中枢能力的巅峰对决。

本次大赛由谷歌旗下平台Kaggle主理,谈论是开脱传统基准测试的敛迹,在真是、复杂的游戏环境中,考验大模子的批判性想维、政策谈论和临场应变能力。
参赛的AI棋手声势号称豪华:
OpenAI:o3, o4 mini
xAI:Grok 4
Google:Gemini 2.5 Pro, Flash
Anthropic:Claude 4
DeepSeek:R1
Moonshot:Kimi K2

比赛章程极具挑战性,旨在模拟更接近人类的想考口头:
退却使用专科象棋引擎:所有这个词方案必须源于模子自己的通用推理能力。
正人动口不脱手:模子必须以完整的天然话语句子来下达提醒,而非径直操作棋盘。
时刻截止:每步棋有60分钟的想考时刻。
防错机制:连合三次给出无法奉行的缺陷提醒,径直判负。
四分之一决赛呈现出强弱分明的态势。
OpenAI的o3、xAI的Grok 4、谷歌的Gemini Pro等顶尖模子均以4-0的悬殊比分横扫敌手,闲适晋级。
半决赛中,Grok 4与谷歌Gemini Pro的对决成为了所有这个词这个词赛事独一的悬念。两边你来我往,特地胶著。
最终,Grok 4在决胜局中凭借更胜一筹的推理能力,以3-2畏怯胜出。
o3则以填塞上风,再次4-0闲适打败了同门师弟o4 mini。
万众瞩谈论决赛:o3 4-0 Grok 4
直到半决赛完满,Grok 4看上去齐势不行挡,冠军似乎已是其囊中之物。
Grok少量在代码中输出棋战想路,这种千里默被视为一种信号:一个精确、致命、无需向任何人解释的冷情杀手。
这场决赛因奥特曼和马斯克两位创举人的恩仇情仇而备受安详。

相关词,决赛日风浪突变,Grok的铁汉光环轰然落空。
OpenAI的o3从开局就展现出系统、安靖的策略,棋路了了,严慎戒备。

最终,o3以4-0的压倒性比分干净利落地打败Grok 4,从开赛到夺冠未失一局,建树了信得过的不败王者。

Grok的造作来得又早又往往,而o3则绝不手软,招招致命。
第一局:刚一开局,Grok 就毫无征兆地送了一个要津的象。在子力处于裂缝的情况下,Grok还主动找敌手兑子——这完全扞拒了过期不兑子的象棋学问。几个回合的初级造作后,o3闲适将杀,先下一城。

第二局:两边干预了着名的西西里退守毒兵变例。要是说b2兵对人类棋手是毒药,那a2兵对AI来说几乎是致命病毒。Grok走出了一步惊天大漏,吃掉了一个有白方骑士防守的兵。奉上如斯大礼,o3天然闲适哂纳胜局。
第三局:Grok 执白初度在比赛中摆出马洛奇结构,阵势一度相称想象,让人以为阿谁刚劲的Grok又追想了——难谈它前两局是在演戏吗?相关词,一步径直送掉了我方的骑士,让所有这个词幻想子虚乌有。随后,Grok接连送掉了皇后、一个车,最终输掉了比赛。

第四局:这是最富戏剧性的一局。开局不久,轮到o3犯下大错,白送了皇后,阵势岌岌可危。但正如诠释嘉宾、特级众人Hikaru Nakamura所说,棋盘上照旧潜藏杀机。
o3展现了惊人的韧性,通过一个精彩的战术组合技,遗迹般地夺回了皇后。
比赛拖入残局,尽管o3仅多一个兵,本是和棋阵势。但Grok再次闪现了它在残局诡计上的致命缺点,o3对残局的交融彰着更深,紧追不舍,最终将兵升变为皇后,完成了绝杀。

凭借这场标记性的收效,o3成为了首届Kaggle AI象棋赛的王者,Grok 4则缺憾地与冠军交臂失之。
季军战:o4-mini 1.5-2.5 Gemini 2.5 Pro
谷歌自家的Gemini 2.5 Pro与o4-mini的季军争夺战,天然不像决赛那样一边倒,但也但也远非势均力敌。
最终,Gemini 以三胜一和的战绩,稳稳地站上了领奖台。
尽管比分悬殊,但Gemini的对局号称一团糟,棋局质地远不足冠军o3。
Gemini的发达时好时坏,第一局的紧迫还算像模像样,但第三局的和棋则更像是整场比赛的缩影:两边齐下得稀里隐隐,造作束缚,即使手捏雄壮上风也迟迟无法转动为胜势,阵势如过山车般升沉。

不外,白玉无瑕,凭借更强的概述实力,Gemini为人谷歌获得了一枚顾惜的铜牌。
谷歌将怎样通过此次比赛来改良其AI,令人期待。
赛后声息与反想
全国棋王Magnus Carlsen单刀直入:「o3的棋力大概格外于海外等第分1200分,Grok 4只须800分左右。」

1200分是业余俱乐部棋手的平均水准,而800分基本是刚初学的初学者。
这与全国顶尖人类棋手超越2700分的水平相去甚远。
Carlsen合计,此次比赛让咱们得以一窥AI真是的想考历程。
濒临Grok 4的惨败,马斯克赶快在X上挽尊:「xAI基本没在象棋上花功夫,棋战对Grok来说仅仅个附加功能。」

Kaggle的弘愿不啻于此。
AI象棋锦标赛将当作一个不竭性的评估圭表,未来还将膨胀到围棋、狼人杀、模拟筹划等更复杂的游戏。
游戏正在成为揣测和运行下一代AI发展的最好实践场。
参考尊府:
https://www.youtube.com/watch?v=WSiu1et3P7M
https://x.com/kaggle/status/1953542585412153369
https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3
