
Xin Zhiyuan报告编辑:Qingqing Kinghz [Xin Zhiyuan简介] AI国际象棋对抗?这次我真的玩了! Google Kaggle发起了首个全球AI国际棋比赛,八个顶级语言模型在正面面对面,仅在一步之内就获得了冠军!这是全球国际象棋比赛!第一场战斗即将采取艰难的举动:让世界上八种最强的语言模型,以及国际象棋面对面:封闭源大型模型:Gemini 2.5 Pro,Openai O4-Mini,Grok 4,Openai O3,Openai O3,Claude 4 Opus,Gemini,Gemini 2.5 Flash;开源大型模型:DeepSeek R1和Kimi K2教学。第一场比赛在凌晨1点结束。比赛正式开始了比赛8比4的比赛:Gemini 2.5 Pro,O4-Mini,Grok 4和O3以4-0的压伤记录刺伤了对手,并进入了半决赛。 Claude 4 Opus,DeepSeek R1,Gemit是2.5 Flash,Kimi K2在本赛季中期未能生存后倒塌并离开了市场。扩展完整文本
在第二天的半决赛中,Openai和O3的O3米尼将“互相杀死”,而Gemini 2.5 Pro和Grok 4将在狭窄的道路上相遇
整个活动由Google Kagple进行。直到今天,他们为一般模型创建了一个竞争平台 - “ Game Arena”。
Google说,游戏是审查模型和代理商的好平台,也是一个通用,聪明和可靠的建议。游戏作为基准的成本更为明显:
无限的可伸缩性:对手越强,难度的水平上升;
可视化思维:您可以完全监视模型的“链”,并瞥见战略思维过程。
无限的可伸缩性:马斯特朗对手越多,难度的水平上升;
可视化思维:您可以完全监视模型的“链”,并瞥见战略思维过程。
对于AI来说,打出出色的国际象棋游戏比您想象的要困难。
总共有3场比赛,DeepSeek R1 Compa与第一场比赛中的O3相比,红色至O4-Mini和Kimi-K2。
半决赛将于明天上午10:30举行。
让我们一起检查第一次战斗。
Kimi K2已经淘汰了
O3赢得了战斗,并成功进步
在四场比赛中,Kimi K2在每场比赛中都因非法跑步而输,最短的比赛不到8轮。
在游戏开始时,您可以遵循游戏理论采取一些步骤,但是一旦您摆脱了熟悉的工作,Kimi K2突然就像“盲目”,错误地避免了板布局和Releasterwrong作品。
面对这样的对手,O3可以轻松地参加半决赛。
DeepSeek R1中盘滴
O4-Mini很容易死两场比赛
这是“虚张声势的开始”,《跌落》的游戏
如果您只看每个国际象棋游戏的前几个曲折,您会知道两种型号一开始都是不可抗拒的,就好像两个国际象棋大师在玩。
但是在某个时候,国际象棋的质量AME将持续急剧变化。
一旦离开“开始模板”,DeepSeek便开始犯错误:针对不存在的碎片,捍卫没有威胁的空间,甚至是从“破坏性的自我操作”中脱颖而出的,这些空间将自己驱动到死胡同。
相比之下,尽管O4-Mini还不够出色,但它取得了稳定的进步,并且没有大错误。这成功完成了两次杀戮,并理所当然。
Claude 4 Opus血腥的战斗直到最后
仍然输给双子座2.5 Pro
如果Kimi K2的游戏是“自动退出”,那么克劳德4 opus的失败是一个失败,然后尽力而为。
在第一场比赛中,双方在前九场扭曲中都以一种直接的方式,直到克劳德4(Claude 4 Opus)rashly 10 ... G5积极打开了防御线,双子队的成功取得了成功。
在第四场比赛中,还有一个有趣的场景:双子座2.5 Pro手里拿着两个皇后,他的总优势优势高达32分。他应该“删除”克劳德,但他失去了一些基本的攻击。
尽管如此,成功还是属于双子座。
这场比赛也是四场比赛中最接近的象棋对抗。
戈克4杀
准确的罢工,弱势地区的专家
前三场似乎处于训练模式。一旦Gork 4到达,游戏终于看起来像个“战场”
面对经常出现的错误和无能为力的双子座2.5闪光灯,Gork 4被精确地看到和攻击。
它不是“模仿”,但它确实理解了弱点,消除了威胁,最后以4-0结束了比赛。
戈克(Gork)的“四局出色”不仅在目前发挥了最多的“国际象棋”游戏,而且还被许多内幕行业开始以来是游戏中最佳的表现。
穆斯克(Musk
订购这只是一种效果。 Xai在国际象棋上花费了很多精力。
没有炫耀,没有过度评估,只需通过它随便地,好像此成功是系统完成的函数调用。
但是,在这种近战中,该模型经常犯错误和错误的错误,戈克4是少数几个可以“清晰地看到游戏并不断完成游戏”的人之一。
从棋盘到智能测试
竞争只是表面,挑战已经开始。
该游戏的重要性不仅是一个更好的举动,它取决于谁将赢和参加谁。
它测试了国际象棋技巧,但对AI能力的一般理解。
该游戏为强大的AI分析提供了良好的基础,这有助于我们了解哪些方法在复杂的识别任务中确实有效。
该游戏可以给出成功,准确的成功信号:赢得或输掉或吸引。
它们结构良好且可衡量,使其成为审查模型的理想测试网站。该游戏坚持模型展示各种技能,包括战略推理,长期计划和DY当面对聪明的对手时,纳米人的灵活性为衡量通用问题解决的可靠基础提供了可靠的基础。
就在上个月,世界冠军卡尔森在旅行时滥用了Chatgpt,他的一个孩子没有被打破。比赛结束后,他没有长大,“有时候我在路上感到无聊。”
AI也没有意识到对手是谁 - 它比损失更合适。
Kaggle还宣布,真正的评分标准实际上隐藏在排名列表“ Way -way -the幕后有未指定的匹配”列表中。
国际象棋游戏只是测试通用情报的小首发。
参考:
https://www.chess.com/news/view/kaggle-lame-ana-cess-2025-day-1
https://blog.google/technology/ai/kaggle-lame-mena/
https:// www。