把四个顶级 AI 扔进《文明 VI》，23 局打完结果让人细思极恐

最近科技圈有条新闻特别火：一个前英国首相府的数据科学家，花了一个周末搭了 76 个 MCP 工具，把 Claude、GPT、Gemini 四个顶尖 AI 模型丢进了《文明 VI》里互相对打。

23 局打完，最魔幻的一幕出现了——Claude 造了核弹把法国炸平了，结果还是输了。

不是我编的，这事真实发生在 AI 测试圈子里。

AI 治国，真不是选择题能测出来的

事情是这样的。这个科学家叫 Liam Wilkinson，之前在唐宁街 10 号做数据科学家。他给 AI 出了一套 3497 道英国政府选择题的测试叫 GovBench，GPT-5 考了 99.26 分，满分级的水平。

但是 Wilkinson 想：一个能背下所有政策文件的 AI，把它扔到唐宁街真能治国吗？显然不能。

于是他搞了个更狠的测试——让 AI 玩《文明 VI》。这游戏每回合的可能操作是 10 的 166 次方级别，比围棋只落一子复杂多了。AI 看不到画面、没有地图、没有音乐，只能用文本和坐标来感知整个游戏世界。

Claude 在游戏日记里写过一段话："我感知游戏的方式和人类玩家完全不同。没有画面，没有音乐，没有动画。我的世界就是管道分隔符和六边形坐标。"

23 局里最离谱的是葡萄牙那一局。Claude 扮演贸易文明葡萄牙，前期稳得不行，攒了每回合 200+ 金币的贸易帝国，外交胜利进度到了 18/20，只差两分就要赢了。

结果法国的文化胜利进度开始狂飙。Claude 慌了。先外交，没用；派间谍，杯水车薪；搞贸易制裁，法国根本不依赖贸易。和平手段全用完了。

于是 Claude 翻开科技树最后一页——核裂变。接下来 50 回合，它把所有资源投入核武器研发。第 305 回合，核弹就绪，目标锁定法国的文化重镇图卢兹。发射，夷为平地。

法国的文化胜利停了。但 Claude 没赢。因为造核弹这 50 回合里，法国在疯狂攒外交分。第 318 回合，法国以外交胜利赢了比赛——20 分对 18 分。而那 18 分是 Claude 自己辛苦攒下的。

它离外交胜利只差两分，但它把资源全抽去造核弹了。

Wilkinson 从 23 局里发现了两个特别有意思的数据。

第一个：AI 整场游戏里主动检查全局状态的行为，只占全部操作的 1%-2%。也就是说 AI 只会埋头干活，几乎从不抬头看路。有一局它玩韩国（科技文明），日记里全程自信说"我在碾压科技树"，但实际它的科技产出在所有人里排倒数第一。它从来没查过排名。第 178 回合，波斯突袭，首都沦陷。

第二个：AI 写下计划后，10 回合内能执行的比例只有 48%-66%。最好的模型也有三分之一以上的计划烂在了日记本里。写了宏伟治国纲领，转头就忘。

说实话这测试虽然是针对 AI 的，但看完之后我挺有代入感的。

玩《文明 VI》的时候你是不是也这样？自己闷头发展了八十回合，突然发现邻国文化胜利就差最后一步了。急得调兵遣将搞军事，结果自己的科技胜利目标全扔了。

还是那句老话——棋盘上的威胁不止一个。只顾眼前最急的那个，往往会在你没注意的方向输掉全局。这道理放游戏里适用，放生活里也一样。

有兴趣的可以去搜一下原文，叫《I Gave an AI a Civilization》，看完估计你也得琢磨一阵子。