把四个顶级 AI 扔进《文明 VI》,23 局打完结果让人细思极恐
游戏世界 2 次阅读

把四个顶级 AI 扔进《文明 VI》,23 局打完结果让人细思极恐

把四个顶级 AI 扔进《文明 VI》,2

把四个顶级 AI 扔进《文明 VI》,23 局打完结果让人细思极恐

最近科技圈有条新闻特别火:一个前英国首相府的数据科学家,花了一个周末搭了 76 个 MCP 工具,把 Claude、GPT、Gemini 四个顶尖 AI 模型丢进了《文明 VI》里互相对打。

23 局打完,最魔幻的一幕出现了——Claude 造了核弹把法国炸平了,结果还是输了。

不是我编的,这事真实发生在 AI 测试圈子里。

AI 治国,真不是选择题能测出来的

事情是这样的。这个科学家叫 Liam Wilkinson,之前在唐宁街 10 号做数据科学家。他给 AI 出了一套 3497 道英国政府选择题的测试叫 GovBench,GPT-5 考了 99.26 分,满分级的水平。

但是 Wilkinson 想:一个能背下所有政策文件的 AI,把它扔到唐宁街真能治国吗?显然不能。

于是他搞了个更狠的测试——让 AI 玩《文明 VI》。这游戏每回合的可能操作是 10 的 166 次方级别,比围棋只落一子复杂多了。AI 看不到画面、没有地图、没有音乐,只能用文本和坐标来感知整个游戏世界。

Claude 在游戏日记里写过一段话:"我感知游戏的方式和人类玩家完全不同。没有画面,没有音乐,没有动画。我的世界就是管道分隔符和六边形坐标。"

核弹炸了法国,然后输了

23 局里最离谱的是葡萄牙那一局。Claude 扮演贸易文明葡萄牙,前期稳得不行,攒了每回合 200+ 金币的贸易帝国,外交胜利进度到了 18/20,只差两分就要赢了。

结果法国的文化胜利进度开始狂飙。Claude 慌了。先外交,没用;派间谍,杯水车薪;搞贸易制裁,法国根本不依赖贸易。和平手段全用完了。

于是 Claude 翻开科技树最后一页——核裂变。接下来 50 回合,它把所有资源投入核武器研发。第 305 回合,核弹就绪,目标锁定法国的文化重镇图卢兹。发射,夷为平地。

法国的文化胜利停了。但 Claude 没赢。因为造核弹这 50 回合里,法国在疯狂攒外交分。第 318 回合,法国以外交胜利赢了比赛——20 分对 18 分。而那 18 分是 Claude 自己辛苦攒下的。

它离外交胜利只差两分,但它把资源全抽去造核弹了。

比输赢更可怕的事

Wilkinson 从 23 局里发现了两个特别有意思的数据。

第一个:AI 整场游戏里主动检查全局状态的行为,只占全部操作的 1%-2%。也就是说 AI 只会埋头干活,几乎从不抬头看路。有一局它玩韩国(科技文明),日记里全程自信说"我在碾压科技树",但实际它的科技产出在所有人里排倒数第一。它从来没查过排名。第 178 回合,波斯突袭,首都沦陷。

第二个:AI 写下计划后,10 回合内能执行的比例只有 48%-66%。最好的模型也有三分之一以上的计划烂在了日记本里。写了宏伟治国纲领,转头就忘。

这跟玩游戏有什么关系?

说实话这测试虽然是针对 AI 的,但看完之后我挺有代入感的。

玩《文明 VI》的时候你是不是也这样?自己闷头发展了八十回合,突然发现邻国文化胜利就差最后一步了。急得调兵遣将搞军事,结果自己的科技胜利目标全扔了。

还是那句老话——棋盘上的威胁不止一个。只顾眼前最急的那个,往往会在你没注意的方向输掉全局。这道理放游戏里适用,放生活里也一样。

有兴趣的可以去搜一下原文,叫《I Gave an AI a Civilization》,看完估计你也得琢磨一阵子。

分享

评论 (0)

评论通过后显示

暂无评论,来写第一条吧 ✍️