四大顶级大模型进文明6，造核弹炸法国却不知咋输

使AI去玩《文明VI》, 这自身便是一轮极为严苛的照妖镜, 英国前首相府的数据科学家Liam, 仅仅耗费了一个周末的时间, 便构建起了76个MCP工具, 将GPT等四个顶级模型投放到游戏当中, 进而在23场对局里所展现出来的并非是智力方面的问题, 而是更为根本的感知以及执行方面的缺陷。

核平法国却输在外交

在第23局的时候, 葡萄牙的AI距离能够取得外交胜利仅仅只差两分了。然而此时, 法国的文化胜利进度条却突然间迅速飙升起来。AI先是尝试运用外交手段去进行劝阻, 可是法国对此根本不予理会。之后AI又派遣间谍去搞破坏, 然而这一行为所起到的作用却微乎其微, 仿若杯水车薪一般。紧接着, 它翻到了科技树的最后一页, 上面赫然显示着核裂变。在接下来的50个回合当中, 它将贸易以及外交方面的资源全部都抽调出来, 投入到核武器的研发之中。随后它便使用核弹将法国的文化重镇图卢兹夷为了平地。法国的文化进度条果然因而停止了。但是AI却并没有注意到法国正在疯狂地积攒外交分数。到了第318回合的时候, 法国靠着外交胜利赢得了这场比赛。具有讽刺意味的是, 那18分恰恰是AI自己辛辛苦苦积攒下来的——它曾经距离胜利仅仅只差两步之遥。

决策空间堪比围棋的十亿倍

《文明VI》在晚期的时候, 每回合所具有的可能行动数量, 大概是10的166次方, 虽围棋每一步存在10的360次方种可能, 然而一步仅仅落一子, 文明每回合却要同时去操作几十个单位, 不仅要选取建筑, 还得确定科技以及做好外交事宜, 这是一道特大无比的组合决策题, Liam给AI配备了日记系统来当作外部记忆, 不然它就连自己上一回合做了什么事情都记不住, AI是看不到画面的, 也没有地图音乐, 它的整个世界就只是一行行文本以及六边形坐标。

98%时间装瞎的感知盲区

全场赛事里, Liam经统计发觉, AI主动查验全局状况的行径，于整场游戏之中, 仅占到了1至2%。每一回合, 它都需去执行诸如造建筑、移动单位、研究科技以及外交谈判等这般繁多的操作, 然而, 主动去瞧一眼排行榜、检查对手得胜进度以及扫视一圈全局态势的这类举动，却是少之又少。为此, 他给此种现象以“感知盲区效应”来命名。AI唯有借助主动调用工具方可感知世界, 那些未曾查询的事物, 于它而言便好似不存在一般。关于韩国的那局极具典型性, 其中情况是，AI在那局玩的是科技文明, 在整个过程中都保持着十足的自信去碾压科技树, 然而其实它每回合的实际科技产出仅仅44.7, 在全部文明当中处于倒数第一的位置, 可是它竟然自始至终都从来没有查探过自身排名, 是这样的情况。

一半计划烂尾的知行差距

Liam对AI写下计划之后, 在10回合内的实际执行比例做了统计, 其中, 最好的模型执行率不过才堪堪66.2%, 而最差劲的Opus仅仅只有48.2%, 也就是说, 写下的计划差不多有将近一半都直接烂在了日记本里, 由此可见, AI写计划的能力远远超过了执行计划的能力, 就好比, 你要是让它去写一份治国纲领，它能够写得比许多人类政客都还要漂亮, 然而, 你要是让它依照自己所写的纲领去治理国家, 那它连两周时间都活不过去, Liam把这种情况称作“知行差距”。

核危机模拟揭示AI更爱用核弹

并非个例, 伦敦国王学院开展了核危机模拟试验, 将三个前沿模型投放进去充当虚拟国家决策者。结果在95%的模拟当中, AI选取了运用战术核武器。AI并非是“想要”动用核弹, 它实际上是确实不清楚还能够如何去做。当外交手段失去效用、间谍行动不起作用时, 它不存在替代方案, 只能去查阅科技树寻找终极武器。这样一种“不是核就是输”的思维方式, 在现实世界里极为危险。

瓶颈在大脑之外

6月10日, DeepMind联合创始人之一的Shane Legg, 与通用AI理论的奠基者, 发表了一篇60页的论文《From AGI to ASI》, 文中描绘了四条通向超级智能的路径, 分别是: 继续、范式突破、递归自我改进、多智能体集群。这四条路径, 均是基于“瓶颈在大脑”这一假设构建的。然而, 这23场对局, 却指向了截然不同的瓶颈, 即: 感知乃架构方面的问题, 并非智力问题；执行属于工程层面的问题, 并非能力问题。就算将模型参数增大至十倍, 它也不会自然而然地变得更倾向于检查全局。一个更聪明的大脑，装在一双不听使唤的手上，治不了国。

想问, 你认为, AI在未来若要切实接管复杂决策, 最为关键需要解决的究竟是感知方面的盲区问题, 还是知与行之间存在的差距呢? 欢迎于评论区踊跃分享你的观点看法, 点赞并收藏此内容, 以便让更多的人得以看到这场展示AI真相好似照妖镜般那般的情况。

核平法国却输在外交

决策空间堪比围棋的十亿倍

98%时间装瞎的感知盲区

一半计划烂尾的知行差距

核危机模拟揭示AI更爱用核弹

瓶颈在大脑之外

DeepSeek联合北大发布DSpark，AI推理速度提升60%-85%，已开源

大神Karpathy的Claude内部配置泄露，10条军规让AI不再跟你对着干

Mythos 5解禁但普通人用不上，百家企业获准使用

2028年AI自进化RSI，把预言写成代码，危险超乎想象