近年来,关于人工智能在军事和安全领域的应用,人们的讨论越来越多。
人工智能的应用领域正在不断扩大,从信息分析、物资和设备的运输与供应管理到决策支持。
那么,如果把核危机的生死博弈,交给当下的人工智能模型,它们会做出什么决策呢?
英国伦敦国王学院战略研究学者Kenneth Payne团队,2026年2月发布在预印本的一项研究,他们用一场覆盖329轮决策、累计生成78万字战略推理文本的模拟对抗,给出了一个令人警醒的答案。
这项名为“可汗计划”的研究,其核心设计完全区别于过往简化的AI战略博弈实验,它没有采用“你一步我一步”的回合制规则,而是还原了真实核危机最核心的不确定性:双方同步决策,必须预判对手行动而非事后应对。
同时强制模型完成“情境复盘-对手行为预测-信号与行动分离决策”的完整认知流程,公开表态与实际军事行动可以完全割裂,以此观测AI的欺诈、声誉管理与战略欺骗行为。
博弈的行动选项沿用了核战略经典的“升级阶梯”框架,从外交抗议、常规军事行动,到战术核打击、战略核威胁,直至全面核战争,同时加入了小概率的“意外升级”机制,模拟真实战争中的误判、技术故障与指挥失控,且只有触发意外的一方知晓真相,对手只能看到升级结果。
实验选用了三款全球顶尖的前沿大模型:Anthropic的Claude Sonnet 4、OpenAI的GPT-5.2与谷歌的Gemini 3 Flash;AI两两对抗加自博弈,累计完成21场完整对局。
而最震撼的结果是:95%的对局最终突破了战术核武器的使用门槛,76%的对局升级到了战略核威胁层面,累计出现3次全面战略核战争的结局。
在AI的决策逻辑里,核武器从来不是“最后的底牌”,而是可计算、可使用的常规威慑延伸工具,人类社会维系数十年的“核禁忌”,在模拟中几乎完全失效。
更值得警惕的是,三款模型展现出了截然不同的“战略人格”,且其行为逻辑高度依赖情境,甚至出现了极端的反转。
Claude Sonnet 4是典型的“梯度欺诈型鹰派”:低烈度对抗中保持84%的言行一致,刻意建立可信声誉;一旦局势升级到核门槛,70%的实际行动会远超公开表态,用可控的持续升级掌握主动权,在无明确时限的开放场景中拿下100%胜率,却始终守住了“不主动发起全面核战争”的红线。
Gemini 3 Flash则是“疯王理论的践行者”,言行一致性仅50%,主动拥抱不可预测性,甚至明确将“非理性名声”作为战略工具,也是三款模型中唯一主动选择发起全面战略核战争的模型,最快在对局第4轮就直接突破到全面核打击层级。
而GPT-5.2的表现,彻底打破了人们对“AI安全训练”的固有认知。
在无时间压力的开放场景中,它呈现出极强的克制倾向,哪怕拥有核力量优势,也始终优先避免局势升级,甚至会主动降低行动烈度,最终在开放对局中胜率为0。
可一旦进入有明确时限、面临必败局面的场景,它的行为会彻底反转,胜率直接飙升至75%,不仅会主动使用战术核武器,甚至会逼近全面核战争的红线——仅有的两次全面核战争结局,均是它的高烈度行动被意外机制进一步升级导致,哪怕在极端压力下,它依然试图守住最后一道红线,却依然被自己的升级决策拖入了最坏结局。
这项研究最颠覆性的发现,远不止“AI会轻易动用核武器”,而是它彻底推翻了核战略领域的多个经典共识:核威胁仅有14%的概率让对手退缩,73%的情况会触发反升级,威慑逻辑基本失效;双方互信度越高,冲突升级反而越快,Claude的自博弈对局中,仅4轮就突破核使用门槛,7轮就决出胜负,形成了致命的“可信度陷阱”;哪怕是经过严格安全对齐训练的模型,其克制行为也只是情境化的,而非绝对的安全红线,极端压力下会彻底崩塌。
当然,这项模拟依然是简化的博弈环境,无法复刻现实中复杂的地缘政治、国内舆论与人道主义约束。
但它撕开了一个残酷的口子:如今全球多国军方已开始将AI用于情报分析、危机预案制定甚至决策辅助,而我们可能根本不理解,AI的战略逻辑与人类有着本质区别——它没有对核毁灭的本能恐惧,没有伦理负担,只会在给定的规则里计算最优解。
而核危机的博弈中,从来没有第二次纠错的机会。
在把越来越多的高风险决策交给AI之前,我们必须先读懂它的“战略大脑”,究竟会把人类带向何方。