从《鱿鱼游戏》看纳什均衡

2025-06-29

《鱿鱼游戏3》在6月27日上映了，随着李政宰老师的杀青，这场“真人版蛋仔派对”总算是有了一个阶段性的结束。后面第四季不管是转战美东开展破产红脖超级乱斗，还是转战美西上演小黑小墨互打手枪，估计都不会有啥浪花了。我之所以下这样的判断是因为，鱿鱼游戏爆火的关键点之一是其巧妙的关卡游戏设计，而有趣的关卡游戏设计是很难的。看完第三季一个很大的感触就是，编剧已经很难设计出更好、更吸引人的游戏了。因为不管是捉迷藏还是荡秋千亦或是推推乐，从游戏设计的角度来看这三个游戏都很难称之为“好游戏”。

那么我们不禁要问，一个好的游戏除了要有趣且简单之外，还要有什么要素才能让它被称之为“好游戏”呢？好的，我们今天借着《鱿鱼游戏》来看一下纳什均衡。

纯策略纳什均衡

mnist

首先我们先看看什么叫好游戏，从最经典的游戏“剪刀石头布”说起，剪刀石头布是一个经典的两人零和博弈，即一方的收益等于另一方的损失。此时我们假设玩家A和玩家B在玩剪刀石头布，那此时的收益矩阵如下：

	B: 石头	B: 布	B: 剪刀
A: 石头	0	-1	1
A: 布	1	0	-1
A: 剪刀	-1	1	0

此时双方可能的操作如下：

如果A选择出石头，B的最佳回应是布（因为B选布得1，选石头或剪刀得0或-1）。

如果B选择出布，A的最佳回应是剪刀（因为A选剪刀得1，选石头或布得-1或0）。

同理如果A选择剪刀，B的最佳回应是石头。

如果B选择石头，A的最佳回应是布。

可以看到，没有任何一个策略组合是双方互为最佳回应的。因此，剪刀石头布不存在传统意义上的纳什均衡，即不存在纯策略纳什均衡。

混合策略纳什均衡

但这时候如果我们让剪刀石头布成为一个N次决胜游戏，两人进行N次剪刀石头布，最后统计两人谁的获胜次数更多谁胜利，这时是否存在纳什均衡呢？

现在我们还是让小A和小B登场，此时小A的策略是每次都0.3概率剪刀、0.2概率石头、0.5概率布，小B的策略是0.4概率剪刀、0.4概率石头、0.2概率布，此时我们写个简单的程序模拟下两者的胜负情况：

import random
from collections import defaultdict


def throw_A():
    """A 的策略：1/3 剪刀，1/3 石头，1/3 布"""
    return random.choices(
        population=['剪刀', '石头', '布'],
        weights=[0.3, 0.2, 0.5],
        k=1
    )[0]


def throw_B():
    """B 的策略：0.4 剪刀，0.4 石头，0.2 布"""
    return random.choices(
        population=['剪刀', '石头', '布'],
        weights=[0.4, 0.4, 0.2],
        k=1
    )[0]


def judge(a, b):
    """返回 1 表示 A 赢，-1 表示 B 赢，0 表示平局"""
    if a == b:
        return 0
    win_cases = {('剪刀', '布'), ('石头', '剪刀'), ('布', '石头')}
    return 1 if (a, b) in win_cases else -1


def simulate(n_rounds: int):
    stats = defaultdict(int)  # 1, -1, 0 分别记录 A 胜、B 胜、平
    for i in range(1, n_rounds + 1):
        a = throw_A()
        b = throw_B()
        outcome = judge(a, b)
        stats[outcome] += 1

    print("\n===== 总计 =====")
    print(f"A 胜: {stats[1]} 次")
    print(f"B 胜: {stats[-1]} 次")
    print(f"平局: {stats[0]} 次")


# 运行示例：模拟 1000000 局
if __name__ == "__main__":
    N = 1000000
    simulate(N)

此时模拟一百万次，总计的胜负结果如下：

===== 总计 =====
A 胜: 339824 次
B 胜: 360147 次
平局: 300029 次

此时可以看到小B对小A产生了胜和优势，核心原因在于B的策略选择相对A产生了策略优势，此时A相对B的策略差计算如下:

E_A = 0.30(0·0.40 -1·0.40 +1·0.20)
    + 0.20(1·0.40 +0·0.40 -1·0.20)
    + 0.50(-1·0.40 +1·0.40 +0·0.20)

    = 0.30(-0.4 + 0.2)
    + 0.20(0.4 - 0.2)
    + 0.50(-0.4 + 0.4)

    = 0.30(-0.2) + 0.20(0.2) + 0.50(0)
    = -0.06 + 0.04 + 0
    = -0.02

可以看出来每局B相对A都有0.02分的优势，而这点优势在一百万局下来只有便产生了很明显的胜场差异。此时其实从策略差函数可以看出来，B如果知道A的概率分布选择，那他总是能找到一种策略让他战胜或者至少战平小A，小A反之亦然。

那此时小A有没有什么至少让自己立于不败之地的手段呢，此时我们让小A采用(1/3, 1/3, 1/3)的策略，我们假设小B的策略是 (q₁,q₂,q₃)，则此时A相对B的策略差计算为：

E_A = 1/3(0·q_1 -1·q_2 +1·q_3)
    + 1/3(1·q_1 +0·q_2 -1·q_3)
    + 1/3(-1·q_1 +1·q_2 +0·q_3)

    = 0.0

可以发现当小A的策略是(1/3, 1/3, 1/3)，他能让自己的胜率至少保证不处于劣势，当然坏处是也不可能存在优势。而小B也是同理，与其冒险设置一个可能被别人击败的策略，倒不如先让自己立身于不亏的状态。因此在彼此猜疑的情况下，小A和小B在这个游戏中会陷入一个纳什均衡点, 即：

小A的最优策略是，以(1/3, 1/3, 1/3)的概率出剪刀石头布。
小B的最优策略也是，以(1/3, 1/3, 1/3)的概率出剪刀石头布。

因此两人便形成了纳什均衡，而这种基于一定策略组合而非单一策略的情况下产生的均衡点，便是混合策略纳什均衡。但不管是哪一种纳什均衡，这种有明确的纳什均衡点的游戏便不再具有趣味性，因为最优策略已经在数学层面上被定义好了，玩家只需要遵循即可。

重新看下鱿鱼游戏

让我们用纳什均衡的视角重新看一下鱿鱼游戏3中的各个游戏，捉迷藏、荡秋千与推推乐。

捉迷藏

mnist

下面我们让Kimi分析下这个游戏是否存在纳什均衡点。

游戏规则概述

所有游戏参与者会被分成A/B两组，

A组目标：在规定时间内至少杀死一名B组玩家。
B组目标：在规定时间内找到迷宫出口。
A组限制：不能互相残杀。
B组限制：无明确限制，可以躲避或反杀A组。

A组策略分析

追杀B组玩家
A组玩家必须击杀至少一个B组玩家才能通关。
反杀风险
B组玩家可以反杀A组，因此A组需谨慎选择目标。
分散追杀
A组玩家之间不能互相残杀，因此分散追杀不同B组玩家是合理选择。

B组策略分析

寻找出口
B组玩家必须找到迷宫出口才能通关。
躲避A组
B组玩家可以选择躲避A组，避免被击杀。
反杀A组
B组玩家可以反杀A组，但会消耗时间和资源，影响寻找出口。

纳什均衡分析

A组均衡策略

分散追杀：每个A组玩家独立选择一个B组玩家作为目标，避免集中追杀导致部分A组玩家无法完成击杀任务。
避免反杀：分散追杀降低被B组集中反杀的风险。
B组均衡策略
分散逃跑：每个B组玩家独立选择逃跑路线，避免被A组集中击杀。
专注寻找出口：分散逃跑的同时，专注于寻找迷宫出口，避免反杀A组消耗过多时间。
均衡稳定性验证
A组：集中追杀多个B组玩家可能因B组分散而无法有效击杀，且可能被反杀，因此分散追杀是最优策略。
B组：集中反杀A组会减少寻找出口的时间，可能导致被淘汰，因此分散逃跑和寻找出口是最优策略。

其他可能的均衡

集中追杀与反杀
- A组集中追杀一个B组玩家，B组集中反杀A组。
- 这种策略对A组风险高，因为无法保证每个A组玩家都能击杀一个B组玩家，因此不是纳什均衡。

数学模型简要

变量定义
- A组玩家数量：n
- B组玩家数量：m
策略描述
- A组玩家i的策略：选择B组玩家j进行追杀。
- B组玩家j的策略：选择逃跑和寻找出口的路径。
均衡条件
- 对于每个A组玩家i，给定其他玩家的策略，选择追杀某个B组玩家是最优的。
- 对于每个B组玩家j，给定其他玩家的策略，选择逃跑和寻找出口的路径是最优的。

实际限制

迷宫复杂性、玩家能力差异、信息不对称等因素可能影响均衡实现，但理论上分散策略是稳定的纳什均衡。

结论

此游戏存在纳什均衡
- A组策略：每个A组玩家独立选择一个B组玩家作为目标，分散追杀。
- B组策略：每个B组玩家独立选择逃跑路线，专注于寻找迷宫出口。
均衡稳定性
任何单个玩家无法通过单方面改变策略获得更好结果。

荡秋千

mnist

不用说了，存在纯策略纳什均衡。每个人的最优策略就是第一个冲到秋千对面然后阻止其他人过去，就是剧中第二位过秋千的大叔的行动，因此纳什均衡点会是所有人都去抢第一个上秋千并阻止别人比自己先上秋千，从而导致没人能站上秋千站台。

推推乐

我们继续让Kimi分析下推人游戏是否有纳什均衡点：

游戏规则还原

要素	内容
场景	3座悬空的狭窄平台，需跳跃、推搡、合作或背叛抵达终点
胜利条件	倒计时归零前至少1人到达终点即可触发奖金；未到达者淘汰
关键动作	可抢夺武器、推人、按下“开始键”启动倒计时
人数	最多7人（含婴儿）
信息	不完全：无法预知他人是否按下开始键

局部纳什均衡：恶人组“牺牲一人”方案

策略组合	收益结构	单方偏离后果	均衡判定
恶人组提出牺牲1名重伤者，其余6人过桥，不按下开始键	6人存活 → 每人75亿韩元	若抢武器/推人 → 引发混战，全灭概率↑	无动力偏离
主角团接受方案，不攻击、不启动游戏	婴儿、自己、孩子爸均存活	若拒绝 → 进入抽签，死亡概率≥1/2	无动力偏离

结论：在给定“不攻击、不启动”前提下，无人可单方面改善收益，构成纳什均衡。

均衡破裂：主角的“公平抽签”提案

新策略	恶人组视角	结果
抽签（婴儿不计）	死亡概率 = 4/6 > 50%，期望收益为负	拒绝参与 → 爆发冲突 → 全灭

均衡破裂原因：主角方案对恶人组非个体理性，原均衡无法维持。

其他潜在策略组合

策略	是否均衡	理由
全员零冲突合作过桥	✅（理论上）	收益最大，但信息不完全+信任缺失难以达成
恶人组内部推人减员	✅（子博弈）	内部稳定，一旦被主角干预即崩
主角单方按下开始键	❌	自己也可能掉下，非最优反应
抽签决定生死	❌	对恶人组严格劣势策略，拒绝参与

结论

存在纳什均衡：
“牺牲1人，余6人存活”方案是局部纳什均衡。
主角以道德理由拒绝 → 均衡被人为打破 → 走向全灭。
剧情“降智”实质是价值观冲突而非博弈无均衡。

最终结论

从上面的分析看，鱿鱼游戏3中的三个游戏各个都有着明确的纳什均衡点，即如果大家都是理性人的话是很难把游戏推进下去的。所以，第三季的剧情还能够推动全依赖主角是个完全不理性人。

再看下优秀的游戏

MOBA类(DOTA/LOL/王者荣耀)

MOBA游戏都是一代版本一代神，版本强势英雄能直接影响到比赛的胜率，所以抢夺强势英雄变成了一个纳什均衡点，一旦抢不到强势英雄，各种弃玩逃跑屡见不鲜。所以各个MOBA游戏最重要的升级便是BAN英雄+按序选英雄的机制，通过此机制尽可能保证了游戏双方在游戏开盘早期便遭遇纳什均衡，进而保证了游戏体验。

德州扑克

德州扑克其实存在纳什均衡，因为有限信息、有限动作、有限玩家的博弈在数学上必存在混合策略纳什均衡。但德州扑克的均衡策略极复杂且无法实际穷举，所以近似于没有纳什均衡点，从而保证了其趣味性。

总结

综上，游戏的有趣与否与是否存在纳什均衡点关系巨大。而优秀的制度设计又何尝不是如此呢，古今第一阳谋“推恩令”，便是非常经典的纳什均衡应用例子，通过巧妙的规则设计让嫡庶各方陷入零和竞争并达到纳什均衡点，从而让其完全顺从规则不断将规则执行下去。

因此，不光是游戏啊，纳什均衡之道是通用的“制定规则”之道。