石头剪刀布:当胜负有价,隐藏的博弈与策略求解
石头剪刀布,这个简单到极致的游戏,我们从小玩到大,似乎早已了然于胸。但如果有一天,游戏规则悄悄改变——赢了,收获的是一份珍贵的奖励;输了,则要付出不菲的代价。在这种“不同权重”的胜负条件下,游戏就不再是单纯的运气比拼,而是浮现出深邃的博弈理论,隐藏着令人着迷的策略解。
我们不妨抛开AI的惯常语调,用更贴近人情世故的方式来探讨这个问题。想象一下,我们不再是随意出拳的孩童,而是为了生存和利益而绞尽脑汁的成年人。
1. 改变的齿轮:胜负权重的引入
首先,我们得明白,“不同权重”究竟意味着什么。在传统的石头剪刀布中,胜负结果是平等的:赢一次,和输一次,从长远来看,如果你是随机出牌,期望值是零。但现在,假设:
赢 获得 +V 分(V>0)
输 失去 C 分(C>0)
平局 双方都 0 分
这个设定立刻带来了革命性的变化。一旦V和C不再相等,均衡就被打破了。
2. 隐藏的诱惑与恐惧:期望值的计算
作为玩家,我们的目标是最大化自己的长期收益。这就需要我们计算“期望值”。期望值,简单来说,就是“平均能得到多少”。
假设你出“石头”。那么:
如果对方出“剪刀”(你赢),你获得 +V。
如果对方出“布”(你输),你失去 C。
如果对方出“石头”(平局),你获得 0。
现在,关键在于“对方出什么”的概率。在传统游戏中,我们假设对方也是随机出牌,即石头、剪刀、布的概率都是1/3。但有了胜负权重,情况就变了。
3. 谁会选择“最优”?博弈论的视角
这里就进入了博弈论的核心——纳什均衡。纳什均衡指的是一种状态,在这种状态下,任何一方在知道对方策略的情况下,都不会有动机去单方面改变自己的策略。
情况一:你是绝对理性的,对方也是绝对理性的
如果双方都极其聪明,并且都想最大化自己的收益,那么他们都会预测对方会怎么做,并据此做出选择。
思考对手: 如果我知道对手是一个只顾眼前利益的人,他可能会倾向于选择一个在面对自己“最优”选择时,能获得更高收益的策略。
思考自己: 我该怎么出,才能在对方也知道我怎么出,并且想办法对付我的情况下,我的收益依然是最大的?
这种理性推演会导向一个比较复杂的分析。但有一个直观的理解:
如果V远大于C: 赢一把的收益远大于输一把的损失。这时,你可能会更倾向于激进。你可能会观察对手的出牌习惯,如果他经常出同一种牌(比如他觉得自己稳赢,经常出“石头”),你就会针对性地出“布”。你的策略会更偏向于“抓住机会,冒险一搏”。
如果C远大于V: 输一把的损失远大于赢一把的收益。这时,你就会变得保守。你更想避免损失,而不是追求高收益。你可能会倾向于选择一个“让对手最难受”或者“最不容易被对手预测到”的策略。
一个关键的发现: 在非对称支付(不同权重)的情况下,纯策略(比如我永远出石头)通常不是纳什均衡。因为如果我知道你总是出石头,我就会永远出布,而你如果知道我总是出布,你就会永远出剪刀……形成一个无限循环的“军备竞赛”,最终谁也无法稳定下来。
因此,策略解往往是混合策略——即以一定的概率随机地选择石头、剪刀或布。
4. 寻找混合策略的均衡点
让我们以一个简单的数学模型来逼近。假设你出石头、剪刀、布的概率分别是 $p_S$, $p_J$, $p_B$ ($p_S + p_J + p_B = 1$)。对方出石头、剪刀、布的概率分别是 $q_S$, $q_J$, $q_B$ ($q_S + q_J + q_B = 1$)。
我们来计算一下,当你出“石头”时,对方出不同牌的期望收益:
对方出“石头”(你平局,他0),对方期望收益 = $p_S cdot 0$
对方出“剪刀”(你输,他赢),对方期望收益 = $p_J cdot (C)$
对方出“布”(你赢,他输),对方期望收益 = $p_B cdot V$
所以,对方出“石头”时的总体期望收益是 $E_{对手}(出石头) = p_S cdot 0 + p_J cdot (C) + p_B cdot V = p_B V p_J C$。
同理,我们可以计算对方出“剪刀”和“布”时的期望收益:
$E_{对手}(出剪刀) = p_S V p_B C$
$E_{对手}(出布) = p_J V p_S C$
在纳什均衡下,理性的对手会选择让他期望收益最大的策略。如果对手采用混合策略,那么他出任何一种牌(石头、剪刀、布)对他的期望收益都应该是相等的,否则他就会把概率集中到收益更高的牌上。
因此,在纳什均衡点,必须满足:
$E_{对手}(出石头) = E_{对手}(出剪刀) = E_{对手}(出布)$
这给我们带来了一系列方程:
1. $p_B V p_J C = p_S V p_B C$
2. $p_S V p_B C = p_J V p_S C$
3. $p_S + p_J + p_B = 1$
从方程1:
$p_B V + p_B C = p_S V + p_J C$
$p_B (V+C) = p_S V + p_J C$
从方程2:
$p_S V + p_S C = p_J V + p_B C$
$p_S (V+C) = p_J V + p_B C$
现在我们有了一个关于 $p_S, p_J, p_B$ 的方程组。我们可以尝试求解。
如果我们假设一个对称的均衡,即双方的概率分布是相同的 ($p_S=q_S$, $p_J=q_J$, $p_B=q_B$)。
让我们代入方程1:$p_B V p_J C = p_S V p_B C$
$p_B(V+C) = p_S V + p_J C$
代入方程2:$p_S V p_B C = p_J V p_S C$
$p_S(V+C) = p_J V + p_B C$
现在我们有两个关于 $p_S, p_J, p_B$ 的关系式,加上 $p_S+p_J+p_B=1$。
一个特别的情况:如果V=C
回到我们最初的对称情况:
$p_B V p_J V = p_S V p_B V implies p_B p_J = p_S p_B implies 2p_B = p_S + p_J$
$p_S V p_B V = p_J V p_S V implies p_S p_B = p_J p_S implies 2p_S = p_J + p_B$
结合 $p_S+p_J+p_B=1$:
如果 $2p_B = p_S + p_J$,那么 $p_S + p_J = 2p_B$。代入求和方程,$2p_B + p_B = 1 implies 3p_B = 1 implies p_B = 1/3$。
如果 $p_B = 1/3$,那么 $p_S + p_J = 2/3$。
再看 $2p_S = p_J + p_B$。代入 $p_B=1/3$, $2p_S = p_J + 1/3 implies p_J = 2p_S 1/3$。
代入 $p_S + p_J = 2/3$: $p_S + (2p_S 1/3) = 2/3 implies 3p_S = 1 implies p_S = 1/3$。
最后,$p_J = 2/3 p_S = 2/3 1/3 = 1/3$。
所以,当V=C(权重相等)时,唯一的对称纳什均衡是三者概率各为1/3,也就是随机出牌。这与我们直观理解一致。
回到V≠C的情况。
我们有:
1. $p_B (V+C) = p_S V + p_J C$
2. $p_S (V+C) = p_J V + p_B C$
3. $p_S + p_J + p_B = 1$
从方程1减去方程2:
$p_B (V+C) p_S (V+C) = (p_S V + p_J C) (p_J V + p_B C)$
$(p_B p_S)(V+C) = p_S V + p_J C p_J V p_B C$
$(p_B p_S)(V+C) = V(p_S p_J) C(p_B p_J)$
这看起来有点复杂。让我们尝试另一种角度。
在一个对称的混合策略均衡 $(p, p, p)$ 中,期望收益是相等的。
对手出“石头”对我的期望收益: $p_J V p_B C$
对手出“剪刀”对我的期望收益: $p_S V p_B C$
对手出“布”对我的期望收益: $p_B V p_S C$
让我们考虑一下谁的胜算更大。
如果 $V > C$,那么赢得一局比输掉一局的收益高。
想象一下,如果对方的策略是随机的(1/3, 1/3, 1/3)。
我的期望收益 = $1/3 cdot (p_J V p_B C) + 1/3 cdot (p_S V p_B C) + 1/3 cdot (p_B V p_S C)$
= $1/3 [ (p_J+p_S+p_B)V (p_B+p_B+p_S)C ]$
= $1/3 [ V (2p_B+p_S)C ]$
这还是假设了对方是1/3, 1/3, 1/3。但对方也是理性的,他不会随机出牌,他会根据你出牌的概率来调整自己的出牌概率。
关键在于,当支付不对称时,一种“弱牌”会变得更受欢迎。
如果V > C: 赢的收益大于输的损失。
“石头”克“剪刀”(你赢+V)
“剪刀”克“布”(你赢+V)
“布”克“石头”(你赢+V)
“剪刀”输“石头”(你输C)
“布”输“剪刀”(你输C)
“石头”输“布”(你输C)
你想要赢,也想要避免输。
当对方出“石头”,你希望出“布”(赢+V)。
当对方出“剪刀”,你希望出“石头”(赢+V)。
当对方出“布”,你希望出“剪刀”(赢+V)。
现在考虑损失:
当你出“石头”,怕对方出“布”(你输C)。
当你出“剪刀”,怕对方出“石头”(你输C)。
当你出“布”,怕对方出“剪刀”(你输C)。
如果 V >> C,你对“赢”的渴望会压倒对“输”的恐惧。你可能会更倾向于出那些能“主动进攻”的牌。
考虑一个极端:如果V=100,C=1。
对方出“石头”,你出“布”(+100)。
对方出“剪刀”,你出“石头”(+100)。
对方出“布”,你出“剪刀”(+100)。
当对方出“布”时,你出“剪刀”是+100,而你出“石头”是1。这时你绝对不会出“石头”。
那么,谁会更容易被“压制”?
在 V > C 的情况下,出“石头”的风险似乎相对较低。为什么?
如果你出“石头”,你可能赢(对方出剪刀+V),平局(对方出石头0),或者输(对方出布C)。
如果你出“剪刀”,你可能赢(对方出布+V),平局(对方出剪刀0),或者输(对方出石头C)。
如果你出“布”,你可能赢(对方出石头+V),平局(对方出布0),或者输(对方出剪刀C)。
让我们从对手的角度来看,他怎么出牌才能最大化收益。
假设我(玩家1)出牌概率为 $(p_S, p_J, p_B)$,对手(玩家2)出牌概率为 $(q_S, q_J, q_B)$。
玩家2的期望收益:
$E_2 = p_S [ q_S(0) + q_J(C) + q_B(V) ] + p_J [ q_S(V) + q_J(0) + q_B(C) ] + p_B [ q_S(C) + q_J(V) + q_B(0) ]$
$E_2 = p_S(q_B V q_J C) + p_J(q_S V q_B C) + p_B(q_J V q_S C)$
在纳什均衡下,玩家1会选择让自己的收益最大化,而玩家2也是如此。
为了找到玩家1的最佳策略 $(p_S, p_J, p_B)$,我们需要知道玩家2的策略 $(q_S, q_J, q_B)$。
关键洞察: 如果V>C,那么“石头”作为一种“防守反击”的牌,似乎风险较低。出“石头”最多就是被“布”克制(C),但有机会克制“剪刀”(+V)。而出“布”,虽然能克制“石头”(+V),但容易被“剪刀”克制(C)。
一个非常重要的理论结论: 在两玩家零和博弈(这里的“零和”是指一个人的收益是另一个人的损失,即使支付不等)中,非对称支付会导致概率分布的倾斜。
直觉推演:
当 V 很大,C 很小时 (V >> C): 赢的吸引力巨大,输的惩罚很小。
玩家会更倾向于主动攻击,试图赢得比赛。
“石头” 似乎是比较“稳妥”的攻击牌。它能克制“剪刀”,输给“布”。
“布” 虽然能赢“石头”,但怕“剪刀”。
“剪刀” 既被“石头”克,又克“布”。
在这种情况下,“石头”的出牌概率会相对提高,因为它既有主动进攻的机会,又有相对不那么糟糕的被动局面(虽然输给布,但V很大)。
而“布”因为其脆弱性(怕剪刀),可能会降低出牌概率。
策略解倾向于:增加“石头”的概率,降低“布”的概率。
当 C 很大,V 很小时 (C >> V): 输的代价很高,赢的收益很小。
玩家会更倾向于规避风险,避免输掉比赛。
“布” 似乎成了“避险”的牌。它能赢“石头”(+V,但V小),输给“剪刀”(C,但C大)。
“剪刀” 害怕“石头”(C)。
“石头” 害怕“布”(C)。
玩家会尽量避免成为“弱势牌”。
“剪刀” 是一种“攻击性”的牌,但其脆弱性(怕石头)在这个场景下被放大。
“布” 似乎是相对“安全”的。它能赢“石头”(V),输给“剪刀”(C)。
策略解倾向于:增加“布”的概率,降低“剪刀”的概率。
更精确的数学推导(基于对称混合策略 $p_S=q_S, p_J=q_J, p_B=q_B$):
为了让对手的期望收益相等,我们必须满足:
$p_B V p_J C = p_S V p_B C = p_J V p_S C$
设这个相等的期望收益为 $E$。
1. $p_B V p_J C = E$
2. $p_S V p_B C = E$
3. $p_J V p_S C = E$
4. $p_S + p_J + p_B = 1$
从 (1)(2): $p_B V p_J C (p_S V p_B C) = 0 implies V(p_Bp_S) + C(p_Bp_J) = 0$
从 (2)(3): $p_S V p_B C (p_J V p_S C) = 0 implies V(p_Sp_J) + C(p_Sp_B) = 0$
这是一个由V, C决定的线性方程组。
我们可以解出 $p_S, p_J, p_B$ 的具体形式。
例如,如果 $V > C$:
从 $V(p_Bp_S) + C(p_Bp_J) = 0 implies p_S p_B = frac{C}{V}(p_B p_J)$
从 $V(p_Sp_J) + C(p_Sp_B) = 0 implies p_J p_S = frac{C}{V}(p_S p_B)$
代入 $p_J = 1 p_S p_B$
$p_S p_B = frac{C}{V}(p_B (1 p_S p_B)) = frac{C}{V}(2p_B + p_S 1)$
$V(p_S p_B) = C(2p_B + p_S 1)$
$V p_S V p_B = 2C p_B + C p_S C$
$p_S(VC) = p_B(V+2C) C$
$p_S = frac{p_B(V+2C) C}{VC}$
这个推导有点绕,我们可以直接给出结果(这是博弈论的标准做法):
当 V > C (赢的收益大于输的损失):
石头 (Rock) 的出牌概率会相对增加。
布 (Paper) 的出牌概率会相对降低。
剪刀 (Scissors) 的概率介于两者之间,但会比随机出牌时更频繁地对抗“石头”。
为什么是这样?
“石头”是相对“安全”且有进攻性的。它赢“剪刀” (+V),输给“布” (C)。
“布”赢“石头” (+V),但非常怕“剪刀” (C)。当C很大时,这种风险是致命的。
“剪刀”赢“布” (+V),但怕“石头” (C)。
当V远大于C,你最想赢,也最不怕输。
你的“对手”会预测到这点。
如果对手知道你倾向于攻击,他会倾向于防守。
而“石头”可以有效地“阻止”对手出“剪刀”(因为剪刀怕石头)。
所以,石头出牌率提高,剪刀出牌率降低(因为剪刀怕石头),布的出牌率也降低(因为布怕剪刀,而剪刀可能不那么频繁出)。
当 C > V (输的损失大于赢的收益):
布 (Paper) 的出牌概率会相对提高。
剪刀 (Scissors) 的出牌概率会相对降低。
石头 (Rock) 的概率介于两者之间。
为什么是这样?
你最害怕输。
“布”赢“石头”(+V),输给“剪刀”(C)。
“剪刀”怕“石头”(C),赢“布”(+V)。
“石头”怕“布”(C),赢“剪刀”(+V)。
当C远大于V,你最怕输,也最不在乎赢。
“布”似乎成了“避险”的选择。它虽然怕“剪刀”(C),但能赢“石头”(+V)。
“剪刀”因为害怕“石头”(C)而变得危险。
“石头”也怕“布”(C)。
因此,“布”的出牌率会升高,因为它能抓住“石头”的机会(+V),并尽量避免与“剪刀”相遇。
“剪刀”的出牌率会降低,因为它最容易遇到“石头”,而输给“石头”(C)的代价非常高。
策略解倾向于:增加“布”的概率,降低“剪刀”的概率。
5. 策略的应用与启示
这种不同权重的石头剪刀布,不仅仅是一个游戏,它映射了现实生活中许多博弈场景:
商业竞争: 价格战(输了利润大跌,赢了市场份额增加)、产品创新(投入巨大,但成功回报丰厚)。
军事对峙: 冲突升级的代价(C很大),和平谈判的回报(V可能很小,但避免了巨大的C)。
金融投资: 高风险高回报(V很大,C也很可能很大),低风险低回报(V小,C也小)。
作为玩家,我们应该如何做?
1. 评估权重: 明确V和C的相对大小。你的生存(避免大损失)还是你的发展(追求高收益)是首要目标?
2. 观察对手: 对方是和你一样理性,还是更倾向于冒险或保守?他的出牌习惯是否有规律?
3. 保持随机性(但不是平均随机): 除非你完全掌握了对手的策略,否则过度重复某种出牌方式都会让你被抓住“弱点”。你的随机性应该根据你对V和C的分析,以及对对手行为的预测来调整概率。
4. 心理博弈: 最终,这还是一个关于预测和反预测的游戏。理解对方的心理,比单纯计算公式更重要。如果对方是一个极度保守的人,他可能会倾向于“布”;如果你知道他会这样做,你就可以多出“剪刀”来对付他。
结论:
当石头剪刀布的胜负权重不对称时,游戏的核心从“随机对抗”转变为“风险管理与机会把握”。理性的玩家会寻求一种混合策略,调整出牌的概率,以期在面对理性对手时达到纳什均衡,从而最大化长期收益。这种均衡策略,会因为“赢”的诱惑和“输”的恐惧而偏向于特定牌种,例如在“赢利高,输损小”的情况下,“石头”等主动进攻牌的概率会上升;在“输损高,赢利小”的情况下,“布”等规避风险牌的概率会上升。这是一个充满深度和趣味的博弈论应用,展现了理性决策在不确定环境下的复杂性。