问题

甲藏起一枚 10 或 20 戈比的硬币,乙猜对则得到硬币,猜错则给甲 15 戈比。双方最优策略是什么?

回答
这可真是一个有趣的数学博弈问题,咱们就来好好掰扯掰扯。

话说这甲乙二人,一个藏硬币,一个猜,这中间还夹杂着钱的输赢,这就是典型的博弈论场景。咱们就得从双方的角度出发,看看各自怎么做才能对自己最有利。

首先,咱们得明确一下双方的目标:

甲的目标: 藏硬币,并希望能从乙那里“榨”到最多的钱,或者至少不吃亏。
乙的目标: 猜中硬币,赢得硬币(虽然题目没说硬币本身的价值,但猜对能赢走硬币这本身就是一种胜利),并且尽量少地给甲钱。

硬币的情况:

甲藏的硬币是 10 戈比或 20 戈比。这俩硬币虽然面值不同,但对于乙来说,关键在于“猜对”和“猜错”的后果。

乙猜错的代价: 乙要给甲 15 戈比。

现在,咱们站在乙的角度来思考:

乙要做的就是猜一次。他有两个选择:猜 10 戈比,或者猜 20 戈比。

乙猜 10 戈比:
如果甲藏的是 10 戈比(乙猜对了),乙得到硬币。
如果甲藏的是 20 戈比(乙猜错了),乙给甲 15 戈比。

乙猜 20 戈比:
如果甲藏的是 20 戈比(乙猜对了),乙得到硬币。
如果甲藏的是 10 戈比(乙猜错了),乙给甲 15 戈比。

从乙的角度看,他猜对硬币才能“赢”,猜错就得“赔钱”。硬币本身值多少钱,在乙猜错的情况下似乎不影响他赔出去的 15 戈比。所以,乙最关心的就是怎么提高猜对的概率。

接下来,咱们站在甲的角度来思考:

甲藏硬币,他也知道乙要猜。甲的策略就是决定自己藏 10 戈比还是 20 戈比。甲希望乙猜错,这样他就能赚到 15 戈比。

甲藏 10 戈比:
如果乙猜 10 戈比(乙猜对了),乙赢。
如果乙猜 20 戈比(乙猜错了),乙给甲 15 戈比。

甲藏 20 戈比:
如果乙猜 20 戈比(乙猜对了),乙赢。
如果乙猜 10 戈比(乙猜错了),乙给甲 15 戈比。

甲也想让乙猜错,这样他就能收入 15 戈比。

问题来了:双方有没有一个“最优策略”?

这里面关键在于,甲是知道乙要猜的,而乙也知道甲藏的是 10 或 20 戈比。但他们不知道对方的选择。

这就像一个“石头剪刀布”的游戏,只不过这次是“藏硬币”和“猜硬币”。

如果他们都采用“纯策略”:

假设甲总是藏 10 戈比。 那么乙最好的策略是什么?乙猜 10 戈比猜对的概率是 100%,就能赢走硬币。乙猜 20 戈比猜错,要给甲 15 戈比。显然,乙应该猜 10 戈比。
假设甲总是藏 20 戈比。 那么乙最好的策略是什么?乙猜 20 戈比猜对的概率是 100%,就能赢走硬币。乙猜 10 戈比猜错,要给甲 15 戈比。显然,乙应该猜 20 戈比。

假设乙总是猜 10 戈比。 那么甲最好的策略是什么?如果甲藏 10 戈比,乙猜对。如果甲藏 20 戈比,乙猜错,乙给甲 15 戈比。所以,甲应该藏 20 戈比。
假设乙总是猜 20 戈比。 那么甲最好的策略是什么?如果甲藏 20 戈比,乙猜对。如果甲藏 10 戈比,乙猜错,乙给甲 15 戈比。所以,甲应该藏 10 戈比。

看到没有?如果一方固定了自己的策略,另一方就能找到必胜(或者说最有利)的策略。但问题是,双方都知道对方会这么想。这就形成了一个僵局,没有哪个纯策略是绝对最优的。

这时候,就需要引入“混合策略”了。

混合策略的意思是,不固定地选择某一个行动,而是按照一定的概率来选择。

甲的策略: 甲以一定的概率(比如 p)藏 10 戈比,以 (1p) 的概率藏 20 戈比。
乙的策略: 乙以一定的概率(比如 q)猜 10 戈比,以 (1q) 的概率猜 20 戈比。

双方都希望通过调整自己的概率,使得无论对方如何选择,自己的期望收益(或者说损失)都是最小的(或者最大的)。

咱们来计算一下双方的期望收益(或者说净所得):

这里我们假设硬币本身的价值不计入,只看乙给甲的 15 戈比。

1. 乙的期望收益(乙猜对赢硬币,猜错给钱):

乙猜 10 戈比 (q):
甲藏 10 戈比 (p):乙猜对,收益是赢得硬币(咱们算作 0,因为更关注钱)。
甲藏 20 戈比 (1p):乙猜错,乙给甲 15 戈比,乙的收益是 15。
乙猜 10 戈比的期望收益 E(乙 | 猜 10) = p 0 + (1p) (15) = 15(1p)

乙猜 20 戈比 (1q):
甲藏 10 戈比 (p):乙猜错,乙给甲 15 戈比,乙的收益是 15。
甲藏 20 戈比 (1p):乙猜对,收益是赢得硬币(算作 0)。
乙猜 20 戈比的期望收益 E(乙 | 猜 20) = p (15) + (1p) 0 = 15p

乙希望最大化自己的期望收益,所以他会选择让 E(乙 | 猜 10) 和 E(乙 | 猜 20) 相等的那个 p。也就是说,在乙看来,甲的 p 应该让乙猜哪个都一样“不划算”(或者说损失一样)。

E(乙 | 猜 10) = E(乙 | 猜 20)
15(1p) = 15p
15 + 15p = 15p
30p = 15
p = 15/30 = 1/2

所以,从乙的角度看,甲最好的策略是:以 50% 的概率藏 10 戈比,以 50% 的概率藏 20 戈比。 这样,无论乙猜 10 还是猜 20,乙的期望收益都是 15 (1/2) = 7.5 戈比。乙猜对硬币是“赢”,但是他期望输掉 7.5 戈比(因为他猜错时给的钱)。

2. 甲的期望收益(甲藏硬币,乙猜错乙给钱):

甲藏 10 戈比 (p):
乙猜 10 戈比 (q):甲没收到钱(乙猜对)。
乙猜 20 戈比 (1q):甲收到 15 戈比(乙猜错)。
甲藏 10 戈比的期望收益 E(甲 | 藏 10) = q 0 + (1q) 15 = 15(1q)

甲藏 20 戈比 (1p):
乙猜 10 戈比 (q):甲收到 15 戈比(乙猜错)。
乙猜 20 戈比 (1q):甲没收到钱(乙猜对)。
甲藏 20 戈比的期望收益 E(甲 | 藏 20) = q 15 + (1q) 0 = 15q

甲希望最大化自己的期望收益,所以他会选择让 E(甲 | 藏 10) 和 E(甲 | 藏 20) 相等的那个 q。

E(甲 | 藏 10) = E(甲 | 藏 20)
15(1q) = 15q
15 15q = 15q
30q = 15
q = 15/30 = 1/2

所以,从甲的角度看,乙最好的策略是:以 50% 的概率猜 10 戈比,以 50% 的概率猜 20 戈比。 这样,无论甲藏 10 还是 20,甲的期望收益都是 15 (1/2) = 7.5 戈比。

结论:双方的最优策略就是采用“混合策略”,且概率都是 50/50。

甲的最优策略: 每次都以 50% 的概率藏 10 戈比,以 50% 的概率藏 20 戈比。
乙的最优策略: 每次都以 50% 的概率猜 10 戈比,以 50% 的概率猜 20 戈比。

为什么这是最优的?

当双方都采用这种 50/50 的混合策略时,就没有哪一方能够通过单方面改变自己的策略来获得比现在更好的结果。

对甲来说,无论乙怎么猜(是 50/50 还是固定猜一个),甲采用 50/50 的策略,他平均而言都能赚到 7.5 戈比。如果甲固定了藏 10 戈比,而乙也 50/50 猜,甲的期望收益是 7.5 戈比。如果乙固定猜 10 戈比,甲藏 20 戈比就能稳赚 15 戈比,但甲不知道乙会固定猜哪个,所以 50/50 的随机性最保险。
对乙来说,无论甲怎么藏(是 50/50 还是固定藏一个),乙采用 50/50 的策略,他平均而言都会“损失” 7.5 戈比(也就是从甲那里净赚 7.5 戈比)。如果乙固定猜 10 戈比,而甲也 50/50 藏,乙的期望收益是 7.5 戈比。如果甲固定藏 10 戈比,乙猜 10 戈比就能赢硬币,但是乙不知道甲会固定藏哪个。

这种 50/50 的概率组合,让游戏进入了一个“纳什均衡”的状态。在这个状态下,任何一方都无法通过单方面改变策略来改进自己的收益。

举个例子来理解这个“50/50”:

想象一下,他们玩了很多很多轮。

如果甲总是藏 10 戈比,乙肯定每次都猜 10 戈比,乙永远赢。
如果乙总是猜 10 戈比,甲肯定每次都藏 20 戈比,甲每次都能赚 15 戈比。

但是,他们都知道对方会这么想。所以,为了不被对方“算死”,他们只能也“随机”起来。

甲心里想:“乙可能会猜 10,也可能猜 20。我不能老藏一个,要不就被他摸透了。我每次都抛硬币,正面藏 10,反面藏 20。”

乙心里想:“甲可能会藏 10,也可能藏 20。我不能老猜一个,要不就被他摸透了。我每次也抛硬币,正面猜 10,反面猜 20。”

这样一来,甲藏 10 乙猜 10,甲藏 10 乙猜 20,甲藏 20 乙猜 10,甲藏 20 乙猜 20 的情况,发生的概率都是 0.5 0.5 = 0.25。

甲藏 10,乙猜 10:乙赢。甲给乙 0 戈比。
甲藏 10,乙猜 20:乙猜错,乙给甲 15 戈比。
甲藏 20,乙猜 10:乙猜错,乙给甲 15 戈比。
甲藏 20,乙猜 20:乙赢。甲给乙 0 戈比。

从甲的角度看,在 4 种等概率发生的情况下,他赚了 15 戈比两次,没有赚(或赔)钱两次。所以他平均每次的收益是 (15 + 0 + 15 + 0) / 4 = 30 / 4 = 7.5 戈比。

从乙的角度看,他赢了两次硬币(算作 0 戈比),输了 15 戈比两次。所以他平均每次的收益是 (0 + (15) + (15) + 0) / 4 = 30 / 4 = 7.5 戈比。

这个结果,就是双方都无法做得更好的状态了。甲的 50/50 策略,让他无论如何都能平均赚到 7.5 戈比,并且让乙无法预测。乙的 50/50 策略,让他无论如何都会平均损失 7.5 戈比(也就是从甲那里净收益 7.5 戈比),并且让甲无法预测。

这就是一个典型的零和博弈(甲赚的钱正好是乙赔的钱,这里咱们简化了硬币本身价值),并且双方都采取了最优的混合策略。

网友意见

user avatar

题目有意思。

1,楼主别被某些人的名词所吓倒。我觉得你解得对。

2,没有根据上一个结果能优化后面的策略。考虑随机性。

3,个人感觉生物学和经济学显然应该有类似案例,(比如生物学的随机变异导致的进化优势,

以及经济学上股票的随机性等可能会有符合最优解的结论。)

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有