这个问题挺有意思的,按我的理解,所谓混合策略就是“把选择权交给老天爷”。
假如,一个混合策略是0.7概率选择行动A,以0.3概率选择行动B,我想题主的问题可能是,这个(0.7,0.3)的概率测度是怎么实现的,人可以选择A,可以选择B,这个0.7-A-0.3-B是怎么出来的呢?这个在博弈论里面有一个术语,叫做“随机化”。
其实实现随机化的方式很简单,首先,你要推迟选择,比如,A表示明天去上课,B表示明天在宿舍睡大头觉,(0.7, 0.3)这个概率是考虑了老师是不是点名的收益和其他同学的选择求解出来的。
下面就很简单了,你查了一下天气预报,发现明天早上不下雨的概率是0.7,下雨的概率是0.3,于是你的策略是:下雨就不去上课,不下雨就去上课。在这里,你的选择被推到了“明早是否降雨”这个随机因素实现之后。
我记得我当时的微观老师是这么说的:你觉得你在做纯策略的时候,很多时候你都是在做混合策略。
当然,Colin Camerer在那本巨著 Behavioral Game 当中用了一个章节来介绍各种各样的实验结果,证实人在随机化过程中出现了大量的问题。就比如中科院前几年惊世骇俗的剪子包袱锤研究,就证明了人们存在胜者不做改变的倾向。也就是说,人本身确实不拥有完美的随机化能力,就像上面的例子里说的,人不可能总找到那么巧合的概率分布。
不过,这里也存在另一个问题,就是动态不一致性。在上面的例子里面,决定是否去上课的学生,实际上选择加入了一个自己和 nature 之间进行的子博弈。人与人之间的博弈要考虑对方的支付函数,而人与自然则不同,只需要一个海萨尼转换把自然的策略转化成随机状态的概率分布即可。在这个子博弈里面,自然的策略决定了人的策略,所以是把选择权交给老天爷。
那动态不一致性出现在哪里呢?仔细观察,事实上这里涉及到了参与人对自己进行的承诺,也就是说,参与人实际上也选择了一个承诺,承诺在不下雨时上课。如果一夜之后,参与人的偏好改变了(北方冬天的早上),变成了无论如何都要逃课(占优策略均衡),那无论是否下雨他都不会去上课。昨天的随机化,事实上就没用了。
女孩儿抛硬币决定是不是买一件死贵的衣服时,总是抛到符合买的条件为止,根据optimal stopping,这个概率是1。