概率（Probability）的本质是什么？第1页

reinhardtjin 网友的相关建议:

民科强答，数学废渣，语言不严谨。写这个答案纯属抛砖引玉以及安利“信息论大法好”。

假定我们有一堆东西，每个东西都可以被（管它多少维）某个空间里的一个点来表示，并且它们把这个空间填满了。那么如果我想知道某一类东西到底有多少，我既可以数东西本身，也可以数它对应的点。

上面这两句里有不少可以规范化和推广的地方。比如说什么叫“某一类”东西，可以用条件语句来规范化，也可能可以用别的。比如说“数”，可以推广到“测”。

如果对于“一堆东西”中的每一个，我们都知道它对应的点在哪，那么对于任何“一类东西”，我们都知道它对应的点集是啥。这个点集的测度我们可以相应得到，它经过标准化后，就是这“一类东西”的频率，也就等于简单随机抽样抽中抽到这“一类东西”里的“某个东西”的概率。

这是频率学派想说的意思。

假定我们并不知道“一堆东西”中的每一个对应的点在哪，但是我们知道一部分点在哪。根据“这些点在哪”这个信息，我们希望去猜任何“一类东西”的频率。这一般有无限种猜法。有一些猜法可以被我们已知的信息排除，另一些猜法我们不能根据已知信息排除。我们需要利用已有的信息，在没被排除的猜法中找到一个和关于“一堆东西”的所有信息最接近的一个。

如果来了新的信息，我们可以根据新的信息，改变（更新）根据已有信息做出来的“最佳猜测”。

这是贝叶斯学派想说的意思。

说到这当然不算完，毕竟在说贝叶斯学派时有一个关键点没说：什么叫做“最接近的一个”。

我们回到最开始。我们已经把一堆东西看成了某个空间里的一坨点，意味着我们也可以把任何一个猜测看做在这个空间里的一坨点。那么“最接近”的意思是，两坨点之间的差别最小。假如我们知道所有的信息，那么一定存在一个基于这些信息的猜测，使得这两坨点之间没有任何差别。如果我们不知道所有的信息，那么尽管我们的所有可行猜测中一定有一个是和前一坨点没有差别的，但是我们并不知道到底哪个是。于是我们的任务变成了找出“哪个最可能是”。

现在考虑两个可能的信息集合——全集和空集，以及一个度量——信息熵。香农的开创性工作已经证明了信息熵作为一个对信息含量的度量，具有一些很好的性质。那么，假定我们有一个从空集给出的最好的猜测，同时有一个基于全集得到的真实频率。那么对于任何一个信息集，在其上的最佳猜测到真实频率的距离（和距离空间里的“距离”不是一个意思，这里只能叫“divergence”，Kullback-Leibler divergence），都不超过基于空集得到的最佳猜测到真实频率的距离。换言之，基于任何一个信息集，还原全集的努力是有上限的。所以我们拿到信息集后要做的就是去够这个上限。它是一种判断“哪个最可能是”的方法。

引入了信息及其度量后，事实上我们可以把频率学派的看法和贝叶斯学派的看法统一起来（应该不是唯一的统一方式），得到这样一个观点：概率无非是用已知的信息还原更多的信息的一类手段。频率学派和概率学派的区别在于选择这一类手段中的哪些，换句话说，就是“已有信息怎么用”。

yu-guang-tong-chen-99 网友的相关建议:

这个问题严格说来有两层含义：

（1）含有概率的陈述（probabilistic claims）的含义是什么？当人们说“掷硬币正面朝上的概率是50%，” 这是什么意思？

（2）概率现象是如何形成的？造成概率现象的原因是什么？

首先考虑：含有概率的陈述（probabilistic claims）的含义是什么？

当我们说，

“这个粒子衰变的概率是50%；”

“掷硬币正面朝上的概率是50%；”

“这个手术成功的概率是60%；”

“Trump被弹劾的概率是5%；”

都是什么意思？

想象一下一个听得懂中文但是不理解概率这个概念的克鲁星人来到地球问你：“掷硬币正面朝上的概率是50%”是到底是个什么意思？

你解释道：如果你掷很多次硬币，其中一半的时候是正面朝上。

克鲁星人：那如果我抛硬币10次，一定会有5次正面朝上喽？

你：不，要更多次才行。

克鲁星人：那是抛硬币100次，一定会有50次正面朝上咩？

你：额不是。。。

克鲁星人：那抛硬币一百万次，一定会有五十万次正面朝上咩？

你：还是不够多次。。。

克鲁星人：那一百亿次呢？

你：额不。。。应该说是抛硬币无限次，正面朝上的比率是50%。

克鲁星人：我不懂你在说什么> < 抛硬币无限次，无论哪面朝上也都有无限次，怎么算比率？

即便可以算比率，我不明白地球人为什么会对概率感兴趣--你们难道没事要抛个无限次硬币玩吗？地球人还说，某个病人手术成功的概率是60%—但没有人会做无限次的手术呀。

你：额。。。我不是说真要抛硬币无限次。我是想说取极限：当抛硬币的次数趋近于无限次，正面和反面的比率是5：5；更确切地说，取次数趋近于无限次的极限，正面和反面的比率不是5：5的概率趋于0。

克鲁星人：等等！你的解释用了概率这个词！都跟你说人家不懂概率啦，用概率解释概率，更搞不清啦讨厌~

要是再解释不清的话，

哦~科科~

你：啊啊啊啊啊要死啦要死啦！！难道地球的命运就要这么毁在我的手里了？！明明概率论的数学假设和定义都很清楚啊，要解释概率到底是什么，看起来也只是需要澄清一些概念上的细节而已啊！为什么却这么困难？！

有什么人是专门研究这个问题的吗？平时应用概率论的时候也没什么大问题啊，什么人会这么蛋疼地研究这个问题？！

这时候你挖出来因为没什么用被丢在角落无人问津、平时只能吃土的哲学家朋友。。。

TA一脸恹恹地跟你说：这其实是一个非常深刻的哲学问题，一般被称作“概率的解释（interpretations of probability）”。“概率”这个在日常对话中看起来无害的概念，实际上会带来非常严重基础性问题。解释概率的相关理论一般可以划分为两大传统：贝叶斯派和客观概率派。

（一）贝叶斯派（主观概率派）

贝叶斯派用信念的强度（degrees of partial belief）来定义概率。根据这个定义，概率并不是关于物理系统的，而是关于物理系统和我们之间的关系。

比如说，在经典力学的框架下，掷硬币这样的事件是完全决定性的（fully deterministic）：大概来说，硬币和其所在环境的组成的物理系统在某个时刻的状态是由其前一个时刻的状态决定的。如果我们知道这个系统的初始状态，知道组成这个系统每一个粒子最开始的速度和位置，原则上通过经典的动态方程，可以计算出这个系统在之后每一个时刻的状态。也就是说，硬币落地的朝向是完全由其初始状态和物理定律决定的；而如果知道硬币、掷硬币的手、周围空气的分布，硬币落下接触的地面等等每一个细节，原则上我们是可以准确预测出最后硬币是朝上还是朝下的。

但是，很明显，由于我们平时不知道这些细节，无法做出精准的预测，只能预测一个大概的结果，而这个结果就是通过概率的形式来表达的。

根据贝叶斯派，概率代表了我们对于某个事件的信念。如果我们相信这个事件一定会发生，概率则为1；如果我们相信这个事件一定不会发生，概率则为0；如果我们相信这个事件有可能发生，而测量关于它会发生这个信念的强度就是概率，介于0和1之间。

贝叶斯派还面临着很多问题。比如说：

（1.1）我们是会有“川普会被弹劾”的信念，这个信念的强度也许比“宇宙存在外星人”要弱，但这并不代表对应着某个信念的强度存在着一个确切的数字。

（1.2）为什么测量信念的强度满足关于概率的形式上的公理？

（1.3）如果概率只是对于人们信念强度的测量，那么每个人对于同一个事件会有不同的信念，也就会给出不同的概率。但是，一般认为像掷硬币这样的事件是存在一个客观的、在不同的人之间统一的概率的。

我会在另一个答案讨论贝叶斯派是如果应对这些反对意见的。

（二）客观概率派

相比贝叶斯派，客观概率派认为概率是关于客观世界的，关于物理系统的，独立于人们对世界的信念。

（2.1）原始派（Primitivism）

原始派宣称，概率是单个物体或者整个系统的一种原始的属性（primitive property），无法用非概率的语言来解释。比如在欧几里得几何学中，点就是一个原始概念，你无法解释点是什么。如果克鲁星人说不懂概率是什么的话，要么它们是在撒谎，要么对于它们而言没有任何可以理解概率的希望。为什么你会觉得我们可以用非概率的语言来解释概率是什么？

原始派一般和倾向派（propensity）被划分为同一个观点。倾向派认为作为原始属性代表了物理系统具有某种倾向（or disposition, tendency）。比如盐在水中会有溶解的倾向；硬币被抛后有朝上或者朝下的倾向。波普（对，可证伪的那个波普）就是一个倾向派。

原始派的观点乍看起来也许符合我们日常的直觉。事件和事件之间是有区别的：有的事件会决定性地发展（比如，如果我松手，一般情况下，球会决定性地落在地上，而不会飞上天去；比如，如果有一屉虾饺摆在我面前，就会决定性地被我吃掉），而有的事件则会概率性地发展（比如，这个粒子在接下来可能会衰变，也有可能不会衰变）。而这决定性和概率性都是由事物（或者事件）的本质属性决定的。

（2.2）频率派（Frequentism）

如名字所示，频率派直接将概率和频率化作等号。

频率派的问题其实在开头和克鲁星人的对话中已经有所提及了。概括来说就是，也许用频率来解读概率看起来符合直觉，但事实上频率和概率并不完全相等。

我们能做到的最好的证明是大数定则（the Law of Large Numbers），但大数定则并没有从真正意义上解决问题。

（2.21）最好的系统（The Best-System View）/休谟式解释（the Humean Account）

这是频率派目前最被看好的一个分支。这个学派将概率和自然法则的解释联系起来。关于对自然法则的理解，具体内容还要参考：因果关系是真实存在，还是我们认识世界的一种方法？ - 知乎

简单来说，根据简单性（simplicity）和信息量（informativeness）的平衡，我们从众多不同的科学理论的系统中选出最好的一套系统；如果一个自然规律（regularity）是这套系统内的定律，那么这个规律就是自然法则（a law of nature）。

有些自然法则是决定性的（deterministic）--比如说牛顿定律，而有些则是概率的（probabilistic）--比如说量子力学中的玻恩定则（Born Rule）。

举个简单的例子，如果想要描述一系列投硬币的事件。完整的描述是细数每一个事件情况：第一次硬币朝上，第二次朝下，第三次朝下......列出一个长长长长长长长的名单。这样的描述信息量很大，但是并不简单。一个简单的描述方式是：投硬币的结果有两种可能性，其中正面朝上的概率是50%，背面朝上的概率是50%，这里的概率就是频率。虽然这种描述方式并不完全准确（如之前所述，概率和频率并不完全相等，但这并不影响。通过牺牲一部分的信息量，我们得到了更简单的描述--从这个角度来讲，这种概率式的描述，相比完整的名单来说，达到了在简单性和信息量上的更好的平衡。也就是说，作为频率派的一个分支，最好的系统解释并不面临传统频率派所面临的致命问题。

相比原始派，一个概率性的和一个决定性的系统并没有本质上的区别：没有什么更深层的动力属性（对于原始派来说，就是原始属性，或者概率倾向probabilistic propensity）来解释一个系统的概率性，或者决定性。概率性法则和决定性法则不过是我们描述、归纳事件和规律的不同方式罢了。也就是说，概率并没有什么神奇的地方，只是一种更精简的描述世界的方式。

之后会在另外一个答案中更详细地讨论对贝叶斯派和两种客观概率派的反驳，以及它们支持者对反驳的解决方法。

-----------------------------------------------------------------------------------------------

有小伙伴问到了，再啰嗦两句：贝叶斯概率和客观概率并不一定是完全不兼容的。实际上，学界很多人持有的是多元论的观点（A Pluralist View about Probability）。根据这个观点，我们同时有客观概率和主观概率。

如果有客观概率的话，很自然地，我们还面临着如何认知这客观概率的问题。哲学家David Lewis提出了如何联系客观概率和主观概率的原则，叫做The Principal Principle（原则原则）。

妈妈说答案写得太长长长长长长长长长长长长长长长会没有人看，至于（2）概率现象是如何形成的？造成概率现象的原因是什么？答在概率到底是由什么决定？ - 知乎（同时发的答案，这个基本木有人看，球看～打滚～

给每个答案都看了的小伙伴比心~~

参考文献：

Lewis, David. “A Subjectivist's Guide to Objective Chance.” In Philosophical Papers Volume II. New York: Oxford University Press, 1987.

Lewis, David. Philosophical Papers. New York: Oxford University Press, 1986.

Loewer, Barry. “Determinism and Chance.” Studies in History and Philosophy of Science Part B: Studies in History and Philosophy of Modern Physics 32, no. 4 (2001): 609-620.

Maher, Patrick. Betting on Theories. Cambridge: Cambridge University Press, 1993.

Poundstone, William. “Omniscience: Newcomb’s Paradox.” In Labyrinths of Reason: Paradox, Puzzles, and the Frailty of Knowledge. Anchor, 2011.

Sklar, Lawrence. Physics and Chance: Philosophical Issues in the Foundations of Statistical Mechanics. Cambridge: Cambridge University Press, 1995.

Wallace, David. The Emergent Multiverse: Quantum Theory According to the Everett Interpretation. New York: Oxford University Press, 2012.

图片出自Rick and Morty，克鲁星人是其中没事找事射人家星球的外星人。

概率（Probability）的本质是什么？的其他答案点击这里

概率（Probability）的本质是什么？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

概率（Probability）的本质是什么？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

概率（Probability）的本质是什么？第1页