问题

为什么「正态分布」在自然界中如此常见?

回答
为什么“正态分布”在自然界中如此常见?

正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),之所以在自然界中如此普遍,并非偶然,而是背后深刻的统计学原理和现象规律的体现。简单来说,正态分布之所以常见,是因为许多复杂的随机现象,在众多相对独立且微小的随机因素的累加作用下,最终会趋向于呈现出正态分布的形态。

为了更详细地解释这一点,我们可以从以下几个方面来深入探讨:

1. 中心极限定理(Central Limit Theorem CLT)的核心作用

这是解释正态分布普遍性的最核心、最关键的理论。中心极限定理是概率论中的一个基石性定理,它的核心思想是:

“无论原始总体的概率分布是什么样的,只要我们从这个总体中抽取足够多的样本,并计算这些样本的平均值(或其他统计量),那么这些样本平均值的分布就会越来越接近正态分布。”

让我们来拆解这个定理的含义,并与自然界中的现象联系起来:

“足够多的样本”: 在自然界中,很多现象并非由单一因素决定,而是由大量的、微小的、相互独立的随机因素共同作用的结果。例如,一个人的身高受到许多基因、营养、环境等因素的影响;一个产品零件的尺寸偏差可能源于原材料的微小差异、生产设备的随机波动、操作员的细微误差等等。这些因素可以被看作是独立的随机变量。
“平均值(或其他统计量)的分布”: 当我们关注的是这些累加因素的“平均效应”或者“总体结果”,即使每个独立的随机因素本身的分布可能非常复杂(不一定是正态分布,甚至可能是均匀分布、指数分布等),它们的平均值(或其和,因为均值是和的平均)的分布,随着样本量的增加,会越来越逼近正态分布。
“越来越接近正态分布”: 这意味着,即使我们观察到的现象本身不是严格意义上的正态分布,只要其背后是由许多独立随机因素累加而成,我们对它的抽样平均值进行观测时,就会发现其分布逐渐向钟形曲线靠拢。

举个例子来理解:

想象一个弹珠从一个漏斗状装置(例如“高斯轮盘”或“盖尔顿板”)上方落下。这个装置有很多层钉子,弹珠在下落过程中会随机地向左或向向右弹。

每一层钉子对弹珠落点的微小影响都可以视为一个独立的随机事件(向左为1,向右为+1,假设概率各占一半)。
弹珠最终落在哪一个槽里,取决于它在下落过程中累积的左右弹跳次数的总和。
根据中心极限定理,大量的左右随机弹跳(累加效应)会导致弹珠最终落入中间槽(对应于零的累加)的概率最高,而偏离中心越远(累加的左右偏差越大)的概率越低。最终,弹珠在各个槽中的分布就非常接近正态分布。

自然界中的很多现象也是如此。例如,测量一个物体的长度,可能存在来自测量工具的随机误差、环境温度的微小变化、材料本身的随机缺陷等多种因素,这些因素相互独立且影响微小,它们累加起来就会导致测量结果呈现出正态分布。

2. 随机误差的累加效应

许多科学测量和自然过程都存在随机误差。这些误差往往是微小的、不可预测的,并且可能源于许多不同的来源。当这些独立的随机误差累加在一起时,它们往往会相互抵消一部分,使得最终结果更倾向于集中在平均值附近。

误差的相互抵消: 正态分布的对称性就反映了这种误差的抵消。误差往大的方向偏(例如测量值偏高)和往小的方向偏(例如测量值偏低)的概率是相等的。当有许多微小的误差源时,这些正负向的误差就会以非常高的概率相互抵消,使得最终的测量值或现象的结果非常接近真实的平均值。
中心强两边弱: 正态分布的钟形曲线形态表明,最可能的结果是接近平均值,而远离平均值的结果发生的概率则随着距离的增加而指数级下降。这恰恰符合随机误差累加的规律。

3. 趋于平衡和稳定的状态

自然界中的很多系统,在经历了一系列随机扰动后,往往会趋于一种相对稳定和平衡的状态。这种平衡状态的形成也与正态分布密切相关。

系统动态的平衡: 考虑一个动态的系统,例如在一个容器中的气体分子。分子的速度和能量受到碰撞的随机影响,但整体上它们会分布在一个统计学上的平均状态,即麦克斯韦玻尔兹曼分布,而这个分布在某些条件下(如温度和压力恒定时)与正态分布有很强的关联性,或者说其某些统计量会呈现正态分布的特征。
自然选择的压力(广义理解): 在生物进化中,虽然“适者生存”听起来像是一个极端筛选,但个体变异的累加和环境的复杂选择压力,使得最终能够成功繁衍的个体,其性状的分布往往会呈现某种程度的集中,尤其是在特征的平均值附近。当然,这里不是直接应用CLT,但也可以理解为,许多微小的有利或不利变异在漫长的演化过程中,其累加效应也可能使得群体特征分布趋于某种稳定形态。

4. 实际例子

为了进一步说明,我们可以列举一些自然界中正态分布的常见例子:

人的身高和体重: 在一个特定人群中,身高和体重的数据分布通常非常接近正态分布。
考试成绩: 在一次大规模的考试中,如果试题难度适中,大多数学生的成绩会集中在平均分附近,少数学生成绩极高或极低。
测量误差: 任何科学测量都会存在误差,这些误差(如仪器的精度限制、人为操作的微小差异等)累加后往往呈现正态分布。
自然界的某些物理量: 例如,风速、降雨量(在特定区域和时间段内)、某些放射性衰变事件的发生间隔时间(在某些近似条件下)等。
生物测量: 例如,叶片的长度、花瓣的数量(在同一株植物或同一样品中)等。
金融市场: 股票价格的日收益率在短期内通常被认为是符合正态分布的,尽管长期来看可能存在“肥尾”现象(即极端事件发生的概率比纯粹正态分布预期的要高)。

总结

正态分布之所以在自然界如此普遍,是因为它深刻地反映了大量独立微小随机因素累加作用下形成的统计规律。中心极限定理是理解这一现象的基石,它告诉我们,即使原始分布未知,许多随机变量的平均值也会趋于正态分布。此外,随机误差的相互抵消以及系统趋于平衡的内在动力学,也共同促成了正态分布的广泛出现。

因此,当我们观察到自然界中的一个现象似乎呈现出“钟形曲线”的特征时,我们不必惊奇,这往往是背后深刻的统计学原理在起作用,是对自然界复杂性的一种简洁而有力的描述。

网友意见

user avatar

这个问题很有趣。目前的答案中,我最赞同

@onion red

的答案。

自然界最常见的分布并非是正态分布。

@枭枭

的答案中提到的正态分布是最大熵的分布,这是对于封闭的系统而言存在概率最大的分布。他提到了熵增原理,也就是说,我们如果先默认熵增原理成立,那么必须假定系统是封闭系统。而最大熵的分布对于热力学系统而言,正是当系统处于热力学平衡态时的分布。他不是装逼,只是从物理的角度,假设一个理想的情况下,来考虑这个问题。

然而自然界最常见的分布并非是正态分布,对于热力学语言之下,这是因为自然界大多数的系统都并不是完美的处于热力学平衡态的封闭系统。在数学的视角下,它们彼此之间不是独立的,而是存在错综复杂的相互作用,不适用中心极限定理。严格的来说,自然界几乎处处都是开放的、有各种相互作用的系统,还存在许多自组织系统,即那些可以从比较混乱的初始状态,仅仅是由其局域的动力学规则,演化成有规律的体系的系统。

有更多的系统最多只能近似的、或局域(时间或空间意义下)的可以看做处于热力学平衡态,近似的看作其中的变量相互独立,或压根就不能那样考虑。

比如说生物的细胞中,由DNA转录为RNA、再由RNA翻译为蛋白质,然后蛋白质与蛋白质发生相互作用,或可以调控转录,这样的过程,其copy number经常并不多,而其反应过程的特征能量又与常温下的随机热扰动的能量量级不相上下,所以可以想见,其涨落非常大。生物系统正是不断地从外界摄取能量,自组织的完成一定的功能,维持低熵状态的系统。它并不适用于用热力学平衡态的那套模型去研究,也不服从正态分布。

@onion red

提到了Zipf's law,这样的分布在之前被认为是一个fine-tuning 的问题(fine-tuning 的问题我们通常认为是个问题),也就是说需要系统得到精确的调控,才可以实现。然而今年有篇PRL文章提出了一种可以由系统中的随机变量导致Zipf's law的具有一定普适性的机制,请看这篇文章:

Phys. Rev. Lett. 113, 068102 (2014)

而生物系统这样的自然体系,在漫长的演化之后,还形成了一些比较好玩的规则。比如如果单从动力学网络结构的角度来看,生物系统对应的网络拓扑结构的熵总是比较低的。也就是说,不光从物理上,其系统的熵比较低,从这种非物理的、仅仅在动力学结构的意义上而言,它的熵也低。请参考这篇文章:

PLOS Computational Biology: Identification of a Topological Characteristic Responsible for the Biological Robustness of Regulatory Networks

所以说,你看,自然界其实是在不同的规则之下,有不同的机理,演化出不同的分布呢。

目前为止,人们总是认为自然界里各种类似生物这样的系统是很复杂的,没有普遍规律,而要case by case讨论的系统,这么认为的生物学家、化学家非常多。而物理学家又往往更多的研究一些更理想的系统(经常不是自然界本身就符合的,比如真空中的球形鸡),倾向于去寻找更简单的、普适的规则。我不敢去评论谁对谁错,然而我总是期望着,如果哪一天我们对物理更了解,对数学更了解,也对生物、化学更了解,我们就能在更为普遍的意义下,去建立一套描述生物系统之类系统的数学语言。如果哪一天我们真的能够窥见自然界普遍存在的复杂系统的“牛顿三定律”,那么我们也许会开始惊叹自然界其实比我们想象的要聪(tou)明(lan)。

user avatar

对这个问题的研究,可以写好多本书,而且是还没有写出来,人类还不知道那种 :)

需要修正一下你的看法,自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。你可以搜索一下heavy tail, zipf law之类的关键词。事实上,高斯分布更常见于人造体,而非自然界。原因为啥,我下面讲。

高斯分布怎么来的,很简单。只要你观察的系统里,各种对象之间关联很弱,那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。你看我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。

但自然界呢,假如有个造物主,它造东西跟人类的思路就很不一样。它手里的作品是“生长”出来的。比如我们人,从一个受精卵发育而来,各个部分强关联,受精卵上一点缺陷,会反映到整个人体的巨大影响。这和桌子有本质区别,就算桌子原始材料有个洞,也不可能造出来桌面和桌腿都很多洞。“生长”这个过程到底服从什么本质的数学规律,我们人类还不确切知道。从2000年以后,学界的研究集中于通过随机游动,扩散这样的动力学行为来对“生长”出来的系统(复杂系统)尝试寻找类似于模块系统的中心极限定律的总体规律。有一些进展,但是还没有特别令人信服的突破性结论。

user avatar

自然界中存在大量的正态分布,比如女性的身高:

图片出自 这里

正态分布的英文名为:Normal Distribution,台湾翻译为常态分布,可见一斑。可是为什么这么常见呢?

每个人都相信它(正态分布):实验工作者认为它是一个数学定理,数学研究者认为他是一个经验公式。----加布里埃尔·李普曼

1 高尔顿钉板

查尔斯·达尔文的表弟,英格兰维多利亚时代的博学家、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家。

他发明了一个叫做高尔顿钉板的装置,展示了正态分布的产生过程:



https://www.zhihu.com/video/938846900162686976



1.1 细节

我们来看看高尔顿钉板的细节,或许有助于我们理解正态分布为什么常见。

弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:



一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布:

1.2 扯淡

自然界中为什么会有那么多正态分布?下面开始胡诌了。

比如开头提到的女性身高,受到多个因素的影响,比如:

  • 父母身高
  • 家里面的饮食习惯,比如吃素还是吃荤,吃牛肉还是吃猪肉
  • 是否喜欢运动,喜欢什么运动

这些影响,就好像高尔顿钉板中的钉子:

要不对身高产生正面影响,要不对身高产生负面影响,最终让整体女性的身高接近正态分布。

中心极限定理说了,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布,其中有三个要素:

  • 独立
  • 随机
  • 相加

每次采样受到各种随机性的支配,就好像钉板中的钉子,对采样结果进行或者正面、或者负面的影响,最终让结果形成了正态分布。

高尔顿钉板还有两处细节:

  • 顶上只有一处开口:这是要求弹珠的起始状态一致。类比女性身高的例子,就是要求至少物种一致,总不能猪和人一起比较。换成数学用语就是要求同分布
  • 开口位于顶部中央:这倒无所谓,开在别的位置,分布形态不变,只是平移

2 为什么还有很多不是正态分布?

在医学研究中很多分布就不是正态分布,对实施了前列腺癌症治疗的病人进行前列腺特异性抗原(Prostate specific antigen)的检测,检测结果的分布不是正态分布:

这里可能有两个原因导致了这一现象。

首先,样本取自实施了前列腺癌症治疗的病人,这些病人往往有各种各样的疾病,并不是全体人类样本,也就是说不够随机,所以结果很可能会偏向某一边。

其次,癌症并非是相加,癌细胞的分裂更像是乘法:



数学中,可以通过对数来把乘法变为加法:

因此我们对之前的数据取自然对数,结果就接近于正态分布了(这就是对数正态分布):

看上去还有点偏向左边,或许是因为采样不是取自全体人类,导致随机性不够。

以上数据及图片来自于《What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics》。

财富分布也是有乘法效应在里面,这就是所谓的“马太效应”:

多说几句自己的感想吧,对于财富分布,我们大家肯定都希望自己往横坐标的右侧靠近。

那么在每次碰到钉板中的钉子时,都需要做出往左走还是往右走的选择,所以我们需要努力提高自己,使自己的选择比扔硬币的正确率高,减少随机性,这样才能尽量往右走。

以后回答为什么要学习?“因为正态分布啊!”

文章最新版本在(有可能会有后续更新):为什么正态分布如此常见?

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有