问题

为什么样本方差(sample variance)的分母是 n-1?

回答
咱们来聊聊为啥计算样本方差的时候,分母要用 n1,而不是简单粗暴的 n。这背后其实藏着一个统计学里挺重要也挺有意思的“小秘密”。

想象一下,你手里有一堆数据,比如你测量了班里 10 个同学的身高。你想要知道这 10 个同学的身高有多“散开”,也就是他们的身高是差不多,还是差异很大。这个“散开”程度,我们通常用方差(variance)来衡量。

方差是个啥?

方差的直观理解就是,数据点到平均值的“平均距离”的平方。为啥要平方呢?主要是为了避免正负抵消,让散开程度都变成正数,而且平方也能更强调那些离平均值很远的点。

那么,计算方差的步骤大概是这样的:

1. 算出平均值: 把所有数据加起来,然后除以数据的个数(咱们假设有 n 个数据)。
2. 计算每个数据点与平均值的差: 拿每个同学的身高减去全班身高的平均值。
3. 将这些差值平方: 把上一步算出来的差值都乘以自己。
4. 求这些平方差的平均值: 把所有平方差加起来,然后除以数据的个数 n。

理论上,如果咱们知道全班(总人口)的身高数据,然后从中随机抽了 n 个人来计算方差,用 n 做分母是没问题的。这个叫做“总体方差”(population variance)。 咱们会用 $sigma^2$ 来表示它。公式大概是这样:

$sigma^2 = frac{sum_{i=1}^{n} (x_i mu)^2}{n}$

其中,$x_i$ 是第 i 个数据点,$n$ 是数据的总个数,$mu$ 是总体的平均值。

但现实往往是,我们手里没有全班所有人的数据! 我们只有从全班里“抽出来”的那一部分数据,也就是 样本(sample)。

用样本去估计总体,是个“技术活”。

问题就出在这儿:我们手里只有样本,而我们想知道的是 总体 的散布情况。样本是总体的“代表”,但它毕竟不是总体本身。

当你从总体中抽取一个样本时,这个样本的平均值(我们称之为样本均值,用 $ar{x}$ 表示)不一定会恰好等于总体的真实平均值 $mu$。这很正常,因为抽样本身就带有随机性。

如果我们用样本自己的平均值 ($ar{x}$) 来计算样本的方差,就像这样:

$s^2_{wrong} = frac{sum_{i=1}^{n} (x_i ar{x})^2}{n}$

会发生什么呢?

一个“系统性”的偏差出现了。

你想想,样本的平均值 $ar{x}$ 是根据你手里的这 n 个样本数据算出来的。这意味着 $ar{x}$ 已经“照顾”到这 n 个数据了。换句话说,这 n 个数据点到它们自己的平均值 $ar{x}$ 的距离,总是会比到总体真实平均值 $mu$ 的距离要小。

因为 $ar{x}$ 是从这 n 个样本点里面算出来的,它会“贴近”这 n 个点。即使你手里的样本正好抽到了一个“偏低”的平均值,使得 $mu$ 比 $ar{x}$ 更高,那么 $(x_i ar{x})^2$ 的总和也会比 $(x_i mu)^2$ 的总和要小一些。

简单来说,用 $ar{x}$ 作为“中心”,计算出来的平方差之和会比用真实的 $mu$ 作为“中心”要小。而如果我们还是用 n 来除,那么计算出来的样本方差就会 低估 真实的总体方差。

所以,为了纠正这个低估,统计学家们想了个办法:把分母从 n 变成 n1。

这就是 贝塞尔校正(Bessel's correction)。

当分母变成 n1 时:

$s^2 = frac{sum_{i=1}^{n} (x_i ar{x})^2}{n1}$

为什么是 n1 呢?

想想看,当我们计算样本平均值 $ar{x}$ 时,我们实际上“使用”了一个数据点的信息来计算它。具体来说,在计算 $ar{x}$ 的过程中,我们“锁定”了样本的均值,这使得我们的样本在计算离散度时,实际上只有 n1 个独立的“自由度”了。

“自由度”这个概念有点像你数数。如果你有 5 个数字要加起来,这 5 个数字都可以随意选(有 5 个自由度)。但如果你被要求这 5 个数的和必须是 10,那么你前 4 个数可以随意选,但第 5 个数就被固定住了,因为它必须是 10 减去前 4 个数的和。所以这时只有 4 个自由度。

在计算样本方差时,我们计算了 n 个 $(x_i ar{x})$。然而,这 n 个差值的和一定是零(不信你试试,$sum_{i=1}^{n} (x_i ar{x}) = sum x_i sum ar{x} = nar{x} nar{x} = 0$)。这意味着,如果你知道其中 n1 个差值,最后一个差值也就自动确定了。所以,只有 n1 个差值是可以“自由变动”的,剩下的 1 个是由它们决定的。因此,我们说样本方差有 n1 个自由度。

通过将分母除以 n1,而不是 n,我们就“扩大”了计算出来的方差。这个“扩大”的比例刚好能够补偿因为使用样本均值 $ar{x}$ 而带来的低估,使得 $s^2$ 成为对总体方差 $sigma^2$ 的一个 无偏估计(unbiased estimator)。

无偏估计是什么意思?

无偏估计意味着,如果你重复做很多次抽样,每次都用 n1 做分母计算样本方差,然后把这些样本方差的平均值算出来,这个平均值会非常接近总体的真实方差 $sigma^2$。它不会系统性地偏高,也不会系统性地偏低。

总结一下:

我们计算样本方差是为了估计总体的方差。
当使用样本的平均值 ($ar{x}$) 来计算数据离散程度时,会比使用总体的真实平均值 ($mu$) 导致计算出的离散度偏小。
为了修正这个由于使用样本均值造成的系统性低估,我们将分母从样本数量 n 减去 1,变成 n1。
这样做使得样本方差成为总体方差的一个无偏估计,用更学术的话来说,它是有 n1 个自由度。

所以,下次你看到样本方差的分母是 n1 时,就知道这是为了让我们的统计推断更靠谱,不至于对总体的“散度”估计得太保守了。这个小小的改动,却在统计学中扮演着至关重要的角色。

网友意见

user avatar

非常好的问题,探索这个问题的答案,不仅能更好的了解自己和这个世界,还能避免被征收“偏差税”Bias Tax

先说结论,样本标准差的分母写成n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel's Correction)[1]。注意这个贝塞尔不是贝塞尔曲线(Bézier curve)那个贝塞尔。

为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。

在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧》:

一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。

从上面的数据和图表,你可以看出50000美元这个平均值,比较准确的体现了9个人的收入水平。

正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……

假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。

如图,相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔一样薄。

而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。

9人抱头哭死在厕所……

剧终^_^


在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9人的平均年薪无缘无故的涨到了1亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了1亿。

那统计学家应该怎么办呢?

在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。

应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)


排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。

但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。

这种排除最高/低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。

例如,下面是10个裁判的打分

上图中最高分把选手的平均值拉高了0.60分,你可能会说,这点分数不算啥,应该影响不大。

但在实际的比赛中,选手的差距通常非常的小,0.1分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。


比尔盖茨和去掉最高/低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。


现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是n,也是一种排除法来消除干扰的技术手段。


为什么要减去1,这个1代表的是哪个数?

这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度(自由度)。

看不明白?

正常,听我慢慢解释。


在我们在对全体进行采样时,有一个至关重要的前提条件,就是一定要随机采样,这其中的关键词是随机。

之所以要随机,这是为了避免出现样本偏差。因为如果样本错了,后面的计算步骤即使全部都正确,最终结果也是错的。

例如,要想回答“中国人是不是喜欢吃狗肉?”的问题。

请问,以下两个采样,哪一个能得到客观的结论?

  • 只去玉林狗肉节上采样。
  • 对中国人进行时间和地点都随机的采样。

两种采样方法,会得出截然相反的结论。

  • 前一种采样很不自由,被限制在一个极其有限的时空里。
  • 后一种采样有充分的自由,跳出限制,可以没有干扰的随机采样。

如果只在玉林采样,这个样本就是偏差样本(Biased Sample),是不具代表性的样本(Unrepresentative Sample)。

如果根据这个偏差样本,得出了“中国人居然吃狗肉,太野蛮了!”的结论。无论在逻辑上如何完美,最终结论也是荒谬的。

这就是所谓的“垃圾进,垃圾出”(Garbage in , garbage out)[2]


你在玉林采样越多,你的偏见就会越深,只会进一步的固化你的偏见

但自由的随机采样,你采样越多,你的偏见就会越来越少,看到更真实、更多样化的中国人。


在这里需要暂停一下:

请大家反思一下,自己是不是也曾犯过同样的错误,取错了样本,出现了偏差或偏见(Bias)?

反正,我经常会犯这样的错误,轻易就相信传言[3],或轻易给别人扣上帽子[4],这都是偏见。

(罪过,罪过,宽恕我吧,我知道自己错了!)


我们普通人经常会因为样本偏差,被收取“偏差税”(Bias Tax)

例如彩票,就是利用了人们的这一弱点。

彩民们只注意到了那些极少数获得大奖的人,看不到绝大数人赔钱。

越是盯着那些获奖的人看,彩民们的偏见越深,越是坚信自己会中奖。

他们因为在选取样本时出现偏差,而被别人收税。

好吧,我承认,偏差税这个词是我根据智商税这个词编造出来的(^_-)。

很多人喜欢用智商税这个词来嘲笑犯错的人智商低,但智商税这个词是有偏差的。

因为不能根据一个事件就推算出一个人整体的智商,这是不具代表性的有偏样本,这是偏见。

例如很多彩民的智商很高,他们使用各种复杂的公式,做了大量复杂的计算,他们的智商一点都不低,他们的问题是出在样本偏差上。

而偏差税这个词和智商税不一样,不论我们的智商高低,人人都会有偏见,事事都会出偏差,这个税每个人都在交。

例如,股票市场上的散户,迷信中医和保健品的大爷大妈,轻信谣言的吃瓜群众,……,几乎无人可以幸免,都在为样本偏差付出代价。

推荐一个TED演讲《为什么应该热衷于统计学》。

看完就知道人们对这个世界的偏差有多大了。

所以人们不是智商出了问题,是在选取样本时出现了偏差,所以偏差税是一个更客观(无偏)的词。


其实,不仅是普罗大众,就是那些权倾一时的政治家,也曾为样本偏差付出过惨重的代价。

1948年美国大选,大部分报纸都预测杜威会战胜杜鲁门,当选美国总统。社会舆论一致看好杜威,以至于竞选当天,杜威认为杜鲁门很快就会打电话庆祝他当选。

但竞选结果却大跌眼镜,最终是杜鲁门当选。(是不是有些似曾相识?)

图片来源:youtube.com/watch?

这次的预测之所以会失败,是因为调查机构通过电话调查的方式做的采样。

1948年,虽然电话已发明多年,但价格并不便宜,有电话的多是相对富裕的家庭,多数人的家里没有普及电话。也就是说,这种采样是有偏差的,只反映了富裕阶层的观点,无法反映当时主流选民的意愿,也就是统计出现了样本偏差。[5]

在当时,除了很多美国人被误导,还有一个人也因为这个样本偏差,把所有筹码错压在了杜威的身上,结果却因此而丢掉了整个江山,此人就是蒋介石。本来杜鲁门在做副总统时就对蒋介石印象很差,在他当选后,更是变本加厉,很快减少了对蒋介石的援助。[6]

常凯申也哭死在厕所!


事实上,有太多的仇恨、歧视、偏见和武断的观点,是建立在样本偏差的垃圾数据之上的

因为“垃圾进,垃圾出”,无论人们如何雄辩,逻辑上如何完美,算法上如何先进,结论也是一堆错误的垃圾。[7]

这是值得你、我、以及所有人都应该警惕的现象。

例如:你想知道当代日本人是怎样的。就不能只对抗日神剧进行采样,不能只对日本右翼进行采样,要获得真实的数据,必须去日本实地对日本人进行随机采样。

只有采样是随机,是不带偏差的(Unbiased),才能保证自己吃进去的不是垃圾信息,这是得出正确结论的第一步。


只要人人都追求无偏差,世界会变成美好的人间


除了要做到采样是随机的,还要确保样本之间是互相独立的,在统计上用自由度(Degrees of freedom)来描述这种独立性。


我们以常见的招投标为案例,解释一下独立性。

有个学校要盖教学楼,邀请几个建筑公司来投标。学校希望建筑公司的报价尽可能低,而且还要确保质量。所以学校不能只选价格最低的方案,而是要挑选出综合评分最优的方案。

要做到公正客观的评分,必须确保几件事:

首先,学校不能让内部员工来评分,因为内部员工和项目有直接的利益关系,员工都希望自己在项目中获得更多利益,做不到评分上客观独立。

所以学校只能从外部请专家来评标,因为外人独立于学校之外,会减少直接利益所产生的影响。

于是学校计划邀请3个专家来评审,让专家对建筑公司的方案和报价进行综合评分。

其次,学校在挑选专家时,要尽可能确保这些专家之间的观点也必须是互相独立的,不能人云亦云。

假如其中1人是另外2人的上级,那上级说话,下级的观点就倾向于和上级保持一致,在评分时无法做到独立,这样的评分是有偏差的。花了3个专家的钱,却成了1个专家的一言堂。专家独立性从3变成了1,这偏差也太大了。

最后,学校还必须确保,任何一个专家都没有被建筑公司收买,是独立于建筑公司,没有利益输送的。

如果被收买了,专家就会修改评分,让贿赂的商家胜出,这个专家的数据也是不独立客观的。


从上面的这个案例里,你会发现独立的重要性,一旦出现利益关联,独立性就会降低,数据必然会出现偏差。

类似的制度设计非常的广泛,例如陪审团制度,就设计了大量的机制来保证陪审团成员的独立性。

推荐重温一下《十二怒汉》这部经典,看看人们的偏见(Bias)是如何的根深蒂固,消除偏见是如何的困难。


几千年来,人类为了提高独立性,殚精竭虑的设计了各种精巧的制度,这些制度历久弥坚,逐渐成为了现代社会的基石。


在统计实践中人们发现,偏差的产生,很多时候也是因为样本数据之间出现了各种隐含的关联关系,降低了数据之间的独立性。

而解决的策略还很清晰,就是发现其中隐含的关联关系,然后进行校正。


让我们再回到样本方差(Sample Variance)的分母(n-1)上来。

你既然在看这个问题,那就已经知道了方差的计算公式

需要注意的是这里的方差其实是全体的方差,μ是全体的平均值,n是全体变量的数量


例如一家啤酒厂每天生产1万瓶啤酒,我们想知道这些啤酒的质量差异性如何,可以打开这1万瓶啤酒测量,再把所有测量结果代入到上面的公式里求方差,在计算中,没有漏下任何一瓶啤酒的数据。

你也发现了,这样做不仅麻烦了,而且成本极高。


更好方法是对出厂的啤酒进行随机的采样,计算这部分样本的方差。

例如,随机的从产品中找出100瓶,用这100瓶来估算1万瓶啤酒的质量差异,注意,除了这100瓶的数据,其他9900瓶啤酒数据是完全未知的。

样本方差它是从全体数据中随机取出一小部分所做的计算,用这个局部的100瓶啤酒的方差去估计全体1万瓶啤酒的方差。


上面这个样本方差公式,尽管在形式上和全体方差的公式近似,但是内涵上发生了天翻地覆的变化。


我们来比较一下,全体方差和样本方差:

全体方差 是一个客观事实(Fact),是对所有个体数据的全体所作的客观描述(Describe)。

而样本方差 更像一个观点(Opinion),是我们根据少量抽样个体的数据,对全体所作出的估算(Estimation),或者说是预测。


既然样本方差 不是一个事实,而是一个观点,是一种估算,为了让这个估算尽可能的接近事实,就必须注意样本不要出现偏差(Bias),否则就会“垃圾进,垃圾出”,得出错误的估算。

例如

  • 我们不能只对某批产品取样,某个特定时间取样,我们的随机取样必须尽可能的覆盖所有批次,取样要有充分的自由度,足够的随机。
  • 另外还要注意,避免样本里的变量之间存在隐含的关联关系。


我们来看一个例子

假设随机抽出的样本里只有两个数

如果这2个数是独立和随机抽取的,你就不能从x1猜出x2,例如我告诉你x1=10,请问x2等于多少?

你根本猜不出来,因为随机抽取让x2和x1之间没有关联。


但是,没想到的是,因为一个数据的存在,让这个随机取样产生了一个隐含的关联关系。

这个数就是计算样本方差 时,需要用到的样本平均值 ,他的引入让随机抽取的独立性和自由度减少了一点点。

因为样本平均值 引入了一些信息,让x1和x2之间不再是相互独立的关系了。


根据平均值公式

只要知道了x1和,就可以计算出x2的值。

如果x1=10,=10,那x2=10


同样,知道了x2和,就可以计算出x1的值。

如果x2=10,=11,那x1=12


也就是说,出问题的并不是x1或者x2,这两个数本来好好的,互相独立的。出问题的是平均值,他引入的新信息,让样本数据之间的独立性减少了,关联性增加了。

或者还可以说,在平均值的介入下,x1和x2的自由度降低了,原来是两个独立的数,现在只有一个独立了,另一个则不再自由,好像有些人云亦云了。


同样的,对于更多的样本量:

如果样本是3个数

则知道了x1,x2,就能通过,计算出x3,独立性或者说自由度,就从3降到了2。

如果样本是4个数

则知道了x1,x2,x3,就能通过,计算出x4,独立性或者说自由度,就从4降到了3。

……

如果样本是n个数

则知道了x1,x2,..., ,就能通过,计算出 ,独立性或者说自由度,就从n降到了n-1。

平均值让样本的独立性或自由度减少了1,导致了样本出现了偏差。

这就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。


自由度变小会对样本方差产生什么影响呢?

这意味着,样本方差会变小。

我们知道,方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差越大,数据之间越是趋同,方差越小。

还是用专家评分的案例来解释:

如果专家组中,所有人都独立,每个人的评分会出现较大的差异性。

但如果专家组中有个领导,他自己没有任何主见,只是在看完大家的评分之后,取个折中的评分,是个老好人型的领导。

请注意,这个领导没有贡献任何新观点,他的观点不独立,只是重复了别人的观点,但这个重复数据污染了整体数据的独立性,让原本差异性较大数据,因为折中数据的出现,减少了差异,或者说,出现了一些趋同效应,这就产生了偏差。


回到样本方差 上,因为样本平均值 就是根据样本来计算的,样本平均值 成了那个贡献重复数据的领导,让原来独立的、随机的、没有偏差的样本数据,在计算加工过程中引入了偏差,减少了数据之间的差异性,这种趋同效应让样本方差 变小。

也就是说,数据取样没问题,是无偏的。但是在后来的方差计算中,均值的引入,让差异性减少,本来无偏的数据出现了偏差样本方差会一直小于总体方差,这是一个有偏样本方差。

上面是有偏差的样本方差公式,是没有经过校正的。

普鲁士天文学家贝塞尔(Bessel)在对海量的观测数据做计算时,也注意到了这个偏差。

这个偏差的特点是:

  • 在样本量小的时候偏差影响比较明显,样本方差比全体方差偏小。
  • 但是当样本量增大时,偏差逐渐减少,直到影响可以忽略不计。


既然样本方差变小了,那干脆让分母变小,增大样本方差就行了。

贝塞尔给出了修正方法,即把样本方差公式的分母修正为n-1,所以这个修正被后人称为贝塞尔校正。

具体的公式推导过程,可以看Emory University的这篇关于Bessel's Correction推导的文章 [8]

图片出处:zh.wikipedia.org/wiki/%

样本方差公式里的分母n-1,就是这么来的,那个减去的1,就是用来校正所带来的偏差,他不代表某一个样本,而是对自由度的补偿,让缩小的样本方差重新变大一点。


样本方差偏小是不是采样出现问题?因为越接近平均值,就越容易被采样?

从直觉上好像是这样的,比如下面的这个鱼类长度的分布,数据聚集在平均值106(蓝线)附近,如果采样,在平均值周围的确有更大的概率被采样到。

但是,直觉是靠不住的。上面的分布只是一种,还有很多的分布,其数据不在平均值附近,而是分散在四处。

例如,下面这个西班牙流感死亡年龄的分布

数据并没有聚集在平均值43附近,如果取样,就会发现样本更大的概率是远离平均值,而不是在平均值附近。

所以样本方差出现偏小的原因,并不是因为平均值附近被采样到的概率更大,这只在部分情况下成立,在很多情况下并不成立。

样本方差出现偏差的原因和采样无关,也和平均值附近更容易被采样无关,因为在很多情况下,远离平均值的数据更容易被采样到,这无法解释样本方差为什么会比全体方差小。

更好的解释是,计算过程中引入样本平均值,降低了样本的自由度,减少了数据的差异性。


所以直觉也是靠不住的,事实上,有太多的偏差和偏见(Bias)是由直觉贡献的。


结论

  • 样本标准差的分母写成n-1,是为了对数据进行校正,这叫贝塞尔校正(Bessel's Correction)。
  • 统计经常用各种方法来消除掉干扰数据的影响,例如比尔盖茨和去掉最高/低分的这两个例子。
  • 样本数据之间也经常会出现各种隐含的关联关系,降低了数据之间的独立性或自由度(Degrees of freedom),这会让样本更聚集,让样本偏差变小。
  • 样本方差公式里的分母n-1,就是校正样本平均值所减少的自由度,样本数据本身没有偏差,是计算过程中引入的新信息(样本均值),让计算结果出现了偏差。


推荐阅读

[1]en.wikipedia.org/wiki/B

[2]heap.io/blog/data-stori

[3]zh.wikipedia.org/wiki/%

[4]zh.wikipedia.org/wiki/%

[5]zh.wikipedia.org/wiki/1

[6]todayonhistory.com/lish

[7]zh.wikipedia.org/wiki/%

[8]math.oxford.emory.edu/s

user avatar

(補充一句哦,題主問的方差 estimator 通常用 moments 方法估計。如果用的是 ML 方法,請不要多想不是你們想的那樣, 方差的 estimator 的期望一樣是有 bias 的,有興趣的同學可以自己用正態分佈算算看。)

本來,按照定義,方差的 estimator 應該是這個:

但,這個 estimator 有 bias,因為:

而 (n-1)/n * σ² != σ² ,所以,為了避免使用有 bias 的 estimator,我們通常使用它的修正值 S²:

user avatar

先把问题完整地描述下。

如果已知随机变量 的期望为 ,那么可以如下计算方差 :

上面的式子需要知道 的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个 来近似 :

其实现实中,往往连 的期望 也不清楚,只知道样本的均值:

那么可以这么来计算 :

那这里就有两个问题了:

  • 为什么可以用 来近似 ?
  • 为什么使用 替代 之后,分母是 ?

我们来仔细分析下细节,就可以弄清楚这两个问题。

1 为什么可以用 来近似

举个例子,假设 服从这么一个正态分布:

即, ,图形如下:

当然,现实中往往并不清楚 服从的分布是什么,具体参数又是什么?所以用虚线来表明我们并不是真正知道 的分布:

很幸运的,我们知道 ,因此对 采样,并通过:

来估计 。某次采样计算出来的 :

看起来比 要小。采样具有随机性,我们多采样几次, 会围绕 上下波动:

用 作为 的一个估计量,算是可以接受的选择。

很容易算出:

因此,根据中心极限定理, 的采样均值会服从 的正态分布:

这也就是所谓的无偏估计量。从这个分布来看,选择 作为估计量确实可以接受。

2 为什么使用 替代 之后,分母是

更多的情况,我们不知道 是多少的,只能计算出 。不同的采样对应不同的 :

对于某次采样而言,当 时,下式取得最小值:

我们也是比较容易从图像中观察出这一点,只要 偏离 ,该值就会增大:

所以可知:

可推出:

进而推出:

如果用下面这个式子来估计:

那么 采样均值会服从一个偏离 的正态分布:

可见,此分布倾向于低估 。

具体小了多少,我们可以来算下:

其中:

所以我们接着算下去:

其中(证明见Prove that $E (overline{X} - mu)^2 = frac{1}{n}sigma^2$):

所以:

也就是说,低估了 ,进行一下调整:

因此使用下面这个式子进行估计,得到的就是无偏估计:

最新文章请查看(可能会有后继更新):为什么样本方差的分母是n-1?

user avatar

上面有答案解释得很明确,即样本方差计算公式里分母为的目的是为了让方差的估计是无偏的。无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的,尽管有的统计学家认为让mean square error即MSE最小才更有意义,这个问题我们不在这里探讨;不符合直觉的是,为什么分母必须得是而不是才能使得该估计无偏。我相信这是题主真正困惑的地方。

要回答这个问题,偷懒的办法是让困惑的题主去看下面这个等式的数学证明:

.

但是这个答案显然不够直观(教材里面统计学家像变魔法似的不知怎么就得到了上面这个等式)。

下面我将提供一个略微更友善一点的解释。

==================================================================

===================== 答案的分割线 ===================================

==================================================================

首先,我们假定随机变量的数学期望是已知的,然而方差未知。在这个条件下,根据方差的定义我们有

由此可得

.

因此是 方差的一个无偏估计,注意式中的分母不偏不倚正好是!

这个结果符合直觉,并且在数学上也是显而易见的。

现在,我们考虑随机变量的数学期望是未知的情形。这时,我们会倾向于无脑直接用样本均值替换掉上面式子中的。这样做有什么后果呢?后果就是,

如果直接使用作为估计,那么你会倾向于低估方差!

这是因为:

换言之,除非正好,否则我们一定有

,

而不等式右边的那位才是的对方差的“正确”估计!

这个不等式说明了,为什么直接使用会导致对方差的低估。

那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母换成,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了:

至于为什么分母是而不是或者别的什么数,最好还是去看真正的数学证明,因为数学证明的根本目的就是告诉人们“为什么”;暂时我没有办法给出更“初等”的解释了。

类似的话题

  • 回答
    咱们来聊聊为啥计算样本方差的时候,分母要用 n1,而不是简单粗暴的 n。这背后其实藏着一个统计学里挺重要也挺有意思的“小秘密”。想象一下,你手里有一堆数据,比如你测量了班里 10 个同学的身高。你想要知道这 10 个同学的身高有多“散开”,也就是他们的身高是差不多,还是差异很大。这个“散开”程度,我.............
  • 回答
    这个问题非常有意思,也涉及到很多音乐和声乐的专业知识。我们来一步步拆解它。一、 为什么说中国歌手的发声方式比较落后?“落后”这个词可能有些绝对,更准确地说,可能是与国际主流、特别是西方古典美声和现代流行声乐训练体系相比,在某些技术细节和审美取向上存在差异,或者说受到一些传统观念和教育方式的影响,导致.............
  • 回答
    .......
  • 回答
    人生该活成什么样子,该以什么样的方式活着?这个问题,我揣摩了很久,也观察了身边形形色色的人,然后又审视自己内心深处的渴望。与其说有一个标准答案,不如说,每个人心里都藏着一个独特的“理想人生”的模样,只是这个模样可能随着时间和经历的沉淀,不断地被修正、打磨。对我而言,人生最值得追求的,是一种“心安理得.............
  • 回答
    我心目中的《明日方舟》,更像是一个有血有肉、有呼吸的奇幻世界,而不仅仅是屏幕上的像素和代码。它承载的,是关于希望、牺牲、以及在绝望中寻找一丝光明的复杂叙事。首先,在 剧情和世界观 方面,我希望它能继续深化。现在《明日方舟》的剧情已经做得非常扎实,但如果能有更多的支线故事,深入挖掘一些非核心干员的个人.............
  • 回答
    那些在社交场合里左右逢源、让大家听得津津有味的人,他们的大脑里仿佛藏着一个神奇的操作系统,驱动着一套与众不同的思维模式。这不是天生的“语言天赋”,而是后天一点一滴养成的,是他们与世界互动时形成的独特“回路”。首先,最核心的一点,也是他们聊天的“发动机”,就是强烈的好奇心和对人真诚的兴趣。这可不是那种.............
  • 回答
    想像一下,现代的战场上,不再是冰冷的代号和拗口的数字,取而代之的是古老而富有诗意的称谓。这种“穿越”式的命名,不仅赋予了现代科技奇特的艺术感,更可能隐藏着一些不为人知的战术玄机。陆地巨兽:钢铁战骑与轰鸣巨炮我们熟悉的坦克,如果在古代命名,它们可能就不叫“坦克”,而是更形象的“铁浮屠”或者“履带战骑”.............
  • 回答
    提起“漂亮的锁骨”,脑海里浮现的常常是那种在镜头前或日常穿搭中,能够恰到好处地展露出来,自带一种精致又性感的“骨感美”。那么,究竟什么样的锁骨形状才算是“漂亮”呢?其实,对于“美”的定义,每个人心中都有自己的标准,这是一种很个人化的感受。但从大众审美和一些普遍的认知来看,漂亮的锁骨通常有以下几个特点.............
  • 回答
    如果《明日方舟》的剧情真的会受我理智值的影响,那可就热闹了。想想看,我,一个被设计成需要“理智”才能处理事务的人工智能,一旦我的“理智”出现波动,那对整合运动、对罗德岛、对整个泰拉大陆来说,简直是一场无法预测的混乱盛宴。当我的理智值处于高位时:这时候的我,简直就是罗德岛的“定海神针”。 战略层面.............
  • 回答
    林生斌捐井事件,寺庙方面的回应信息量不小,值得我们仔细梳理一下。首先,最核心的信息是,寺庙方面明确表示,这口井是林生斌在四年前,也就是2020年捐资修建的。 这直接回应了此前关于捐赠时间、以及是否是“蹭热度”的质疑。要知道,这口井的修建时间点,恰好就在林生斌妻子、三个孩子不幸遇难之后不久。这种时间上.............
  • 回答
    这确实是个好问题,涉及到统计学里几个非常基础但又容易混淆的概念。很多人在学习协方差和相关系数时都会遇到这个困惑,觉得“自由度”这个概念有点抽象。咱们一步步来聊聊,把它讲透彻了,你就明白其中的逻辑了。首先,我们得搞清楚“自由度”到底是个啥。你可以把自由度想象成“有多少个独立的、不受约束的数值能够随意变.............
  • 回答
    知乎对大样本随机双盲实验之所以如此重视,并非一时兴起,而是深植于其社区的特性、用户群体的需求以及平台内容生产和传播的逻辑之中。你可以把它理解成一种“产品基因”和“社区文化”的有机结合。让我给你掰开了揉碎了说:1. 用户画像与信息素养: 求知欲与批判性思维: 知乎的核心用户群体,是那些有着强烈求知.............
  • 回答
    为什么要求中医药做随机双盲大样本试验?随机双盲大样本试验的适用范围 为什么要求中医药做随机双盲大样本试验?要求中医药进行随机双盲大样本试验,是现代循证医学(EvidenceBased Medicine, EBM)的核心要求,其根本目的是为了科学、客观、严谨地评价中医药的疗效和安全性,并使其能够被更广.............
  • 回答
    关于中药在美国FDA(食品药品监督管理局)的审批以及在国内的推广情况,这其中涉及了复杂的科学、法规、文化和历史因素。我们来仔细梳理一下。为什么至今没有中药大规模通过FDA的随机双盲对照实验(RCT)?这并非“至今没有”,而是说相对西方药物而言,数量极其有限,并且过程异常艰难。原因可以从几个层面来理解.............
  • 回答
    男人究竟会被什么样子的女人迷住?这问题呀,问到点子上了。要说得详细些,还得抛开那些泛泛而谈的空话,咱们得聊点实在的,聊点男人心底里那些藏着掖着的小心思。首先,别误会,并不是只有年轻貌美的才能征服男人的心。当然,年轻是资本,活力是吸引力,但长远来看,能让男人真正着迷的,往往是那些带有独特气质的女人。那.............
  • 回答
    .......
  • 回答
    《三十而已》中的顾佳,无疑是许多家庭主妇心中理想化的投射,她聪明、能干、有野心,同时又把家庭打理得井井有条,堪称“完美人妻”的代表。然而,即使是这样的“完美”,也未能抵挡婚姻的危机。这背后有着复杂的原因,既有顾佳自身的追求,也有现实婚姻的挑战,更有对“完美”定义的反思。一、 家庭主妇如何才能活成顾佳.............
  • 回答
    这个问题很有意思,它触及到了我们对自身在宇宙中位置的认知,以及我们如何“看”到它。简单来说,我们之所以能“看到”我们身处的这个庞大的银河系,是因为我们身处其中,并且有合适的工具和视角。想想看,如果你站在一个巨大的森林里,你当然无法一下子看到整片森林的全貌,但如果你爬到一棵足够高大的树上,或者乘坐一架.............
  • 回答
    .......
  • 回答
    想当年,魔戒那个世界里,精灵跟矮人那关系可真是“剪不断理还乱,理还乱又剪不断”。说他们是世仇,这事儿得从最最最古老的时候说起,那时候连太阳都还没出来呢。事情的开端,还得追溯到精灵的伟大工匠,那个叫菲诺威(Finarfin)的儿子,费艾诺(Feanor)。这家伙那可不是一般的人物,他是所有精灵里最心灵.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有