考研党来尝试着回答一下这个问题。
最近正好在做总结归纳,就把我的一些心得体会写一下,希望能对题主,以及所有被这几个定律搞的十分头痛的人有所帮助。
我一看到这三个定律和两个定理,也很头疼——这根本就记不住啊!但其实当我真的学到这里的时候,才发现,其实这是很有规律可言的。教材之所以会把这几个定律、定理放到一起,私以为,一是因为其逻辑上的一脉相承,二是因为其重要程度在概率论与数理统计当中举足轻重,三更是因为其互相之间也存在着许多的联系与区别。
让我们来一起看一看这几个定律、定理。我会尽量地把这个东西讲的通俗易懂、生动形象,能够让更多的人理解。确实,我也很认同定义式、数学语言读起来是有些佶屈聱牙的。
研究一个数学定理,一定要抓住这几点核心:
1.前提条件,或者说研究对象,这个定理是对谁而言的;
2.结论,在给出了前提下,会有什么神奇的结论;
3.数学意义,也就是这个定理到底发挥了什么实际作用,如果这个定理没什么用处那也就不值得这么多人去学习和研究了嘛。
其实抓住这几点要素之后,就很好理解这几个定律、定理了。
在我们学习这几个大数定律和中心极限定理之前,必须先明白一个事情——什么叫依概率收敛?
不知道各位在学习概率论之初是不是也有我这样的想法:在实验次数足够多的情况下,频率就会非常接近概率。我们也是依此得到了很多事情发生的概率,比如说抛硬币、等等。最典型的诸如蒲丰投针计算圆周率。
那么这个式子不就是这样的吗:
其中,m为事件发生的次数,n为实验的次数。
很好,但依概率收敛告诉你这样是不严谨的。
这个地方我是这样去理解的:就以抛硬币为例,假如说我们实验的次数已经非常大了,那么这个概率的值可能会像下图蓝线一样波动,黑线是 时。
所以说,随着实验的进行,这个比值也是一直在波动的,它无法与黑线高度地重合,只要我们放大、再放大。
而依概率收敛,就好像极限里的 语言一样,虽然你在动,那我们画条线,你总超不出去了吧——或者说,就算你真的超出了这条线,这也是一个小概率事件,这就是依概率收敛的意思。看图更直观:
数学表达式就是,对于 有:
(即越界是小概率事件)
或
(即绝大部分是在界内的)
就算你仍然对依概率收敛表示疑惑,也没关系,这也不太妨碍你去理解这几个大数定律。让我们先来看Chebyshev大数定律,对每个定律我们都把之前提到的三个要素摆出来以方便对比。
2.1前提条件
① 相互独立(注意:不要求同分布!)
② 存在且一致有上界(严谨表述: 使 对一切 成立)
2.2结论
2.3数学意义
算数平均值依概率收敛于数学期望
对于这个数学意义,如果我们拍脑子一想,这似乎是很显然的,但又好像讲不出为什么。
我们不说抛硬币这么“单一”的事情——我们这次说做实验测重力加速度。测的方法有很多,但最后得出的数据应该都是在 附近徘徊,然后我们处理数据,一拍脑袋就把他们加权(算数平均值)了,然后断言:啊,这就是我们“期望”的重力加速度!
可你有没有想过,为什么测出数据的算数平均值就可以接近真实值呢?
事实上,当我们中学做物理实验的时候,就已经用到了Chebyshev大数定律而不自知。这种算数平均值依概率收敛为数学期望的理论依据,就是Chebyshev大数定律。
总的来说,Chebyshev大数定律的要求比较弱,甚至连同分布也不用。
我们再来看Bernoulli大数定律,这是概率论历史上第一个极限定理,属于Chebyshev的一种特殊情况,可以由Chebyshev推出。
3.1前提条件
① 是n重Bernoulli实验中事件A的发生次数
②每次试验A发生的概率为p
所谓n重Bernoulli实验,就是“不成功便成仁”,独立重复地进行n次实验,成功了就是1,不成功就是0。所以我们把这两个前提条件照着Chebyshev翻译一下就是:
相互独立且都服从于参数为p的0-1分布
3.2结论
3.3数学意义
频率依概率收敛于统计概率
3.4如何从Chebyshev推出Bernoulli
我们该如何理解Bernoulli大数定律这个结论和其数学意义呢?
事实上,当你把 的分布带入Chebyshev大数定律,奇妙的事情就会发生了:
① 相互独立(甚至还同分布),这满足了Chebyshev的条件①
② (0-1分布的方差公式,配合柯西不等式),这满足了Chebyshev的条件②
那么我们可以代入Chebyshev不等式的结论了:
这东西是啥?对于0-1分布,发生了就是1,那么把所有的 求和不就是发生的次数了吗,于是 也就是 (事件A的发生次数);
Chebyshev说,算数平均值依概率收敛于数学期望,那么数学期望不就是p嘛(0-1分布的期望公式),于是我们就得到了Bernoulli大数定律。
这个定律可以和Chebyshev对比着看,两者的关系相对来讲是比较“并列”的。
4.1前提条件
① 相互独立且同分布
② 存在
4.2结论
4.3数学意义
算数平均值稳定于数学期望的确切解释
诶等等!停!你这个Khinchin大数定律左边怎么和Chebyshev一样啊,右边看起来也是一个意思,都是俄罗斯人也不能这么玩儿吧!
不好意思,还真就可以这么玩儿,因为这两者的前提条件不一样,或者说讨论对象不一样,不存在谁包含谁的问题。
简言之,一个只要求独立和方差上界、另一个却要求独立同分布和期望存在。
虽然推出的结论看起来差不多,但其实际意义是并不一样的,就比如Chebyshev对于不同分布还可以进行期望求算数平均值,而Khinchin在方差不存在时也可以使用。具体的反例就不在此举出了,并不是本文的重点。
这时候可能又要有人问了,之前我们处理重力加速度数据的时候,到底用的是哪个大数定律?
那当然是,满足哪个条件用哪个。甚至,你还可以统而言之为:根据大数定律。
5.1前提条件
① 相互独立且同分布
② 存在
5.2结论
则对于 有:
也即 求和近似服从正态分布:
(波浪线上应该有“近似”两字,我不知道怎么打上去hhh)
5.3数学意义
实际上,那个长长的极限式子就是一个纸老虎,先看下边那个更简洁一些的式子:近似服从于正态分布。
Levi-Lindeberg定理揭示了一个非常重要的道理:当n足够大的时候,我们可以把任何一个奇奇怪怪(期望方差要存在)的分布,搞成一个正态分布,而正态分布是我们喜欢的东西啊,大大简化了我们的研究量。
而这个奇奇怪怪的分布的随机变量和,是近似服从于期望为 ,方差为 的正态分布的。
而遇到一个正态分布——请养成习惯把它标准化,于是也就出现了上面那一大长串式子。
事实上, 内的东西,就是标准化的操作(减去期望除以方差开根号),而右边就是根据分布函数定义推得的表达式与分布函数,你应该早已经在前面的学习中司空见惯了。
另外,Levi-Lindeberg也从侧面解释了为什么大自然这么喜欢正态分布、为什么生活中有这么多正态分布——因为样本量大啊,加着加着就变成正态了。
所以,有了Levi-Lindeberg定理之后,统计学家们就只需要去着重研究正态分布,就可以轻松地处理广泛而奇特的分布了,从这个角度讲,这个定理的现实意义也是十分伟大的。
6.1前提条件
别看这个前提条件就一句话,但数学语言就是这样,蕴含着丰富的信息:De Moivre-Laplace定理其实就是Levi-Lindeberg的特殊情况。
你看 服从二项分布,那么它不就是① 相互独立且同分布,且② 存在的吗,也就是说,完全满足了Levi-Lindeberg的两个条件——实际上,我们就是在把一个二项分布,尝试转为正态分布去研究。
6.2结论
那么自然而言地,我们可以套用Levi-Lindeberg的结论:
对于 有:
也即:
6.3数学意义
Levi-Lindeberg的情况
好了,那么接下来到了找不同时间。细心的同学就会发现,减去期望除以方差开根号这个操作,没有任何毛病,但是在Levi-Lindeberg当中可是 ,怎么在De Moivre-Laplace当中就变成了单独一个 了呢,而不是对 求和呢?
这个问题提的非常好,因为这更加突出了Levi-Lindeberg定理的一个重点:我们只能对“求和”进行处理,而一个单纯的分布我们是很难操作的。而De Moivre-Laplace定理却巧妙地处理了一个单独的分布——不过也正是因为二项分布十分的特殊:
类似我们之前由Chebyshev推Bernoulli大数定律的时候用的一个操作,引入Bernoulli计数变量(这个操作在概率论当中其实是非常经典和应用广泛的):
设有 相互独立且都服从于参数为p的0-1分布
再让 等于这些0-1分布随机变量的和,就会有:
(即:A发生的次数为k次,发生的概率为p,那自然是一个二项分布了)
再代入Levi-Lindeberg定理,就可以得到6.2的结论了。
以上就是对三个大数定律和两个中心极限定理的解读。可以说这几个定律、定理在整个概率论与数理统计中有着举足轻重的定位,如果你真的理解了它们,那么其重要程度,应该也就不言而喻了,尤其在后续学习数理统计内容中,如何处理简单随机样本的均值、方差等数据,都会频繁地用到Levi-Lindeberg定理,大数定律也是矩估计的理论基础,并且和生活(尤其是赌博hhh)的关系也更加贴切。
就像无间道里的扑克牌:
黄sir,你当我陆警官没学过大数定律?
水平有限,如有谬误,望各位海涵并指出。转载请注明出处。