百科问答小站 logo
百科问答小站 font logo



如何理解统计学中「自由度」这个概念? 第1页

  

user avatar   wang-jia-wei-27-94 网友的相关建议: 
      

由于概率论整体发展较晚,到1934年才提出公理化体系,因此无论国内还是国际上,概率论史的资料都并不多见。这个问题已经提出五年了。我希望能够给出一个完整的回答。


首先,最严格、最不会产生歧义的定义,就是在卡方分布 中,定义参数 为自由度。但是这种定义完全无法体现自由度的内在概念,我们最多就知道它是 个正态随机变量的平方和。我想大多数人都是在学习后继课程的时候才慢慢明白自由度的统计意义的。


第二种方法即为以朴素的限制个数来定义自由度,这也是自由度的雏形,它可以追溯到高斯的时代-1821年。但其早期的定义是由Gosset给出,就是1908年以‘student’署名的、提出t分布的那篇发在生物测量学期刊的论文[1](原来20世纪就已经是生物的世纪了啊)。但是这篇文章中并未提出自由度(degree of freedom)这个名字。(以上来自维基百科[2]

‘自由度’这个名称的普及,应归功于生物统计学家Fisher在1922年阐述卡方检验的论文[3]。在这篇论文中,Fisher提到:由于在中间过程中,我们用了四个均值,因此自由度降低了四。这个较为初级的定义,最终被扩充为:样本容量减去限制等式的个数。用高级点的语言,就是线性子空间的维数[4]


自由度的第三种定义是二次型的秩。这种定义的最初来源是Cramer在其1946年的著作Mathematical Methods of Statistics[5]中提到的(P381):

很明显,用矩阵的秩定义自由度,相比子空间维数,更偏重代数一些。但还不止于此,其更深刻的意义在于检验。为此,首先介绍Cochran定理[6](这个version相对简单):

设 ,矩阵 是幂等阵, ,且 均为对称幂等阵。则有:

是相互独立的卡方分布,自由度为 。 。

我们看到,在这个定理中,二次型的秩被证明为与自由度相同。这或许也是Cramer秩定义的灵感来源。


我们知道, 分布定义为[卡方分布/自由度]的比值,因此在已知卡方统计量和自由度的情况下,可以直接得到 统计量。因此,一旦方差(可写成二次型的形式)可以写成如上的分解式,我们就可以直接做 检验了。

例如,设参数个数为 (不算截距项),有线性模型 ,或 ,其中 , ,误差项为独立同分布的正态项,此时最小二乘或极大似然估计为: (截距项包含在里边了)。

则有 。可得到残差平方和 。

如果原假设是 ,则在原假设之下,记 。有拆分:

通过正则方程组及均值的矩阵表达式,上式可化简为:

此时,按照矩阵理论,两边的秩分别为 ,且易证每个二次型都是幂等阵。后边的两项,分别是 和 。则按照Cochran定理,可直接由二次型和秩进行 检验。

我们知道幂等阵的特征值只能是0或1,而二次型经变换后可以换成特征值与特征向量结合的形式。此时,秩与自由度便产生了一一对应的关系:秩等于特征值中‘1’的个数。而 检验及卡方检验也可释义为,每一个自由度,或每一个特征值‘1’,给予二次型的平均贡献。


最后,说一下非整数自由度。按照以上的定义方式,第二种定义-子空间维数则必为整数,第一种定义并不局限于整数自由度,而第三种定义可以拓展到非整数自由度:幂等阵中特征值中‘1’的个数可以等价定义为特征值的和,由矩阵论可知即为二次型的迹,而迹可以是非整数的。

  1. Welch两样本t检验中,可以出现非整数的自由度:

如图,这里的自由度是4.4604。

大家可能想不到,这里的非整数自由度是以第一种方法定义的,即卡方分布的参数。Welch的原始论文[7]中,他是以分布函数+Taylor展开推导出来这个自由度近似公式。

2. 岭回归(Ridge Regression)。

起初为了应对共线性的问题,Tikhonov提出了以下正则化的线性回归参数估计式: 。这时,通过第三种定义,我们仍然能获得二次型的自由度 。这时,在模型间的比较中,我们可以将该迹替代参数个数 ,代入信息准则AIC或BIC的计算公式中。


但需要注明的是,虽然整数自由度的三种定义是等价的,非整数自由度却并不是等价的,而仅是近似关系。例如 ,按矩阵迹,自由度应为1。但 满足自由度为2的卡方分布,计算可知其实际上是指数分布,而不是自由度为1的卡方分布。

参考

  1. ^ Student. (1908). The Probable Error of a Mean. Biometrika. 6 (1): 1–25. doi:10.2307/2331554
  2. ^ https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)#cite_note-5
  3. ^ Fisher, R. A. (1922). On the Interpretation of χ2 from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society. 85 (1): 87–94. doi:10.2307/2340521
  4. ^ Walker, H. W. (1940). Degrees of freedom. Journal of Educational Psychology, 31, 253-269.
  5. ^ Cramer, H. (1946). Mathematical Methods of Statistics. Princeton Univ. Press
  6. ^ Cochran, W. G. (1934). The distribution of quadratic forms in a normal system, with applications to the analysis of covariance. Mathematical Proceedings of the Cambridge Philosophical Society. 30 (2): 178–191. doi:10.1017/S0305004100016595
  7. ^ Welch, B. L. (1947). The generalization of "student's" problem when several different population variances are involved. Biometrika, 34: 28–35, doi:10.2307/2332510

user avatar   liu-yang-zhou-23 网友的相关建议: 
      

本科学“自由度”的概念就挺懵。

我就单刀直入这个问题了:我认为自由度是一个单位(超)立方体的对角线平方。有几点理由:

1、正态分布的情况最好说明,两个服从正态分布的随机变量的独立性的充要条件是无关性,这一点在更一般的情况不成立。无关性就是相关系数为0,相关系数的公式几何意义是两向量的夹角余弦值,于是无关性、独立性、正交性,在此语境下是同义的;

2、那么当一个样本从总体中抽离出来,我们可以认为这是从一个空间中选出一个子空间的行为,再添加了样本均值这样的约束条件(Σxi=μ),子空间是该方程组的余维空间、解空间,维数是n-r,此时r=1;

3、任意正态分布可转化为标准正态,对随机变量可作中心标准化(x-μ)/σ,这使得任意一随机变量在不超过一个标准差的变化转化为不超过单位1的变化,由上1、2所述,那么n-1个在单位1内的波动在正交空间中就是在n-1维超正方体内的波动;

4、将上述波动数量化,投影至一维情况,我们知道正方体内的最大波动是其对角线的长度,在拓扑中也称其为“直径”,超正方体对角线利用勾股定理sqrt(Σ1)即可得,如果不开平方则刚好是自由度。


目前我还处于构想阶段,并没有写严格的证明。


user avatar   gongbaiyu 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  日麻规则下 13 张配牌的向听数期望是多少? 
  UMVUE(一致最小方差无偏估计)的求法是什么? 
  学统计学的大神有哪些? 
  目前的人工智能可以打「颜值」分吗? 
  如何看待近百位科学家联合发文回应「 p 值显著标准应降至0.005」? 
  如果用总体作为数据,那么回归系数的显著性还有意义吗? 
  如何理解 95% 置信区间? 
  机器学习包含哪些学习思想? 
  数据科学家 / 统计学家应该养成哪些好习惯? 
  如何看待男性消费强势崛起? 

前一个讨论
龙珠里的经济学,前期龟仙人的钱是怎么来的?
下一个讨论
如何让自己孩子生下来学会的第一门语言是C语言?





© 2024-11-01 - tinynew.org. All Rights Reserved.
© 2024-11-01 - tinynew.org. 保留所有权利