百科问答小站 logo
百科问答小站 font logo



如果用总体作为数据,那么回归系数的显著性还有意义吗? 第1页

  

user avatar   markovmodels 网友的相关建议: 
      

随机性都没有了显著性就无从谈起。
因为显著的定义就是原假设为真的情况下,统计量比观察值更extreme的概率 (p-value) 小于某个预设的level,比如0.05。如果总体已经观察到了,样本的获得没有随机性,也谈不上概率了。

当然现实中很少有获得“总体”的情况,要不不现实,要不问题本身就没什么意义了。
另外一种情况是总体中每个subject的outcome有测量误差且不可忽略,这也会带来随机性。这时候问题实际上关乎modeling层面了。


-----------------------------------------------------------------------
被编辑收录的高票答案我个人不能完全同意。主要不同意的地方在于回归的范围很广,有很多模型不依赖变量的正态假设,比如有些semi-parametric model甚至不做具体的分布假设,但是仍然可以讨论回归参数的显著问题。那位答主也给我留了言,我的理解是他回答的问题是“如果研究者把样本当作总体会出现什么情况”,或者"总体作为数据的情况是否可能出现”。这些都是有意义的问题,但是我不确定是否是题主提出的问题“如果总体作为数据,那么回归的显著性还有意义吗”。

另外不同意的地方是其答案中暗示当样本足够大时,可以假设正态分布。这和一个比较广泛的关于中心极限定理的误解有关,也特别容易对不太了解统计的人士造成误解:中心极限定理的描述对象是独立同分布的变量之和或平均值,而不是变量的总体分布本身。比如掷硬币,不管重复多少次,结果都只能是两面之一(忽略其它罕见情况),但是正面朝上的总数近似于正态。所以对于二元变量有对应的模型(比如Logistic Regression),对于heavy-tailed的变量也有相应的方法,等等。


-------------------------------------------------------------------
另一个答案回答的问题其实是“如果观察到总体,能不能得出因果关系即causality”。可是题目问的是显著性,不是因果性。因果关系是另一个范畴的问题。是无论有没有观察到总体都存在的问题。通过和答主的进一步交流,我们发现主要分歧在于他所说的population是包括了所有可能的treatment assignments及结果,即他领域内所谓superpopulation。但是我认为名词之间不应该混淆。既然已经有“超总体”(superpopulation)对应这个概念,在我们谈论总体(population)的时候,就应该能够确认谈论的不是超总体,否则这两个名词就失去了专属的意义。

因果关系确实不能轻易得出,因为观察不到counterfactuals,即同一个subject如果其它条件都不变,得到的treatment是未观察到的那个,outcome是否不同,即所谓平行宇宙会出现什么情况。王同学给出了一篇很有意思的paper,大家如果对causal inference有兴趣可以去读一下。

但是那个答案最后对permutation test的说法也有待商榷。如果已经观察到Y了,test的时候再怎么重新分配treatment,counterfactuals也观察不到了,因果关系也不能得出。除非一开始设计实验的时候做随机分配,或者拿到数据后想办法adjust可能的confounder。要不然大家研究causality那么费劲干嘛,直接把数据拿来做permutation test不就完了。

还有用X的随机性教育我的,一般来说X是effect的ancillary,其分布不依赖回归系数,做inference的时候会先conditioning on X,将其视为常数。求p-value时统计量里面的涉及X的项也视为常数。这也是统计课本上很少有讨论X分布的原因。

有一个例外是有新的观测进入样本要做预测,这时候X的方差就需要考虑进来了。但是题主问的是已知population,不存在新观测的问题。


-------------------------------------------------------------------------




  

相关话题

  统计上有什么方法可以推断因果关系? 
  能不能用简明的语言解释什么是非参数(nonparametric)模型? 
  机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? 
  机器学习专家与统计学家观点上有哪些不同? 
  如何零基础自学SAS? 
  方差可不可以替代熵权法? 
  为什么「正态分布」在自然界中如此常见? 
  确定指标权重的时候,哪个方法比较简单啊,主成分分析法还是层次分析法啊? 
  以医学统计学的视角来看,中医药是否有效可靠? 
  有哪些有趣的矩阵? 

前一个讨论
为何有人会觉得《爸爸去哪儿》第四季中董力和崔雅涵(阿拉蕾)是一对 CP?
下一个讨论
迪士尼提问:你与迪士尼有哪些故事?你在知乎曾经留下过哪些和迪士尼相关的答案?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利