百科问答小站 logo
百科问答小站 font logo



样本数据达到多少统计指标才有意义? 第1页

  

user avatar   edwin_hao_qing_han 网友的相关建议: 
      

这是个很好的问题,事实上从开始学回归的时候这个问题就会出现在实际操作中。当有两个点的时候,因为两点确立一直线,所以完美拟合, 为1。

同理也可以外推到如果有n个参数,又正好有n个观测值得话,如果变量之间线性不相关,那么回归出的超平面正好穿过所有的点,这个时候 仍然是1。

这是因为 代表的是模型拟合度,所以自然而然是越简单的模型(变量越少)越难拟合,数据越少的回归拟合度可能反而较高。

为什么越简单的模型越难拟合呢,考虑两个模型:

我们很容易看到模型1是嵌套在模型2之中的,当加入额外的回归项 之后,模型2的至少不低于模型1的。

而为什么数据越少的回归拟合度可能反而越高,这是因为数据越多你控制不到的变量就越多,控制不到的变量代表着数据中未观察到的异质性(unobserved heterogeneity),异质性的存在也会降低模型的拟合度。

那么数据是不是越少越好呢?当然不是,相反数据是越多越好,因为只有数据多了,你才可以构造更多的控制变量。最简单的例子:

如果只有一个观测值,那么你只能估计这样的模型 ,这个时候 是1。

当你有两个观测值的时候,你可以估计一个简单线性模型 ,这个时候 仍然是1,因为当你多了一个观测值的时候,你的数据中就包含了额外的信息,这样的信息可以帮助你识别截距。

当你有三个观测值的时候,那么你可以将模型拓展到非线性的情况下 ,这个时候如果 不是为1的常数或者 二元变量的话,回归存在唯一解并且 为1。

所以所谓的样本量越小统计指标越没有意义只是对于 理解上的偏误,从统计角度上来说样本数据当然是越大越好,就好像做菜一样,材料越多越容易做出好的菜肴。只是有些厨师可能选择太多了反而不知道怎么选,材料多了可能反而没办法发挥正常的厨艺。大样本的好处这里不说很多,只说一点,我们通常知道线性回归的系数方差是:

方差意味着估计带来的不确定性,这意味着当样本数量很大的时候,我们几乎可以百分百确定我们的估计到的系数就是真实的系数值。而当只有两个变量的时候因为 的无偏估计是:

如果我们有 的时候, ,这个时候 ,估计没有任何意义。




  

相关话题

  为什么「正态分布」在自然界中如此常见? 
  为何部分刻板印象明明有统计学依据,人们却仍要反对刻板印象? 
  2 月 22 日消息统计此轮香港疫情已有 106 位患者去世,占比 0.3%,目前当地疫情情况如何? 
  为什么熵值最大的分布状态是正态分布而不是均匀分布? 
  为什么时间序列分析在ar(p)模型之外,还需要ma(q)模型和arma模型? 
  怎么从一个人的名字判断他的家境? 
  如何用数学知识解答「在进行社区大规模核酸检测时,分成几人一组进行混检效率最高」? 
  为何2005-2015年人口抽样调查中少数民族增加数大幅减少? 
  「转基因食品导致不孕不育患者达8000万」,8000万这个数据是如何得出的?可信吗? 
  有人说「骰子掷一次掷出6的概率为50%,因为只有是6、不是6两种事件」,请问如何反驳? 

前一个讨论
如何评价「长平之战」?
下一个讨论
世界足坛历史上有哪些横空出世又迅速陨落的流星?





© 2025-02-05 - tinynew.org. All Rights Reserved.
© 2025-02-05 - tinynew.org. 保留所有权利