百科问答小站 logo
百科问答小站 font logo



统计学上看西南财经大学中国家庭金融调查 (CHFS) 抽取 28000 户家庭的全国调研方法上严谨吗? 第1页

  

user avatar   chenqin 网友的相关建议: 
      

西南财经大学的家庭金融调查项目是一个很了不起的项目,他是第一个尝试准确估计家庭金融资产的调查。在此之前,各式各样的调查虽多,但对一些个人敏感问题,则至多涉及到收入、职位、有几套房子。再深入的问题,比如,家里有多少存款?不敢问了。

笃笃笃,敲门声传来,你打开门,礼貌的房产中介站在门外:先生您好您的房子卖多少钱。

如果一项调查要问到存款这种问题,那么一般来说,他的调查员的结局都不会比这个房产中介好多少。西南财大花了很大功夫进行事先宣传,让人们知道这项调查的重要性与个人隐私的安全性,学生调查员的一次次回访,也极大降低了这项调查的拒访率,最终得到了质量很高的问卷,这都是很了不起的成就。

言归正传。我们来回答这个问题:要了解中国家庭的金融资产情况,28000户家庭到底够不够?

答案是——看情况,看方法。你想要从这份数据中了解的信息,以及抽样方法,决定了数据的可靠程度。

如果仅仅想要了解所有城市家庭的资产平均数,那么,28000份问卷已经足够了。

这篇关于CHFS的新闻

显示,中国城市家庭资产的中位数为40.5万元,平均数为247.60万元。如果家庭资产服从对数正态分布,那么就有,家庭资产的标准差应当等于,即1493万元。

在计算平均数时,随着样本量增大,样本平均值的方差会依概率收敛到零,收敛速度为样本量的平方根。当我们取28000个样本时,样本家庭资产平均数的标准差变成=8.9万元,也就是说,只要随机性足够,那么通过28000份问卷计算平均得到的家庭资产平均数,有很大可能会(66%)落在一个长度为18万元的区间内,几乎肯定会(96%)落在一个长度为36万元的区间内。上下各18万元的误差,对资产平均值估计来说已经足够准确了。

但是,如果你要精确了解那些最富裕的1%家庭的资产分布情况,28000份问卷则远远不够。很简单,最富有的1%家庭在问卷中只有280份,与28000份的总样本相比,280份问卷会将样本平均数的标准差扩大十倍。对上一个例子的数字来说,就是上下各180万元的误差。这就有些不可接受了。另一方面,仅仅280份问卷,也不利于我们了解富人的资产分布的尾部到底有多长。

怎么办呢?通常情况下,完全随机的抽样调查会得到下一幅图:

为了做图方便,该图假设一个人口的收入服从正态分布。当完全随机抽样实行时,被调查到的样本实际上如同红线一般分布,其特点是中间密集而两段稀疏,即收入处于中间水平的人口被调查到了很多,收入最高和最低的人口没有被足够的调查到。

在这种情况下,我们估计总样本平均数——没问题;估计中段人口收入平均数——更加没问题,中段的样本如此密集;但最高/低收入的人口——问题就来了。从2到4(-4到-2),区区两根红线,跨越了如此大的收入区间,根本无法与中间段的密集红线相比,因此不能很好代表该区间人口的收入情况。

对此,最简单的一个想法是,增加调查总量。当调查总量足够大时,我们必然也能在左右两段获得足够准确估计的密集红线,问题解决了吗?

没有。调查是一项高成本的活动。每十年一次的人口普查,仅仅是每户家庭一张纸的问卷,就需要650万名调查员,80亿元经费投入。当前,对一个比较详细的调查来说,每增加一个被调查样本,成本就增加300到500元不等。哪有那么多个几百万元来保证你的尾端准确率呢?

于是,人们想出了一种折衷的方法。中间段人口本身就比较密集,且收入分布较窄,就少调查一些;两端人口,就多调查一些吧。于是上一幅图变成了这样:

中间变稀疏,两段变密集的调查方法,反而使得在收入分布上调查得更均匀了。虽然上图的红线数量比第一幅图还要少几根,但显然下图对各个收入段的情况都有比较好的把握。这种折衷的方式,能够在不增加成本的情况下,同时获得中间收入段和高低两极的收入估计。如果要用这个样本计算总体平均数,只需要加权调整,让所有人口的被抽中概率乘以权重等于一个恒定值即可。比如可以让中段样本一个抵俩,而两端人口两个抵一,方法不一而足。

西南财大的家庭金融调查就使用了这种调整。他刻意多抽取了那些最穷和最富的人口,来保证尾端分布估计的准确性。具体方法见

swufe.edu.cn 的页面

。其中关键的一个步骤是:

第一,按照各市县的非农人口比例的分位数,将各市县分成 5 个组。分组的依据是各市县非农人口比重 20%、40%、60%和 80%的分位数。
第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是 4:0。
第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是 3:1。
第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是0:4

也就是说,在城镇人口占比最高的地方(通常是沿海大城市),抽取尽量多的城镇人口;而在农村人口占比最高的地方(通常是内陆小城镇),抽取尽量多的农业人口。换句话说,在高收入地区尽量调查高收入人口,而在低收入地区尽量调查低收入人口,以此增加两端人口的被抽中概率,来接近上文第二幅图的情况。最后再通过加权来得到总样本平均值。

这种看似十分奇怪的抽样方式,其实正是同时权衡了成本与准确性后做出的选择。

最后,西南财大采用的这种抽样方法也有自己的问题。最大的问题在于一部分人口的代表缺失。根据

2010年统计用区划代码和城乡划分代码

,我们可以算出不同地区的村委会和居委会的分布情况。真实的分布与家庭金融调查的抽样选择相比,可用下图表示:

在城镇人口占比最多的地区,共有30.7%的地区实际上仍然属于村委会。但在抽样中,他们完全被舍弃了,也就是说,被抽中的概率为零。任何加权方式,都不能把被抽到概率为零的样本恢复出来

如果把中国的近3000个县级单位按照2010年人口普查的非农人口比例排列,那么排名靠前的600个县级单位共有2.7亿人口,当其中占比为30.7%的村委会全部被抽样方法舍弃掉时,约8000万人将无论如何都不可能被反映到数据中。

如果被舍弃的样本可以用其他类似样本替代也就罢了,但我们实在难以否认:大城市的村委会人口其实有着非常丰富的数据特征。比如他们的征地收益可能会更高,从事非农工作的比例更高,自我雇佣的比例也可能更高等等,但我们却无法在数据中找到他们的身影,这是中国金融调查的一个莫大遗憾。




  

相关话题

  大陆旅游团台湾出事频率相对算高了么? 台湾的交通问题事故率如何? 
  三门问题(蒙提霍尔悖论)变种,如果主持人不知道哪个门是汽车随便蒙门打开正好是羊这时观众还需要换门吗? 
  为什么时间序列分析在ar(p)模型之外,还需要ma(q)模型和arma模型? 
  如何解释探索性因素分析? 
  二项分布的个位数期望怎么算? 
  命理学属于玄学还是统计学? 
  多元回归为什么总可以转为多元线性回归? 
  计量经济学所谈论的「因果」是什么意思? 
  如果用总体作为数据,那么回归系数的显著性还有意义吗? 
  怎样理解和区分中心极限定理与大数定律? 

前一个讨论
如果法国大革命爆发时玛丽亚·特蕾莎与腓特烈二世还活着,他们会采取怎样的行动?
下一个讨论
杭州女子生三孩哺乳期被解除劳动合同,仲裁被驳回,你怎么看?





© 2024-11-25 - tinynew.org. All Rights Reserved.
© 2024-11-25 - tinynew.org. 保留所有权利