财新传媒

关于基尼系数争论的回顾

2013年07月08日 16:25 来源于 财新网
有必要对争论的内容做系统性的总结,对双方观点的梳理不仅有助于读者更容易地了解争论的内容,同时也为进一步考察“西财”住户调查数据以及基尼系数估计值提供背景

  质疑与回应

  1.样本偏差问题

  首先有必要对西财住户抽样方法给予简单的介绍。西财住户调查采取了三阶段抽样方法。第一阶段抽样抽取市县;第二阶段从样本市县中抽取居/村委会;第三阶段从样本居/村委会抽取住户。各阶段设计的样本量为:全国样本市县为80个,每个样本市县中抽取4个居/村委会,全国共320个样本居/村委会,从每个居/村委会抽取20户到50户不等的样本户,但平均样本户数为25户,全国样本户规模在8000户~8500户。项目的最终样本量为8438户。

  在第一阶段抽样抽取市县时,其抽样单元不是全国31个省的所有市县,其中西藏、新疆、内蒙古等3个自治区所有市县被排除抽样单元之外,由此产生的抽样单元为全国25个省的2585市县。西财项目要求,80样本市县的地理分布要均匀,且富裕地区的样本不能过少。为此,25省的2585个市县按人均GDP划分为十层,在每一层内,以市县人口数为权数采取PPS抽样,各抽取8个样本市县,全国共抽取80个市县。80个市县中,东、中、西三个地区的样本数分别为32、27、21。在本文的下一节,我们将根据西财项目给出的权数变量,来评价其样本户在东、中、西三个地区之间的分布及其与总体分布之间的差异。

  在第二阶段抽取居/村委会时,第一阶段抽取的80个市县样本按非农人口比重标准五等分组,从非农人口比重最高组到最低组,抽取居委会与村委会个数的比率依次为0:4、1:3、2:2、3:1、4:0。居委会和村委会比率直接关系到住户样本的城乡分配,在下述的第三阶段抽样中,从村委会抽取的住户为农村住户样本,从居委会抽取的住户为城镇样本。因此,此处村/居委会样本的抽取办法意味着,从非农人口比重最高的16个市县(把80个市县五等分组,每组为16市县)仅仅抽取城镇样本住户,而不抽取农村样本。相反,在非农人口比重最低的16个市县仅抽取农村样本住户,而不抽取城镇样本。

  第三阶段抽样是从村/居委会样本中抽取住户样本。在这一阶段抽样,从村委会抽取的(农村)样本户统一设定为20户。对于居委会,为了“更多地抽取富裕户”,样本居委会按社区平均住房价格分成四组,从房价最高组到最低组抽取的样本户数分别设定为50、45、40、35。

  对于上述抽样方法,我们的质疑有三点:

  其一,样本量小,抽样误差大,样本难以有全国代表性。

  其二,随机抽样原则没有得到彻底的贯彻。在以前质疑中,我们仅仅提到了第二阶段抽样中存在的非随机抽样问题。如上所述,在第二阶段抽取居/村委会时,从非农人口最高的16个市县中仅抽取居委会,而从最低的16个县市中仅村委会,这意味着把前者16个县市中的农村家庭,以及后者16个县市中的城镇家庭的入样概率人为地设定为0,这显然违背随机抽样的原则。此外,明显违背随机抽样原则的操作还有:在第一阶段抽取市县时,西藏、新疆、内蒙古三个自治区所属市县被排除在抽样范围之外。

  其三,西财样本的地区分布与总体分布偏差大。根据西财项目住户数据中给出的抽样权重变量计算,东、中、西部地区的样本户比重为53%、25%和22%,而第六次人口普查数据显示在东、中、西部地区的家庭户比重分别为36.5%、36.5%和27.0%。也就是说,西财住户样本中东部地区的比重较总体比重高出近17%。如此之大的差异说明西财项目样本缺少全国代表性。

责任编辑:张帆 | 版面编辑:王永
财新传媒版权所有。
如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
财新微信