财新传媒

关于基尼系数争论的回顾

2013年07月08日 16:25 来源于 财新网
有必要对争论的内容做系统性的总结,对双方观点的梳理不仅有助于读者更容易地了解争论的内容,同时也为进一步考察“西财”住户调查数据以及基尼系数估计值提供背景

  3.对于西财抽样没有彻底贯彻随机抽样原则的质疑,无论是西财关于抽样方法的相关材料,还是甘犁教授的两次回应中,均没有给出相应的解释。如上所述,在西财第一阶段抽样中人为剔除了西藏等三个自治区所属市县,这显然违背了随机抽样的原则。对于上述在第二阶段抽样中(即从市县抽取居/村委会时)的非随机抽样问题,甘犁教授在两次回应中没有给出任何解释。我们之所以关注西财项目随机抽样不彻底问题,是因为目前抽样误差的理论都是以随机抽样为前提的,随机抽样原则不能得到彻底贯彻时,或者样本不完全是随机样本时,抽样误差的计算和其他统计推断均会受到影响。综上所述, 甘犁教授一再辩解说西财调查严格按照随机抽样原理, 这只是说的一套, 但是在实际操作过程中所做的是另一套。因此试图用随机抽样中样本量与抽样误差之间关系的原理原来说明西财住户调查的合理性是要大打折扣的,甚至有张冠李戴之嫌。

  4.对于西财样本的地区分布与总体分布偏差大的质疑,甘犁教授的回应是:“第一阶段抽样设计的主要目的是保证样本市县人均GDP的分布与总体尽量一致,而非地理分布一致。抽样的事实也证明了这一点,CHFS样本市县与总体市县在人均GDP的分布上非常一致。在此基础上,我们也主动指出样本在地理分布上与总体存在差异。从上述两个方面可以看出,地理分布的差异并不一定会导致对收入分布估计的偏差,不能将地理分布与收入分布等同,从这个角度质疑CHFS数据的准确性是完全站不住脚的。”如此的回应,我们不认为有说服力。如上所述,西财住户样本东部地区比重高达53%,而相应的人口总体比重仅有36.5%。如果果真像甘犁教授主张那样,如此之大的偏差“并不一定导致收入分配估计的偏差”的话,那么在甘犁教授眼里,导致收入分布估计的偏差需要大到何种程度呢?值得注意的是,偏重东部的西财样本偏差,部分是人为原因而致,而不是随机抽样的结果。例如,第一阶段抽样时剔除了西藏等3个自治区所属市县。这三个自治区均为西部,其家庭户数占全国的比重近4%。

  5.基尼系数估计的随意性问题

  西财项目在计算基尼系数时,“将收入小于0的家庭去掉,同时去除最高和最低收入的1%的家庭。”(西南财经大学中国家庭金融调查与研究心,《中国家庭收入不平等报告》,2012年12月9日,中国•北京第1页脚注1。)很显然,去掉最高和最低收入样本,将缩小基尼系数估计值。为何要去掉最高和最低收入家庭?为何去掉最高和最低收入1%的家庭,而不是0.5%或5%的家庭?为何权重不能解决最高和最低收入家庭问题?对于这些疑问,甘犁教授在《回应》中没有给出任何解释。任意去掉对基尼系数估计值有显著影响的样本,而不给出任何解释,自然让读者对其基尼系数估计值的可信性产生怀疑。

  在得到西财公布的住户数据之后,利用其中的家庭总收入以及权重的信息,我们重新估计了基尼系数,由此产生了更多的疑问。我们把计算结果汇总一张表(见下表),并在《再质疑》中表述了我们的疑问。我们的疑问主要有两点:第一点是我们没能复制西财公布的全国0.61、城镇0.56、农村0.60的基尼系数。如表1所示,按照西财项目的做法,去掉收入小于0,以及最高和最低收入1%家庭之后得到的基尼系数,全国0.56,与西财公布的0.61有显著的差异。如表1所示,我们估计的城镇和农村的基尼系数与其公布的也有显著差异。这让我们对西财公布的基尼系数产生了更大的疑虑。

  我们的第二个疑问是,西财公布的基尼系数是以家庭为单位计算的家庭收入基尼系数(更合理的做法是以个人为单位)。为了与统计局公布的以家庭成员为单位计算的人均可支配收入的基尼系数比较,使用西财公开的住户数据,我们估计了个人收入的基尼系数,结果显示在表1的下半部分。由此可知,包括所有样本时全国基尼系数为0.71。对于如此之高的基尼系数,不仅我们不相信,数据收集者也不敢相信,所以采取了截取数据的办法来降低其基尼系数的估计值(如果公布了0.71的基尼系数, 社会轰动效应会更大一些)。这从另一方面说明了其调查数据存在着严重的问题。

图标一  

责任编辑:张帆 | 版面编辑:王永
财新传媒版权所有。
如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
财新微信