财新传媒

关于基尼系数争论的回顾

2013年07月08日 16:25 来源于 财新网
有必要对争论的内容做系统性的总结,对双方观点的梳理不仅有助于读者更容易地了解争论的内容,同时也为进一步考察“西财”住户调查数据以及基尼系数估计值提供背景

   甘犁教授在《再回应》中回应了我们的质疑。首先,对于为何去掉一些住户样本的质疑,甘犁教授说:“在随机抽样下,统计调查的住户涵盖了各个阶层,其中不排除有极端值的情况,不管是收入的极端值或是资产的极端值,不管是极高的数据还是极低的数据,对于推断总体的计算和分析都有很大的影响,但也是很有帮助的。”也就是说,在计算基尼系数时去掉部分样本的理由是为了消除住户调查中极端值的影响。即使删除样本的任意性是否合理存而不论,极少数样本的“很大的影响”则意味着西财样本产生的基尼系数对高收入家庭非常敏感。正如甘犁教授在《再回应》中所言,在其样本中再剔除0.5%的最高收入家庭,会使全国基尼系数从0.61降到0.564。对高收入样本如此敏感的基尼系数,暗示着相应的住户调查样本代表性和权重存在着一定的问题(如前所述,人为地增加高收入样本比重,如后所言,无意中低估低收入家庭的收入,造成了中等收入家庭样本偏低,也会带来基尼系数的高估。根据万海远(2013)的计算,如果将西财样本中中间80%的家庭样本扩大50%,那么计算出的基尼系数将会由原来的0.587下降为0.507,下降幅度为13.6%。),这也是人们对其基尼系数产生怀疑的原因之一。

  对于使用西财公开数据,无法复制西财公布的基尼系数估计值的质疑,甘犁教授给出了两个理由:一个是对高收入和高财富家庭的数据进行了截尾处理;另外一个是权数的变化。首先看后一种解释。根据甘犁教授的解释,西财项目在报告(即公布基尼系数的报告)发布之后根据谢宇教授对权重进行了微调。他们发布的数据是根据权重调整之前的数据计算的,而我们所使用的是权重调整之后的数据,两种结果的差异来自于权重上的差异。然而,事实上这一解释是无力的。甘犁教授在《再回应》中给出了他们根据权重调整之后估计的基尼系数(甘犁教授的原话是:“2012年12月底,在对抽样权重进行调整之后,我们重新计算了基尼系数,并对CHFS主页上发布的《中国收入差距报告》进行了更新。权重调整后的计算结果与CHFS在2012年12月9日发布的结果基本一致,全国的基尼系数为0.61,城镇和农村的基尼系数分别为0.58和0.61。”,详细参见“再回应”。),结果是全国为0.61,城镇和农村为0.58和0.61。这些结果与他们根据权重变化之前计算的基尼系数几乎相差无几。由此可见,我们无法复制西财基尼系数的原因不在于权重的变化。

  再看甘犁教授给出的第一个理由,即对高收入和高财富家庭的数据进行截尾处理。根据保护受访者隐私的原则,西财在公布数据时对高收入和高财富家庭进行了结尾处理,即对家庭收入或家庭财产高出给定金额的家庭,把其家庭收入或家庭财产替换成给定金额。根据西财相关资料解释,家庭收入的替换标准为年收入300万元,对于高出这一标准的家庭,将其收入替换为300万元,由此替换的家庭共七户。也就是说,他们对外公布的是截尾的数据,我们计算的基尼系数是根据截尾的数据,而他们公布的基尼系数是根据非结尾的原始数据计算的,因此我们计算的基尼系数要低于他们的数字。

  可是,这个解释同样不能成立。我们的理由是,我们比较的基尼系数是去掉了收入小于0,以及最高和最低收入1%家庭之后计算的基尼系数,而这七个高收入户都属于被删掉的样本户中。从这个角度上讲,计算基尼系数的样本,我们和西财项目应当是相同的。

责任编辑:张帆 | 版面编辑:王永
财新传媒版权所有。
如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
财新微信