统计是万能的吗？

作为认知工具，统计必然是对认知有帮助的，但它同样有自身的局限性。

从信息表述的角度来说，统计的指标信息都是总括性的信息，无论方法如何科学，都会丧失一部分原始信息的内容。所以，从这个角度来看，统计信息更像是一种有损压缩，这就是它的局限性所在。

传统的加和值、平均值、最大值、最小值、样本量值等指标的使用极为普遍，在几乎所有的场景中都可以使用并尝试解释它们之间的关系。现在的社会学、宏观经济学、微观经济学研究会更多尝试这些值的复杂组合。

在社会学研究中有一个叫作“基尼系数”的研究指标。

基尼系数是1943年美国经济学家阿尔伯特·赫希曼根据洛伦兹曲线定义的判断收入分配公平程度的指标。基尼系数是一个比例数值，取值范围在0和1之间，是国际上用来综合考察居民内部收入分配差异状况的一个重要的分析指标。

洛伦兹曲线

洛伦兹曲线用于比较和分析一个国家在不同时代或者不同国家在同一时代的收入分配情况。作为一种总结收入和财富分配信息的便利的图形方法，洛伦兹曲线得到了广泛应用。

通过洛伦兹曲线，我们可以直观地看到一个国家收入分配平等或不平等的状况。画一个矩形：矩形的高是用来衡量社会财富的百分比，将其分为5等份，每一等份表示20%的社会总财富；在矩形的长上，将家庭从最贫者到最富者自左向右排列，也分为5等份，第1个等份代表收入最低的20%的家庭。在这个矩形中，将每一等份的家庭所有拥有的财富的百分比累计起来，并将相应的点画在图中，就得到了一条曲线，这就是洛伦兹曲线。整个洛伦兹曲线的坐标系是一个正方形，正方形的底边（即横轴）代表收入获得者在总人口中的百分比，正方形的左边（即纵轴）显示各个百分比人口所获得的收入的百分比。从坐标原点到正方形相应另一个顶点的对角线为均等线（即收入分配绝对平等线），这种情况一般不存在。实际收入分配曲线（即洛伦兹曲线）都在均等线的右下方。

赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标，设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B，并用表示不平等程度。这个数值称为“基尼系数”或“洛伦茨系数”。如果A为0，则基尼系数为0，表示收入分配完全平等；如果B为0，则基尼系数为1，表示收入分配绝对不平等。收入分配越趋向平等，洛伦茨曲线的弧度就越小，基尼系数也就越小；反之，收入分配越趋向不平等，洛伦茨曲线的弧度就越大，基尼系数也就越大。

基尼系数的实际数值只能在0到1之间。基尼系数越小，说明收入分配越平均；基尼系数越大，说明收入分配越不平均。国际上通常把0.4作为贫富差距的警戒线，大于这一数值就容易出现社会动荡。按照联合国有关组织的规定，基尼系数反映的收入分配情况如下表。

基尼系数反映的收入分配情况

取值界限	含义
小于0.2	收入绝对平均
0.2～0.3	收入比较平均
0.3～0.4	收入相对合理
0.4～0.5	收入差距较大
大于0.5	收入差距悬殊

前面提到，基尼指数通常把0.4作为收入分配差距的“警戒线”。根据黄金分割律，其准确值应为0.382。一般发达国家的基尼系数在0.24到0.36之间，美国偏高，为0.45。根据国家统计局公布的数据，中国的基尼系数2015年为0.462，2014年为0.469，2013年为0.473，2012年为0.474，2010年为0.481。

基尼系数的计算其实已经属于经济指标里计算方法比较复杂的了。这些指标的制定大都没有严格的推导依据，只要经过观察、归纳，然后建立一系列的量化解释就够了。曾有不少学者诟病基尼系数的局限性。例如，因为没有严格的计算标准，所以“收入”界定方式的差别使不同的组织在计算时使用了不同的统计口径。再如，无法解释基尼系数较大的国家社会仍然稳定，基尼系数较小的国家社会却不稳定的例外现象。此外，社会范围的圈定也是一个非常有争议的环节：是以市、省（州）、国家（地区）圈定，还是以更大的范围圈定？这个范围怎么设置更合理抑或无所谓？……

在这里谈谈我的观点。首先，无论怎样设计统计指标来做辅助性的认知，都是可以尝试的方案，因为试探性的解释本身就是认知的必经过程，这一点几千年来从未改变。其次，由于统计方法本身是一种有损压缩的升降维方式，所以对引入的误差或“变形”的影响在未来参与计算时是否会产生不良后果的问题需要谨慎处理。最后，在统计过程中，便是如何继续通过建模来尝试解释指标之间的关系。

——本文选自《数据科学家养成手册》，由电子工业出版社投稿

编辑推荐

从哲学、数学、物理、统计，到测量、实验、辩证、分析，用谈天说地的方式激发思考，归纳总结数据科学的实质及成就一位数据科学家所需要的基本素养。

内容提要

作为认知科学的延伸，数据科学一方面应该越来越引起广大大数据工作者的重视，另一方面也要撩开自己的神秘面纱，以最为亲民的姿态和每位大数据工作者成为亲密无间的战友，为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起，以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点，然后在生产的各个环节中对这些要点逐一进行讨论与落实，从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的，也不以某一种计算机语言编程作为主线脉络，而是在一个个看似孤立的故事与工程中不断拾遗，并试着从中悟出一些道理。

《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人，初级和中级程序员、架构师及希望通过对数据的感知改进工作的人，产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人，以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。