如何描述数据的集中趋势?

数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。

如何描述数据的集中趋势?

数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。国家的人均GDP就是一个集中趋势指标,虽然每个人对国家的GDP贡献度不一样,但是人均GDP能够代表每个人对国家GDP的平均贡献度,从而反映一个国家的经济发展水平。

算术平均值

算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的集中趋势。例如,一个家庭的人均收入、一个省的人均收入、一个国家的人均收入等。算术平均值也能用于定类数据和定序数据,决定算术平均值是否适用的前提条件是,求得的算术平均值是否具有现实意义。例如,某个NBA球员的得分排名第六,篮板排名第八,助攻排名第四,三项指标的平均排名是第六,说明这名球员是NBA的顶尖运动员,各项能力都比较均衡且突出。算数平均值包括简单算数平均值和加权算数平均值,它们的公式和生活应用案例在书中有详细介绍。

算数平均值的公式大家都很熟悉了,就是数据集合中所有数值的加和除以数值个数。算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。例如,国家统计局每年都会公布国民的人均年收入数据,网友们经常调侃自己拖了国家的后腿,这是因为一些极端的高收入人群拉高了整个社会的人均年收入水平。

图片

几何平均值

有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。例如,银行的平均存款年利率、汽车工厂每条生产线的平均产品合格率、国家十年来的平均发展速度等。几何平均值被用于各种定比数据的平均值计算,假设有一个定比数据集合,集合中的数值分别为 x1,x2,…,xn,且所有的数值均大于0,那么该数据集合的几何平均值的计算公式为:

生活案例:制造企业的生产成本有很大一部分会损耗在不合格品上。因为生产线的每一个工序都有可能生产出不合格品,其中很大一部分不合格品可以通过返工和修复重新进入生产线,成为合格品,所以最终的产品合格率不能反映中间工序的返工和修复所造成的成本损失,因此应该用整个生产过程的平均合格率来表示生产制造情况。南方某省的山区县有一家食品工厂,如图2-7所示,该工厂新引进的生产线由4道工序组成,经过一年的调试生产,每道工序的产品合格率分别是85%、97%、94%和92%,求这条生产线的平均产品合格率。

图片

因为该食品工厂的生产工艺是连续性生产,只有上一道工序的合格品才能进入到下一道工序中,所以每道工序的合格率之间是乘积关系。因此该生产线的产品平均合格率应用几何平均值表示。

图片

从计算结果可知,该食品工厂新引进生产线的平均产品合格率为91.9%,低于最后一道工序的产品合格率,也就是最终产品合格率92%。连续性生产线的平均产品合格率能够代表整条生产线的生产情况,特别是前段工序合格率较低时,平均产品合格率能够将这些情况真实地反映出来,不至于造成成本黑洞,让管理者忽视返工和返修产品所造成的成本。

众数

数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众数;如果有两个或多个数值的出现次数并列最多,那么这两个或多个数值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据、定序数据、定距数据和定比数据都适用,都能表示由它们组成的数据集合的数据集中趋势。

生活案例:人们穿着的服装和鞋帽尺寸对于生产厂商非常重要。假设用算术平均值计算200件服装的平均尺码为172.55厘米,这个尺码显然不能作为生产尺码,服装生产企业只能参考服装和鞋帽尺寸的众数进行生产才有意义。如果市场部的调研结果显示售出的200件服装中众数为170厘米,那么该服装生产企业在安排生产计划时,170厘米和175厘米尺寸的应该多安排生产计划,而180厘米和185厘米尺寸的应该少安排生产计划。

除服装行业以外,众数还被广泛应用于其他行业领域。例如,房地产行业关心哪种“格局”的房屋销售最好;饮料企业关心哪种“口味”的饮料销量最高;超市老板关心哪种“商品”的销售最多等。众数还有一个作用:当出现两个众数时,提醒我们考虑数据集合中的数据是否来自两个不同的总体。例如,将两个厂家生产的灯泡混在一起检查它们的使用寿命,如果两个厂家生产的灯泡质量有很大差异,那么就会从检查结果中发现这批产品的寿命数值出现了两个众数。

中位数

对于数据集合(x1,x2,……,xn),将所有的数值按照它们的大小,从高到低或从低到高进行排序,如果数据集合包含的数值个数是基数,那么排在最中间的数值就是该数据集合的中位数;如果数据集合的数值个数是偶数,那么取最中间两个数值的算术平均值作为中位数。

中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性,因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

生活案例:近几年,每年的大学毕业生人数都在500万人以上,2016年甚至达到765万人,想要找到一份好工作越来越难。大学生在参加招聘会时,常会看到招聘岗位介绍中的工资浮动很大。大四学生小王参加招聘会,看到某个岗位的月薪收入标注为3000元到10000元,并应聘成功。如果小王经过调查会发现,该公司这个岗位目前有5名员工,他们的月薪分别为3000元、4000元、4500元、6000元和10000元,那么小王应该如何评定这份工作的发展前途呢?如果月薪是3000元,那么这份工作的收入不高;如果月薪达到10000元,那么这份工作的工资收入就非常好了。从该公司目前的情况来看,这个岗位的平均月薪为6391元,中位数为4500元,如果看平均工资,这份工作的收入很不错;如果看中位数,那么这份工作的收入一般。从5名员工的月薪来看,差异很大,5000元以下有3人,5000元以上只有两人,所以应该考虑中位数4500元作为这份工作的代表工资,因为平均工资被10000元的员工拉高了,甚至高于排名第二的员工的月薪收入。

图片

本节小结

本节介绍了四种描述数据集中趋势的指标,它们分别适用于不同的情况。算术平均值应用最广,适用于定距数据和定比数据;几何平均值适用于比率数据,即数据之间为乘积关系的情况;众数是出现次数最多的数值,一般用于反映数据集合的真实数值聚集情况;中位数是数据集合的中点,多用于有较大偏斜的数据集合的集中趋势描述,能够有效避免极端值对描述数据集合集中趋势的影响。大家可以根据实际情况选择不同的集中趋势指标。

本文为专栏文章,来自:生活统计学,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/91658.html 。

(2)
生活统计学的头像生活统计学专栏
上一篇 2019-11-12 21:45
下一篇 2022-03-06 18:42

相关文章

关注我们
关注我们
分享本页
返回顶部