事实是否可靠,我们该问谁?我们该如何分析和判断?
平均数在寻找数据典型值方面是一个好手段,但是平均数不能说明一切。平均数能够让你知道数据的中心所在,但若要给数据下结论,尽有均值、中位数、众数还无法提供充足的信息。分析数据的分散性和变异性,可以更好地认识和理解数据。通过各种距和差来度量分散性和变异性。
使用全距区分数据集
平均数往往给出部分信息,它让我们能够确定一批数据的中心,却无法知道数据的变动情况。
通过计算全距(也叫极差),轻易获知数据的分散情况。全距指出数据的扩展范围,计算方法是用数据集中的最大数减去数据集中的最小数。最小值称为下界,最大值称为上界。
全距是量度数据分散程度的简单又方便的方法。
全距仅仅描述数据的宽度,并没有描述数据在上、下界之间的分布形态。
四分位数
把整批数据一分为四作用的几个数值就是所谓的四分位数。
最小的四分位数(Q1)称为下四分位数或者第一四分位数,最大的四分位数(Q3)称为上四分位数或者第三四分位数。中间的四分位数(Q2)就是中位数,因为它将数据一分为二。每两个四分位数之间的距离被称为四分位距(IQR)。
四分位距的优点是:与全距相比,较少受到异常值的影响。
四分位矩有效地忽略异常值(数据中的极大值或者极小值)。
求下四分位数位置
求上四分位数位置
除了全距和四分位距,还有别的距可供我们使用。
除了四分位数之外,还可以十分位数、百分位数等。
求百分位数的方法
用箱线图绘制各种“距”
箱线图,一种专门用来显示各种各样的距。
箱线图显示数据的全距、四分位距以及中位数。
箱线图可以对不同数据集进行比较。
篮球球员得分箱线图
变异性比分散性更具体
使用方差计算变异性。
方差,各个数值与均值的距离的平方数的平均值。
统计学里面,方差的通用形式。
或者
标准差
标准差,方差的平方根。
标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
标准分
标准分通常以字母z表示,为了求出特定数值x的标准分,计算公式如下。
标准分把每一个数据集转化为更为通用的分布形态,从而实现不同数据集的比较。
标准分是对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。
重要统计量
全距(极差)
四分位数
四分位距
方差
总结:数据的分散性和变异性度量法则,全距、四分位距、百分位距、方差、标准差和标准分。距的可视化方式,箱线图。
思考题
1如何计算百分位距?
2方差和标准差与全距有什么区别?
3动一动笔,做计算。
作者:王路情,80后,数据科学研究者和实践者,包括数据科学知识传播,数据挖掘项目实践,数据分析报告撰写等工作。
来自:http://www.wangluqing.com/2015/07/01/luqinbiji4/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。