基础准备
- 卡方检验:非参数方法:卡方检验的运用;
- 描述统计:Excel数据分析工具:描述统计;
- 峰度与偏度:数据分布形状描述;
在非参数方法:卡方检验的运用中已经介绍卡方检验的原理:通过卡方统计量来对比样本频率分布与某已知分布的频率分布,检验两者差异情况,决定是否接受样本分布等于已知分布。卡方分布能够用于各种分布的检验。
卡方检验原理和公式推导过程已经介绍过(回顾:非参数方法:卡方检验的运用),今篇用两个范例来介绍正态分布的卡方检验过程(期望频数大于5)。
范例分析
例1:有人认为某种不规则商品的质量服从正态分布。下表中列出了他随机抽取的40个该种商品的质量数据,问这些数据是否支持他的说法。(α=0.05)
解:根据题意,假设可设为:
H0:质量服从正态分布;
H1:质量不服从正态分布;
如果原假设为真,则需要知道总体的均值和标准差,利用上表中的样本数据计算出样本的均值和标准差作为总体均值和标准差的优良点估计。利用Excel描述统计(回顾:Excel数据分析工具:描述统计),可以得到样本的统计信息,结果如下:
从描述统计结果的峰度(-1.1398)和偏度(0.0732)可以看出(回顾:数据分布形状描述),与标准正态分布相比,偏度接近于0,数据的对称型很好,但是峰度较为平坦。接下来,通过卡方检验来验证总体是否正态分布。
现在需要将样本数据进行类别划分。一种简便的方法是使每个类别的期望值等于5,以满足检验的前提条件。对于本例40个样本数据,可以划分为40/5=8个类别,对于正态分布来说就是划分为8个区间,这8个区间的概率值是相等的,每个区间的概率为1/8=0.125。查标准正态分布表,可得到标准正态分布下划分8个区间的8个临界值点,再通过正态分布标准化的逆过程,可计算出8个临界值所对应的X值(区间界限),如下表:
根据计算的区间界限,将样本数据的每一个数据都分配到对应的区间中,然后统计实际频数。最后由实际频数与期望频数的差值计算卡方统计量,计算过程如下表:
据前述可知该统计量服从自由度为k-r-1的卡方分布。本例中,划分了8个区间k=8,估计了2个总体参数和σ,所以r=2,自由度为8-2-1=5。查卡方分布表(双侧显著水平0.5/2=0.025,自由度为5)得卡方值为11.07。因为计算卡方统计量为8<11.07,落在接受域,所以接受原假设,拒绝备择假设,即质量的数据可以认为是正态分布。
上例中样本数据是未经加工的原始数据,所以在分类时,是按照等概率区间进行分配。如果所得到的数据是已经分类的数据,则按已分好的类别计算区间概率。
例2:220名研究生入学考试的某学科成绩经整理如下表所示,问在α=0.05时,检验该学科成绩是否服从正态分布?
解:根据题意,建立假设:
H0:成绩服从正态分布;
H1:成绩不服从正态分布。
首先,根据样本数据对总体未知参数和σ进行估计。由上表中数据可以得到样本均值为114.45,标准差为13.77。由这个假设总体,可以计算出已分好的各区间的临界值。然后,根据临界值查标准正态分布表,得到各区间的期望概率,用样本容量乘各期望概率就可得出各区间的期望频数。
以70-80区间为例,现计算70和80的临界值:
查正态分布表,看到3.23对应的概率是0.4994,2.5对应的是0.4938。所以两个概率之差即为70-80的概率值为0.4994-0.4938=0.0056。然后,用样本容量乘以期望概率得到220*0.0056=1.232,即为在70-80区间的期望频数。
其它区间也类似计算,计算过程如下表:
由于前两类的期望频数为小于5,故将其合并到第3类中。这时类别数为K=7。由上表可知,计算卡方值为16.19。查卡方分布(显著水平0.05/2=0.025,自由度为7-2-1=4)得卡方临界值为9.488。因为16.195>9.488,落在拒绝域。所以拒绝原假设,接受备择假设,即该学科考试成绩不服从正态分布。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。