χ2检验除了可以对假设的频数进行检验外,还可以对各种假设的分布进行检验。在对各种分布进行检验时,应注意将各变量值作适当分类,使每一类别的期望频数大于等于5。在选定类别时,如果变量值是有限个,则可以将每一取值作为一个类别;如果变量值可以取无限个,则通过适当合并,将其变为有限个区间,把每一区间视为一类。下面我们假设总体分布为离散型的泊松分布,通过例题介绍拟合优度的χ2检验的方法。
例1:有人认为某宾馆的电话交换台在周一至周五的日间打入电话的次数服从泊松分布。为此,管理人员以20min为一个时间段,连续记录了一个月320个时间段的打入电话次数,如下表所示。问根据这样的数据检验次数分布是否服从泊松分布。
1个月320个时间段打入电话的次数统计表 | |||
一个时间段打入次数 | 实际频数 | 一个时间段打入次数 | 实际频数 |
0 | 15 | 6 | 16 |
1 | 47 | 7 | 9 |
2 | 70 | 8 | 4 |
3 | 81 | 9 | 1 |
4 | 52 | 10次以上 | 0 |
5 | 25 | 合计 | 320 |
解:本例需要检验的是在20min的时间段内打入电话次数是否服从泊松分布,所以可假设:
H0:20min时间段打入电话次数服从泊松分布;
H1:20min时间段打入电话次数不服从泊松分布.
泊松分布的概率密度函数为:
根据该密度函数,就可以计算出在每一个时间段内各个类别出现的概率,这些概率值可通过泊松分布表查得。例如,在20min时间段内有0个电话打入的概率是f(X=0)=0.0498,有一个电话打入的概率是f(X=1)=0.1494等。然后用查出的概率分别乘以样本容量n(n=320),就可以得到各类别期望的频数。例如,在320个时间段内打入0个电话的期望频数是0.0498×320=15.936。计算过程如下表:
χ2统计量的计算过程 | ||||
打入次数xi | 为真时的概率f(X=xi) | 实际频数ni | 期望频数ei=n*f(X=xi) | (ni-ei)2/ei |
0 | 0.0498 | 15 | 15.936 | 0.0550 |
1 | 0.1494 | 47 | 47.808 | 0.0137 |
2 | 0.2240 | 70 | 71.68 | 0.0394 |
3 | 0.2240 | 81 | 71.68 | 1.2118 |
4 | 0.1680 | 52 | 53.76 | 0.0576 |
5 | 0.1008 | 25 | 32.256 | 1.6322 |
6 | 0.0504 | 16 | 16.128 | 1.0159 |
7 | 0.0216 | 9 | 6.912 | 0.9812 |
8 | 0.0081 | 4 | 2.592 | |
9 | 0.0027 | 1 | 0.864 | |
10次及以上 | 0.0012 | 0 | 0.384 | |
合计 | 1.0000 | 320 | 320 | 5.0068 |
注意上表中,打入电话次数为8,9和10次及以上次数的期望频数都小于5,所以将这三类与打入7次的合并为一类,所以合并之后的类别数k=8.这时χ2统计量为:
需要注意的是:根据Pearson定理,上式的χ2统计量服从自由度为k-r-1的χ2分布。其中k是类别的个数,r是估计的总体参数的个数。本例中k=8,r=1(只估计了一个参数λ),所以自由度为k-r-1=8-1-1=6。于是,当α=0.05时,查表得χ0.052(6)=12.592。对于样本的χ2值,因为χ2<χ0.052(6)落在接受域中,所以,接受H0,拒绝H1,即该电话交换台,在20min的时间段内打入电话次数是服从泊松分布的。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。