卡方检验的应用
卡方检验即可以分析一个变量的拟合程度,如拟合优度检验(二项分布、泊松分布和正态分布)还可以用来分析两个变量间的关系:是否相互独立,是否来自一个总体。对于两个变量关系的分析方法与在拟合优度中的方法略有差别,这里适用了一种称为列联表的表格来进行分析。
列联表
所谓列联表就是一个行列交叉的表格。将研究的两个变量,一个变量按类分行排列,另一个变量按类分列排列,行列交叉处是同属于两个变量不同类的数据。这样的表格称为列联表。如下表所示:
列联表 | ||||||
变量A | 合计 | |||||
A1 | A2 | … | Ac | |||
变量B | B1 | n11 | n12 | … | n1c | n1. |
B2 | n21 | n22 | … | n2c | n2. | |
… | … | … | … | … | ||
Br | nr1 | nr2 | … | nrc | nr. | |
合计 | n.1 | n.2 | … | n.c | n |
上表就是列联表的形式,表示研究A、B两个变量,A变量有c类,B变量有r类。通常用i表示行,用j表示列,则i=1, 2, …, r; j=1, 2, …,c; nij表示第i行和第j列的频数,n表示总的频数,也就是样本容量。
在上述列联表中,频数nij是指实际频数。为了检验两个变量是否独立,还需要计算每一个行列的期望频数。我们在之前的篇章中有介绍,如果事件A和事件B相互独立,则有P(A∩B)=P(A)*P(B)。根据这个原理,现在我们作如下假设:
H0: 两个变量相互独立;
H1: 两个变量不独立;
则在H0为真时,第i行的Bi与第j列的Aj的期望频数就应等于P(Ai)*P(Bj)。
我们用P(Aj)=n.j/n,P(Bi)=ni./n分别代替P(Aj)和P(Bi)。所以在H0为真时,第i行第j列的期望概率为:P(Aj∩Bi)=n.j/n*ni./n
用样本容量n分别乘以不同行列的期望频率,就可以得到期望频数eij。第i行第j列的期望频数为:eij=n*ni./n*n.j/n=ni.n.j/n
即:eij=第i行频数合计×第j列频数合计/样本容量。
最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量。最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量:
该χ2统计量服从自由度为(r-1)(c-1)的卡方分布。当χ2<χα2[(r-1)(c-1)]时,拒绝H0,接受H1。在进行χ2检验时,仍要注意当各行列的期望频数小于5时,不能使用列联表检验。或者在有意义的情况下合并行和列,或加大样本容量,使各行列的期望频数要大于等于5。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。