小白学统计(64)独立性和一致性的卡方检验—列联表分析方法

所谓列联表就是一个行列交叉的表格。将研究的两个变量,一个变量按类分行排列,另一个变量按类分列排列,行列交叉处是同属于两个变量不同类的数据。

卡方检验的应用

卡方检验即可以分析一个变量的拟合程度,如拟合优度检验(二项分布、泊松分布和正态分布)还可以用来分析两个变量间的关系:是否相互独立,是否来自一个总体。对于两个变量关系的分析方法与在拟合优度中的方法略有差别,这里适用了一种称为列联表的表格来进行分析。

列联表

所谓列联表就是一个行列交叉的表格。将研究的两个变量,一个变量按类分行排列,另一个变量按类分列排列,行列交叉处是同属于两个变量不同类的数据。这样的表格称为列联表。如下表所示:

列联表
变量A 合计
A1 A2 Ac
变量B B1 n11 n12 n1c n1.
B2 n21 n22 n2c n2.
Br nr1 nr2 nrc nr.
合计 n.1 n.2 n.c n

上表就是列联表的形式,表示研究A、B两个变量,A变量有c类,B变量有r类。通常用i表示行,用j表示列,则i=1, 2, …, r; j=1, 2, …,c; nij表示第i行和第j列的频数,n表示总的频数,也就是样本容量。

在上述列联表中,频数nij是指实际频数。为了检验两个变量是否独立,还需要计算每一个行列的期望频数。我们在之前的篇章中有介绍,如果事件A和事件B相互独立,则有P(A∩B)=P(A)*P(B)。根据这个原理,现在我们作如下假设:

H0: 两个变量相互独立;

H1: 两个变量不独立;

则在H0为真时,第i行的Bi与第j列的Aj的期望频数就应等于P(Ai)*P(Bj)。

我们用P(Aj)=n.j/n,P(Bi)=ni./n分别代替P(Aj)和P(Bi)。所以在H0为真时,第i行第j列的期望概率为:P(Aj∩Bi)=n.j/n*ni./n

用样本容量n分别乘以不同行列的期望频率,就可以得到期望频数eij。第i行第j列的期望频数为:eij=n*ni./n*n.j/n=ni.n.j/n

即:eij=第i行频数合计×第j列频数合计/样本容量。

最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量。最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量:

小白学统计(64)独立性和一致性的卡方检验—列联表分析方法

该χ2统计量服从自由度为(r-1)(c-1)的卡方分布。当χ2α2[(r-1)(c-1)]时,拒绝H0,接受H1。在进行χ2检验时,仍要注意当各行列的期望频数小于5时,不能使用列联表检验。或者在有意义的情况下合并行和列,或加大样本容量,使各行列的期望频数要大于等于5。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
生活统计学的头像生活统计学专栏
上一篇 2016-10-18 01:11
下一篇 2016-10-19 01:17

相关文章

关注我们
关注我们
分享本页
返回顶部