独立性检验的应用
独立性检验的研究在实践中很有用途。例如,饮料商想知道不同年龄的人是否偏好不同口味的饮料,饮料商关心年龄这个变量与不同口味这个变量是否独立;在比如,质检员想研究生产不合格产品的数量与一个人工作时间长短是否相关;社会工作者想分析父辈职业是否会影响子女的职业等。
3*3及以上应用举例
例1:某研究所欲对个人收入与学历关系进行研究。为此将收入分为三个水平:高收入,中等收入,低收入,将学历分为三个层次:高中及以下,大学,研究生。现有一个由500人组成的样本资料,见下表。是在α=0.01下,检验收入与学历是否有关系。
收入水平 | 最后学历 | 合计 | ||
高中及以下 | 大学 | 研究生 | ||
高收入 | 25 | 21 | 10 | 56 |
中等收入 | 82 | 88 | 30 | 200 |
低收入 | 223 | 16 | 5 | 244 |
合计 | 330 | 125 | 45 | 500 |
解:本例要检验与学历者两个变量是否关系,也即检验独立性问题。根据题意建立假设
H0: 收入与学历无关系(独立); H1: 收入与学历有关系(不独立);
本例中行与列的数相等,r=c=3是个3*3的列联表,所以需要计算9个期望频数值。根据上表数据,利用公式计算每一行列的期望频数。例如:
以此类推,可算出所有期望频数。现将所有的期望频数与实际频数列入下表。(括号中为期望频数)
收入水平 | 最后学历 | 合计 | ||
高中及以下 | 大学 | 研究生 | ||
高收入 | 25(36.96) | 21(14) | 10(5.04) | 56 |
中等收入 | 82(132) | 88(50) | 30(18) | 200 |
低收入 | 223(161.04) | 16(61) | 5(21.96) | 244 |
合计 | 330 | 125 | 45 | 500 |
表中的期望频数都大于5,不用合并行与列。所以,可以直接根据公式计算χ2统计量。
已知α=0.01,查χ2分布表,得χ20.01(4)=12.277。因为χ2=138.21>12.277=χ20.01(4),落在拒绝域。所以拒绝H0,接受H1,即收入和学历是关系的(不独立)。
2*2应用举例
在列联表的检验中,如果特殊的2*2列联表,这时χ2的自由度为1,其临界值较小,χ2检验往往高估变量之间的关系。这时最好使用(Yates)的连续修正方法,从而得到一个较小的χ2值,即
式中在每一个实际频数与期望频数绝对偏差之后再减0.5。
例2:某服务公司在开展优质服务工作中,想研究雇员性别是否与顾客对其评价有关。在下表中列出了顾客对100名公司雇员评价的数据。试在α=0.05的显著性水平下,检验性别与评价是否独立。
雇员性别 | 顾客评价 | 合计 | |
好 | 差 | ||
男 | 30 | 5 | 35 |
女 | 45 | 20 | 65 |
合计 | 75 | 25 | 100 |
解:根据题意建立假设
H0:雇员性别与顾客对其评价无关;H1:雇员性别与顾客对其评价有关。
计算期望频数
因为本例是2*2的列联表,所以在计算统计量时应使用修正方法,即利用修正公式来计算χ2值,有
查χ2分布表,得χ20.05(1)=3.841。因为χ2=2.476<3.841=χ20.05(1),落在接受域内,所以接受H0,拒绝H1,即顾客对公司雇员的评价与其性别无关。
在上例中,如果不进行修正,可以计算得到χ2=3.296。在α=0.05时,结论与上例相同,落在接受域内,性别与评价无关。但在α=0.1时,有χ20.1(1)=2.706。落在拒绝域内,就会得出与上例相反的结论。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。