我们知道在二项分布试验中,每次试验的可能结果只有两个:成功或失败。现在将二项分布进行扩展,即在每次试验中可能出现的结果多于两个,对于实际结果多余两个的概率分布一般称为多项分布。多项分布试验的结果虽然有多个,但每次有且仅有一个结果发生,并且在每次进行相互独立的试验时,每种可能出现结果的概率都应保持不变。例如,企业按规模大小可以分为大型企业、中型企业和小型企业三种。我们在对企业进行研究时,如果每次调查是随机进行的,而且在大型企业、中型企业和小型企业每次出现的概率都相等,那么,这样的分布就是多项式分布。类似的问题还有,当我们对居民收入进行研究时,居民收入可以按高低分为高收入、中等收入和低收入三种。对国民经济进行研究时,国民经济也可分为农业、采掘业、制造业、建筑业等多个行业。在对上述的多项分布进行研究时,一般需要使用χ2统计量进行检验,这种检验也被称为χ2检验。下面我们通过一个例子来说明使用χ2检验的方法。
例题:某大型超市在去年全年饮料的销售中,A/B/C三种饮料的销售比例分别是58%,33%和9%。今年C品牌的厂家在进行了一系列的促销活动后,要求超市提供更多的货架位置以摆放更多的C品牌饮料。为此超市对C品牌促销活动后销售的270瓶饮料进行了统计分类,统计结果如下:A种150瓶,B种85瓶,C种35瓶。根据这样的数据,超市能否判断销售比例发生了变化?
解:本例中要检验的是个多项分布。顾客在购买每一瓶饮料时都相当于做一次试验,每次试验都有三种可能的结果:购买A品牌,购买B品牌或是购买C品牌。我们以PA、PB、PC是否发生了改变。对此问题,可以建立如下假设:
H0:PA=0.58, PB=0.33, PC=0.09;
H1:销售比例不是PA=0.58, PB=0.33,PC=0.09.
现在来分析在270瓶的销售中,A、B、C的销售比例是否与原假设相符。我们首先按原假设计算出270瓶中各品牌期望的销售数量,如下表
按原假设各品牌期望的销售量 | ||
品牌 | 原假设 | 期望的销售量 |
A | 0.58 | 0.58×270=156.6 |
B | 0.33 | 0.33×270=89.1 |
C | 0.09 | 0.09×270=24.3 |
如果期望的销售量与实际的销售量相差不大,则说明销售比率没有发生变化,如果相差很大,就说明比率发生了较大的改变,对于这样多项差值的检验,可以构造χ2统计量,即
式中:ni=第i类的实际频数,ei=H0为真时的第i类期望频数,k=类别总数。根据Pearson定理可知,当n充分大时,χ2~χ2 (k-1)。现将本例χ2统计量的计算过程列入下表中:
χ2统计量的计算过程 | |||||
品牌(k) | 原假设(H0) | 实际频数(ni) | 期望频数(ei) | (ni-ei)2 | (ni-ei)2/ei |
A | 0.58 | 150 | 156.6 | 43.56 | 0.278 |
B | 0.33 | 85 | 89.1 | 16.81 | 0.189 |
C | 0.09 | 35 | 24.3 | 114.49 | 4.711 |
合计 | 1.00 | 270 | 270 | - | 5.178 |
由上表的计算结果可知χ2=5.178。如果实际频数与期望频数差别较大,则χ2值应大于给定的χα2临界值。这时的拒绝域是χ2>χα2(k-1),这与第六章的假设检验有所不同。在本章进行检验时,虽然假设是双侧检验,但拒绝域却永远是右侧检验。本例中,如果给定的α=0.05,则查χ2分布表,得χ0.052(2)=5.991,将统计量的值与临界值进行比较,有χ2=5.178<5.991=χ0.052(2),落在接受域。所以接受H0,拒绝H1,即C品牌进行促销活动并没有使销售比例发生明显改变,由此超市可以拒绝C品牌提出的更多货架的要求。
χ2检验方法主要是用来检验频数问题的,即检验各类实际观察的频数是否显著不同于建设的期望频数。使用χ2检验需要满足以下的假定:
1、每次的试验是独立进行的;
2、如果试验有k个类别,那么每次试验的结果是k个类别中的某一个;
3、每次试验时每个类别发生的频率都保持不变。
为了满足上述的条件,在进行χ2检验时,应使试验次数n较大,且每一类别的期望频数都要大于等于5。如果在检验中期望频数小于5时,一般可以选择以下三种方法解决:
1、去掉期望值小于5的类别,这种方法会使研究范围减少;
2、增加试验次数n,也就是增大样本容量,使期望频数增加;
3、合并类别,将期望频数小于5的合并到相邻的类别中,使期望频数大于等于5;
这三种方法经常被使用,但要注意,合并之后的类别也要有意义。
χ2检验只适用于频数检验,而不适用于比率的检验。例如,在上例中,如果超市实际销售的数量是2700瓶而不是270瓶,而销售比例仍然保持不变,即A种1500瓶,B种850瓶,C种350瓶。下面在α=0.05的显著性水平下,检验与上例相同的假设。
H0:PA=0.58, PB=0.33, PC=0.09;
H1:销售比例不是PA=0.58, PB=0.33,PC=0.09.
我们可以列出下表:
χ2统计量的计算过程 | |||||
品牌(k) | 原假设(H0) | 实际频数(ni) | 期望频数(ei) | (ni-ei)2 | (ni-ei)2/ei |
A | 0.58 | 1500 | 1566 | 4356 | 2.782 |
B | 0.33 | 850 | 891 | 1681 | 1.887 |
C | 0.09 | 350 | 243 | 11449 | 47.115 |
合计 | 1.00 | 2700 | 2700 | - | 51.784 |
从上表可以得到,因为χ2=51.784>5.991=χ0.052(2),所以落在拒绝域。因此拒绝H0,接受H1,即超市销售三种饮料的比例已经发生明显改变。
通过这两个例子的比较可以看出,虽然两种情况下的销售比例没有改变,但χ2检验的结果却截然相反。其主要原因就是各类别的频数发生了较大的变化,导致结论的相反。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。