小白学统计（61）多项分布的卡方检验

我们知道在二项分布试验中，每次试验的可能结果只有两个：成功或失败。现在将二项分布进行扩展，即在每次试验中可能出现的结果多于两个，对于实际结果多余两个的概率分布一般称为多项分布。多项分布试验的结果虽然有多个，但每次有且仅有一个结果发生，并且在每次进行相互独立的试验时，每种可能出现结果的概率都应保持不变。例如，企业按规模大小可以分为大型企业、中型企业和小型企业三种。我们在对企业进行研究时，如果每次调查是随机进行的，而且在大型企业、中型企业和小型企业每次出现的概率都相等，那么，这样的分布就是多项式分布。类似的问题还有，当我们对居民收入进行研究时，居民收入可以按高低分为高收入、中等收入和低收入三种。对国民经济进行研究时，国民经济也可分为农业、采掘业、制造业、建筑业等多个行业。在对上述的多项分布进行研究时，一般需要使用χ²统计量进行检验，这种检验也被称为χ²检验。下面我们通过一个例子来说明使用χ²检验的方法。

例题：某大型超市在去年全年饮料的销售中，A/B/C三种饮料的销售比例分别是58%，33%和9%。今年C品牌的厂家在进行了一系列的促销活动后，要求超市提供更多的货架位置以摆放更多的C品牌饮料。为此超市对C品牌促销活动后销售的270瓶饮料进行了统计分类，统计结果如下：A种150瓶，B种85瓶，C种35瓶。根据这样的数据，超市能否判断销售比例发生了变化？

解：本例中要检验的是个多项分布。顾客在购买每一瓶饮料时都相当于做一次试验，每次试验都有三种可能的结果：购买A品牌，购买B品牌或是购买C品牌。我们以P_A、P_B、P_C是否发生了改变。对此问题，可以建立如下假设：

H₀:P_A=0.58, P_B=0.33, P_C=0.09;

H₁:销售比例不是P_A=0.58, P_B=0.33,P_C=0.09.

现在来分析在270瓶的销售中，A、B、C的销售比例是否与原假设相符。我们首先按原假设计算出270瓶中各品牌期望的销售数量，如下表

按原假设各品牌期望的销售量
品牌	原假设	期望的销售量
A	0.58	0.58×270＝156.6
B	0.33	0.33×270＝89.1
C	0.09	0.09×270＝24.3

如果期望的销售量与实际的销售量相差不大，则说明销售比率没有发生变化，如果相差很大，就说明比率发生了较大的改变，对于这样多项差值的检验，可以构造χ²统计量，即

式中：n_i＝第i类的实际频数，e_i＝H0为真时的第i类期望频数，k＝类别总数。根据Pearson定理可知，当n充分大时，χ²～χ² (k－1)。现将本例χ²统计量的计算过程列入下表中：

χ²统计量的计算过程
品牌(k)	原假设(H₀)	实际频数(n_i)	期望频数(e_i)	(n_i-e_i)²	(n_i-e_i)²/e_i
A	0.58	150	156.6	43.56	0.278
B	0.33	85	89.1	16.81	0.189
C	0.09	35	24.3	114.49	4.711
合计	1.00	270	270	－	5.178

由上表的计算结果可知χ²＝5.178。如果实际频数与期望频数差别较大，则χ²值应大于给定的χ_α²临界值。这时的拒绝域是χ²>χ_α²(k-1)，这与第六章的假设检验有所不同。在本章进行检验时，虽然假设是双侧检验，但拒绝域却永远是右侧检验。本例中，如果给定的α＝0.05，则查χ²分布表，得χ_0.05²(2)＝5.991，将统计量的值与临界值进行比较，有χ²＝5.178<5.991＝χ_0.05²(2)，落在接受域。所以接受H₀，拒绝H₁，即C品牌进行促销活动并没有使销售比例发生明显改变，由此超市可以拒绝C品牌提出的更多货架的要求。

χ²检验方法主要是用来检验频数问题的，即检验各类实际观察的频数是否显著不同于建设的期望频数。使用χ²检验需要满足以下的假定：

1、每次的试验是独立进行的；

2、如果试验有k个类别，那么每次试验的结果是k个类别中的某一个；

3、每次试验时每个类别发生的频率都保持不变。

为了满足上述的条件，在进行χ²检验时，应使试验次数n较大，且每一类别的期望频数都要大于等于5。如果在检验中期望频数小于5时，一般可以选择以下三种方法解决：

1、去掉期望值小于5的类别，这种方法会使研究范围减少；

2、增加试验次数n，也就是增大样本容量，使期望频数增加；

3、合并类别，将期望频数小于5的合并到相邻的类别中，使期望频数大于等于5；

这三种方法经常被使用，但要注意，合并之后的类别也要有意义。

χ²检验只适用于频数检验，而不适用于比率的检验。例如，在上例中，如果超市实际销售的数量是2700瓶而不是270瓶，而销售比例仍然保持不变，即A种1500瓶，B种850瓶，C种350瓶。下面在α＝0.05的显著性水平下，检验与上例相同的假设。

H₀:P_A=0.58, P_B=0.33, P_C=0.09;

H₁:销售比例不是P_A=0.58, P_B=0.33,P_C=0.09.

我们可以列出下表：

χ²统计量的计算过程
品牌(k)	原假设(H₀)	实际频数(n_i)	期望频数(e_i)	(n_i-e_i)²	(n_i-e_i)²/e_i
A	0.58	1500	1566	4356	2.782
B	0.33	850	891	1681	1.887
C	0.09	350	243	11449	47.115
合计	1.00	2700	2700	－	51.784