抽样分布十分重要,它是进行统计推断的基础,正是依赖抽样分布的理论,我们才能对总体的有关特征作出具有一定概率保证的估计和检验。因此,深入理解抽样分布的概念并掌握某些重要的抽样分布,对于进一步学习统计推断的其它方法将大有裨益。
统计量与抽样分布的概念
统计推断的目的,就是通过样本的特征值去推断总体的特征。在推断统计中将描述总体特征的指标都称为总体参数,而将反映样本特征的指标称为样本统计量。例如,总体的(总体均值)和σ(总体标准差)都是总体参数,而样本的X(样本均值)和S(样本标准差)就是样本统计量。因此,所谓推断,就是用样本统计量去推断总体参数。
样本统计量的数值是根据被抽取的样本数据计算的,在没有抽出具体样本之前,样本统计量的数值就不能确定,他是个随机变量。以X(样本均值)为例,当总体中有N个个体,从中抽出n个个体作为样本。如果采取非重复抽样的方式,将有CNn个抽法,也就是说可能有CNn个样本产生,每一个样本都可以计算出一个X(样本均值)的数值,CNn个样本就可以有CNn个X数值。由此可见,对于X来说,在没有确定抽出一个样本之前它是个不确定量,或者说是个随机变量。
概括的说,在已经抽取样本后,样本统计量是一个确切的数值;在未抽取样本之前,样本统计量就是一个随机变量。样本统计量虽然是个随机变量,但其变量值却具有某种概率分布,利用这些概率分布可以对总体参数进行有效的估计和检验。在统计学中,将这种样本统计量形成的概率分布称为抽样分布。常用的抽样分布有:
- 样本均值X的抽样分布
- X2分布
- t分布
- F分布
样本均值抽样分布
不论总体服从什么分布,只要总体均值和总体方差σ2存在,当样本容量n足够大时,样本均值X的抽样分布就近似与正态分布。下图描述了来自不同总体分布的样本均值的抽样分布,可以看到,当n从2到30时,样本均值已经近似于正态分布了。如下图所示:
解析:
从一个x~N(,σ2)的正态总体中抽样时,样本均值X的抽样分布总是服从与正态分布,记为X~N(1,σ12),1是样本均值X所有可能取值的平均数。可以证明1=(样本均值和总体均值相等)。σ1是样本均值X所能取值的标准差,也称为平均数的抽样误差。σ1虽然在理论上可以求出,但在实际抽样中则很难求得。人们经常利用总体标准差σ来表示σ1,有两种情况:
(1)从无限总体抽样或从有限总体重复抽样时
(2)从有限总体非重复抽样时
其中
被称为有限总体修正系数,在实际抽样中,当抽样比n/N<=0.05时,修正系数近似等于1,则上述两种计算式近似相等。
例题:
例如,有1,2,3,4,5组成的一个总体,现从中抽取2个数值为样本。如果重复抽样,将有5*5=25种抽法;如果非重复抽样,将有C52=10种抽法。我们将所有可能抽样结果列在表1和表2种:
从表1中的数据,可以计算得出:1=3,σ1=1。从表2中可以得出:2=3,σ2=0.866。
上述关于样本均值X抽样分布的特征值和σ都可以根据总体特征值得到。因为总体为1,2,3,4,5,所以可以计算得到=3,这与上述两种抽样方法计算的结果都相等,从而验证了=1=2=3.又已知总体的标准差
在重复抽样时
在非重复抽样时
由此可见,由公式计算得到了结果和实际计算得到的结果完全一致。
通过本例,我们主要说明以下三个问题:
1、样本均值X的抽样分布的特征值与总体参数存在着确切关系。
2、样本均值X是个随机变量,且服从概率分布。不论总体为何种分布,当n≥30时,总有X服从正态分布。所以,n≥30的样本被称为大样本;n<30的样本称为小样本。
3、重复抽样的抽样误差大于非重复重复抽样的抽样误差(1>0.866)。因此,实践中大多数抽样均使用非重复抽样。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。