在抽样之前,确定适当的样本容量是必须的。因为样本容量直接影响到抽样的误差大小以及抽样费用的多少。如果样本容量较大,就会减少抽样误差,提高估计总体参数的精度,但是抽样的费用就会相应增加;反之,样本容量较小,抽样费用可以降低,但抽样误差就会增大。所以,在抽样之前必须确定一个适当的样本容量。
所谓适当的样本容量,就是指能够满足研究者对抽样误差要求的应抽取的最少样本单位。这里所说的抽样误差是指由于被抽取样本的代表性所产生的误差,具体是指样本统计量的实际数值与总体参数之间的差值。例如,`X表示一个实际的样本均值,表示总体均值,则`X-就是抽样误差。一般意义上,我们用Δ`X表示总体均值允许的抽样误差,Δ`p表示总体成数允许的抽样误差,即有|`X-|=Δ`X,|`P-p|=Δ`p。根据抽样误差的定义可知,抽样误差的值可正可负,实际是指围绕总体参数左右波动的范围。
在确定样本容量时,需要考虑以下因素的影响:
(1)总体中变量值的离散程度大小。在相同条件下,离散程度越大,则需抽出的样本容量就越多。一般用总体标准差表示离散程度的大小。
(2)置信度1-α的大小。置信度越高,需抽出的样本容量就越多。反之,则越少。
(3)允许的抽样误差大小。研究者如果能够允许较大的抽样误差,则可以减少抽样的数目,降低精度;如果研究者要求的抽样误差较小,则必须增加样本抽样数目。
估计总体均值时的样本容量
如果抽样的目的是为了估计总体均值的置信区间,则在给定Δ`X和置信度1-α的条件下,可用
在上面公式中,都含有总体标准差σ。如果σ已知,则可带入公式计算。如果σ未知,则可按以下方法近似确定σ值。
(1)用以前类似研究的数值最大的样本标准差代替,这样可以使n较大。
(2)做一次试点调查,用调查所得的样本标准差代替σ。
(3)对σ进行最优估计。如已知变量的极大值和极小值,可以用极值差除以4作为σ估计,即σ=(Xmax– Xmin)/4
这样估计的理论基础是,如果总体是正态分布,则约有95.45%的概率保证变量值是在的±2σ范围内,也即4σ范围。当然,理想的情况是变量值在±3σ范围内,也即6σ范围内,此时概率为99.74%。但是,在实践中,很少有这样完美的分布。所以,使用4σ比较合理。
例:假设我们要估计一家化工厂某种产品的平均日产量,已知日产量变动的标准差为±2t。如果要求估计平均日产量的置信度为95%,估计允许的误差为0.5t。求应抽取多少工作日进行调查?
解:本例是估计时确定n的问题。已知总体是无限的,所以可以用公式计算。σ=±2t,Δ`X=0.5t,1-α=95%,查正太分布表,得Zα/2=1.96。将这些数据带入公式
由此可见,误差减少一半,n将是原来的4倍。这说明在置信度1-α不变时,若要提高抽样的精度,则必须付出增加费用的代价。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。