《深入浅出统计学》10统计抽样的运用:抽取样本

统计需要处理数据,数据从何而来?

有时候收集数据很简单,有时候收集数据很复杂。

在实际工作中,如何成功地收集数据——有效地,正确地,省时省钱地收集数据?抽样是一种很好的方法。

总体

统计学上的总体指的是准备对其进行测量、研究或者分析的整个群体,可以是人、得分,也可以是糖果——关键在于总体指的是所有的对象。

普查指的是对总体进行研究和调查。

普查可以给出总体的准确信息,但并不是在任何情况下都切实可行。当总体数量很大时,或者说无穷大时,就不可能对每一个对象进行研究了。若是这样,既费时又费力,关键是很大程度不一定可行。

样本

统计学上的样本是指从总体中选取一部分对象。通过选取样本,使其恰当的代表总体,从而得到代表总体的一个子集。

仅对总体的一个样本进行调查或者研究称为样本调查。在多说情况下,样本调查比普查更切实可行,且不用考虑整个总体。

抽样方法

建立一个好样本的关键是尽量选取最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有那种特征。

使用错误的样本会对总体参数(比方说期望和标准差)得出错误的结论,你可能会对数据形成截然不同的观点,进而做出错误的决策。

如何设计样本?

样本的作用是用来判定总体情况。为了确保得到正确的结果,需要明智地选择样本。

确定目标总体

目标总体指你正在研究的,并且打算为其采集结果的群体。

目标总体要尽可能精确。

确定抽样单位

明确目标总体后,就需要决定要抽取哪一类对象。

确定抽样空间

抽样空间是这样一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或者编个号。

基本上,你可以从抽样空间里进行抽样。

样本有时会发生偏倚

你在无意间或者有意间带入样本的某种个人偏好就是偏倚,这时,你的样本不再是从总体中进行随机选择的结果。

如果一个样本无偏,则这个样本可以代表总体,是总体的客观反映。

无偏样本

1

偏倚样本

2

偏倚产生的一些原因

抽样空间中条目不齐全,因此未包含目标总体中的所有对象

抽样单位不正确

为样本选取的一个个抽样单位没有出现在实际样本中

调查问卷设计不但

样本缺乏随机性

如上所述,偏倚来源广泛,而其中大部分归咎于样本选取方法。

我们需要采用合适的样本选取方法,使得偏倚发生几率降至最低程度。

如何选取样本?

简单随机抽样

一种做法是随机选取样本。

3

重复抽样

重复抽样指的是:在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。这样操作的结果是某个抽样单位有可能被选取不止一次。

不重复抽样

不重复抽样指的是:不再将抽样单位放回总体中。

使用简单随机抽样的主要两种方法:抽签或者使用随机编号。

重要提示:确定每个编号的生成机会相同,从而避免偏倚。

使用简单随机抽样时,任然存在样本无法代表总体的可能性。

分层抽样

分层抽样是指将总体分割为几个相似的组,每个组具有相似的类型。这些特性或者组称为分层。分好层后,就可以对每一层进行简单随机抽样,确保最终样本中具有每一个组的代表。

整群抽样

进行整群抽样,不是对抽样单位进行简单随机抽样,而是对群进行简单随机抽样。

系统抽样

使用系统抽样时,按着某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定的数字。

总结

4

思考与练习

5

关于作者:

王陆勤,深圳大学智能信息处理研究生,广东科技学院计算机系讲师,PPV课讲师团成员。热爱数据科学,专注机器学习,有着丰富的使用R语言做数据处理和分析的经验。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
小胖的头像小胖编辑
上一篇 2015-07-08 00:12
下一篇 2015-07-11 23:59

相关文章

关注我们
关注我们
分享本页
返回顶部