统计需要处理数据,数据从何而来?
有时候收集数据很简单,有时候收集数据很复杂。
在实际工作中,如何成功地收集数据——有效地,正确地,省时省钱地收集数据?抽样是一种很好的方法。
总体
统计学上的总体指的是准备对其进行测量、研究或者分析的整个群体,可以是人、得分,也可以是糖果——关键在于总体指的是所有的对象。
普查指的是对总体进行研究和调查。
普查可以给出总体的准确信息,但并不是在任何情况下都切实可行。当总体数量很大时,或者说无穷大时,就不可能对每一个对象进行研究了。若是这样,既费时又费力,关键是很大程度不一定可行。
样本
统计学上的样本是指从总体中选取一部分对象。通过选取样本,使其恰当的代表总体,从而得到代表总体的一个子集。
仅对总体的一个样本进行调查或者研究称为样本调查。在多说情况下,样本调查比普查更切实可行,且不用考虑整个总体。
抽样方法
建立一个好样本的关键是尽量选取最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有那种特征。
使用错误的样本会对总体参数(比方说期望和标准差)得出错误的结论,你可能会对数据形成截然不同的观点,进而做出错误的决策。
如何设计样本?
样本的作用是用来判定总体情况。为了确保得到正确的结果,需要明智地选择样本。
确定目标总体
目标总体指你正在研究的,并且打算为其采集结果的群体。
目标总体要尽可能精确。
确定抽样单位
明确目标总体后,就需要决定要抽取哪一类对象。
确定抽样空间
抽样空间是这样一张表,表中列出目标总体范围内的所有抽样单位,最好给每个抽样单位取个名或者编个号。
基本上,你可以从抽样空间里进行抽样。
样本有时会发生偏倚
你在无意间或者有意间带入样本的某种个人偏好就是偏倚,这时,你的样本不再是从总体中进行随机选择的结果。
如果一个样本无偏,则这个样本可以代表总体,是总体的客观反映。
无偏样本
偏倚样本
偏倚产生的一些原因
抽样空间中条目不齐全,因此未包含目标总体中的所有对象
抽样单位不正确
为样本选取的一个个抽样单位没有出现在实际样本中
调查问卷设计不但
样本缺乏随机性
如上所述,偏倚来源广泛,而其中大部分归咎于样本选取方法。
我们需要采用合适的样本选取方法,使得偏倚发生几率降至最低程度。
如何选取样本?
简单随机抽样
一种做法是随机选取样本。
重复抽样
重复抽样指的是:在选取一个抽样单位并记录下这个抽样单位的相关信息之后,再将这个单位放回总体中。这样操作的结果是某个抽样单位有可能被选取不止一次。
不重复抽样
不重复抽样指的是:不再将抽样单位放回总体中。
使用简单随机抽样的主要两种方法:抽签或者使用随机编号。
重要提示:确定每个编号的生成机会相同,从而避免偏倚。
使用简单随机抽样时,任然存在样本无法代表总体的可能性。
分层抽样
分层抽样是指将总体分割为几个相似的组,每个组具有相似的类型。这些特性或者组称为分层。分好层后,就可以对每一层进行简单随机抽样,确保最终样本中具有每一个组的代表。
整群抽样
进行整群抽样,不是对抽样单位进行简单随机抽样,而是对群进行简单随机抽样。
系统抽样
使用系统抽样时,按着某种顺序列出总体名单,然后每k个单位进行一次调查,其中k为一个特定的数字。
总结
思考与练习
关于作者:
王陆勤,深圳大学智能信息处理研究生,广东科技学院计算机系讲师,PPV课讲师团成员。热爱数据科学,专注机器学习,有着丰富的使用R语言做数据处理和分析的经验。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。