近两年来,大数据这个词火了,新闻媒体的报道铺天盖地,好像什么东西都要和它搭上边才能显得“高大上”。这些报道大多在阐述大数据的运用和作用,忽略它的理论基础,普通民众无法将其与生活实例联系起来,就让他们觉得不懂和高大上,这样的例子已经有很多,比如“纳米”、“光伏”等概念,很多商家在宣传自己产品的时候都会加上这些概念,可以提升产品的销售价格,甚至某些商家的产品和它们没有任何关系,也用它们进行虚假宣传,欺骗消费者。
大数据是什么呢通俗的解释:搜集或收集某个事件发生结果的历史数据,进行统计分析,推断出该事件在未来发生某个结果的概率。例如:某沙县小吃快餐店,店主会根据过去每天销售卤鸡腿的个数来准备原材料,避免不够卖或者卖不完,最大可能的赚取利润,降低成本,这个过程其实就是大数据分析的过程,只不过老板凭借的是主观经验,所以预测的结果不会很准确。如果这个老板引进专门设备进行数据的收集,并用某些统计分析模型进行数据分析,得出的结果就能够很准确,数据量越多,越海量,推断的结果就越准确。大数据其实就是海量历史数据的意思,随着计算机软件与硬件技术的发展,快速存储、调取和分析海量数据成为现实,所以大数据的运用越来越广泛并发挥重要的作用。
推断性统计学
推断性统计学就是用样本(历史数据)的估计量(离散型或连续型)推断总体(将来)的对应的参数值(离散型或连续型)。推断性统计学有4个理论组成部分:概率论,抽样理论,估计理论和假设检验理论。之前介绍过抽样理论的抽样设计(推断性统计学:抽样设计),抽样理论还有一个重要的内容是抽样分布,它是估计理论和假设检验理论的基础。
抽样分布介绍
通俗解释:如果某总体(容量为无限或者有限),从中取出容量为n的样本,并对样本进行试验,可以获得n个随机变量X,从而可以获得一套关于这n个随机变量X的均值,方差和标准差,当从这个总体k次取出容量为n的样本并进行试验,就可以获得k套的均值,方差和标准差,这些均值,方差和标准差的频数(概率)分布就称为抽样分布。
例如:调查某市中小学生的身高,第一次抽取500人作为样本并测量他们的身高,求出身高数据的均值,方差和标准差。重复k次这样的过程,可以得到k套500个学生样本的身高均值,方差和标准差,k个样本均值数据就组成了均值的抽样分布,k个方差数据组成了方差抽样分布,k个标准差组成了标准差抽样分布。
某些抽样分布很有特点,根据这些特点能够估计出总体的参数值,并计算出这些参数值的可靠性。
主要应用的抽样分布
- 卡方分布
- T分布
- F分布
- 两均值差的抽样分布
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。