统计学教程
-
小白学统计(28)抽样分布:t分布
有正态总体(均值为μ),定义随机变量T(见下方公式),它的值为t(变量用大写字母表示,具体的值用小写字母表示)。
-
小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理
均值的抽样分布类型 抽样分布的定义、作用和主要种类已经介绍过(回顾点击:通俗解释“大数据”及推断性统计学:抽样分布),本篇介绍均值的抽样分布。均值抽样分布根据样本量的情况分为均值的理论抽样分布和均值的经验抽样分布。 均值的理论抽样分布 通俗的解释:有总体N,每次从中抽取固定容量为n的样本并计算出该样本的均值,如果将所有可能抽取的样本列出,并计算均值,这些均值…
-
小白学统计(26)连续型随机变量概率分布——抽样均值分布
抽样分布十分重要,它是进行统计推断的基础,正是依赖抽样分布的理论,我们才能对总体的有关特征作出具有一定概率保证的估计和检验。因此,深入理解抽样分布的概念并掌握某些重要的抽样分布,对于进一步学习统计推断的其它方法将大有裨益。 统计量与抽样分布的概念 统计推断的目的,就是通过样本的特征值去推断总体的特征。在推断统计中将描述总体特征的指标都称为总体参数,而将反映样…
-
小白学统计(25)通俗解释“大数据”及推断性统计学:抽样分布
大数据 近两年来,大数据这个词火了,新闻媒体的报道铺天盖地,好像什么东西都要和它搭上边才能显得“高大上”。这些报道大多在阐述大数据的运用和作用,忽略它的理论基础,普通民众无法将其与生活实例联系起来,就让他们觉得不懂和高大上,这样的例子已经有很多,比如“纳米”、“光伏”等概念,很多商家在宣传自己产品的时候都会加上这些概念,可以提升产品的销售价格,甚至某些商家的…
-
小白学统计(24)推断性统计学:抽样设计
推断性统计学 大多数研究的目的是取得有关总体的一般真实情况。然而由于难以得到整个总体,所以需要从总体中抽取一个样本,然后运用统计方法,从样本信息推断关于总体某些特征的结论。为了使推断合理,样本必须在抽样设计的严格条件下抽取。 抽样设计 从总体中抽取合适样本的方法,使得由样本到总体的推断是合理的,这一过程称为抽样设计,即对一个存在的测量总体,制定一种从中抽取测…
-
小白学统计(23)概率分布关系:正态分布作为泊松分布近似
内容介绍: 正态分布能用于近似泊松分布。泊松分布的参数是μ=λ,可以证明λ增加,泊松分布接近μ=σ2=λ的正态分布。因此,只要λ足够大,就可以将泊松分布看作是μ=σ2=λ的正态分布,然后可以用标准正态分布方法计算面积(概率)值。因为这样得到的概率值只是泊松概率真实值的近似,所以正态分布的这种应用称为泊松分布的正态近似。如下图所示,λ增大,概率曲线越接近正态分…
-
小白学统计(22)概率分布关系:正态分布作为二项分布近似
内容介绍: 计算二项分布的某个概率,需要对二项式展开(p+q)n的相关项相加,这是一个放缩的过程,而且对较大的n值或许得有一台计算机。上一篇(概率分布关系:泊松分布作为二项分布近似)指出,在一定条件下(当n≥20且q≤0.05时),可以使用泊松分布对二项概率进行近似。类似地,在一定条件下正态分布也是二项分布的一个良好近似,如下图所示,从而可用于计算二项分布的…
-
小白学统计(21)概率分布关系:泊松分布作为二项分布近似
内容介绍: 泊松分布可用于近似二项分布,条件是:在二项试验中随机出现的成功是稀有事件,其中n“大”,p“小”。二项分布有两个参数n和p,并且均值为np。如果np在n增加而p减少的过程中保持不变,则当n趋近于无穷而p趋近0时,二项分布趋近均值为np的泊松分布。泊松分布概率函数可以由二项分布概率公式推导而出:离散型随机变量概率分布— —泊松分布。 那n的“大”和…
-
小白学统计(20)连续型随机变量概率分布——指数分布
指数分布是连续型随机变量的另一种概率分布,它主要应用在随机事件之间发生的时间间隔的概率问题。例如,用它描述电子产品由使用到发生故障的时间的概率,描述两次电话之间时间间隔的概率,描述两位顾客到达商店间隔时间的概率等。前面讲述的泊松分布是描述某一区间内发生随机事件次数的概率分布,而指数分布是描述两次随机事件发生时间间隔的概率分布。因此,两种分布有着密切的关系,在…
-
小白学统计(19)连续型随机变量概率分布——正态分布
正态概率分布是连续型随机变量概率分布中最重要的形式,它在实践中有着广泛的应用。在自然界和人类社会,有许多现象的分布都服从正态分布,如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩,特别是,在统计推断时,当样本的数量足够大时,许多统计数据都服从正态分布。因此,正态分布在抽样理论中占有重要地位。另外,正态分布还是其他连续型概率分布的极限分布,可…
-
小白学统计(18)连续型随机变量概率分布——平均概率分布
在了解连续型随机变量的概率分布之间,我们需要先了解概率密度函数:由于连续型随机变量的数值在某一区间内有无限多个,因此无法一一列举,其概率分布只能通过一个函数来描述,这个函数称为概率密度函数,记作f(x)。 计算连续型随机变量的概率,首先需要找到该变量的概率密度函数,然后,通过积分求出f(x)与随机变量轴所夹面积,即为概率值,如下图所示: 图中阴影部份面积即是…
-
小白学统计(17)通俗归纳连续型概率分布
两个注意点 1、离散型概率分布的概率函数称为概率质量函数,概率是散布在随机变量的各个离散值上的,所以二维坐标的纵轴为概率;连续型概率分布的概率函数被称为概率密度函数,二维坐标纵轴为密度(区别于离散型概率分布的概率),随机变量范围内任意点的概率为0(因为概率密度函数曲线下积分面积为0),随机变量取值区间的概率为曲线下积分面积。如下图所示: 2、对于任何连续型概…
-
小白学统计(16)离散型随机变量概率分布——超几何分布
超几何分布是统计学上一种重要的离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。 例如:在有N个样本,其中m个是不合格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不合格的的概率: 或者 上式可如此理解:Cmk表示所有在N个样本中抽出n个的方法数目。CNn表示在m个不合格样本中,抽出k个的方法数目。C(N-m)…
-
小白学统计(15)简述泊松分布假设条件
基础准备 泊松分布概率公式推导自二项分布,因为换一种角度来看待它,它就是二项分布;回顾泊松分布公式推导过程及应用案例请点击下方链接: 离散型随机变量概率分布— —泊松分布 背景介绍 泊松分布是一种在现实生活中运用比较广的离散型概率分布模型,它可以恰当的计算某些事件发生的概率,例如:工厂生产的电缆上出现的缺陷个数;1立方厘米血液中白细胞的个数;一辆崭新的汽车表…
-
小白学统计(14)离散型随机变量概率分布——泊松分布
上一篇文章中,我们介绍了离散型随机变量的二项分布,为了便于各位统子的知识串联和掌握,下面将介绍由二项分布公式到泊松分布公式的推导过程。 推导过程: 二项分布概率公式: 表示为X~B(n,p)(二项分布概率公式解释及应用实例,请见上一篇) 下面我们做以下假定条件: 一个事件在一段时间或空间内发生的平均次数或数学期望为λ; 我们将这段时间或空间分成n等份,在每一…