统计学
-
小白学统计(24)推断性统计学:抽样设计
推断性统计学 大多数研究的目的是取得有关总体的一般真实情况。然而由于难以得到整个总体,所以需要从总体中抽取一个样本,然后运用统计方法,从样本信息推断关于总体某些特征的结论。为了使推断合理,样本必须在抽样设计的严格条件下抽取。 抽样设计 从总体中抽取合适样本的方法,使得由样本到总体的推断是合理的,这一过程称为抽样设计,即对一个存在的测量总体,制定一种从中抽取测…
-
小白学统计(23)概率分布关系:正态分布作为泊松分布近似
内容介绍: 正态分布能用于近似泊松分布。泊松分布的参数是μ=λ,可以证明λ增加,泊松分布接近μ=σ2=λ的正态分布。因此,只要λ足够大,就可以将泊松分布看作是μ=σ2=λ的正态分布,然后可以用标准正态分布方法计算面积(概率)值。因为这样得到的概率值只是泊松概率真实值的近似,所以正态分布的这种应用称为泊松分布的正态近似。如下图所示,λ增大,概率曲线越接近正态分…
-
一克统计学:小数定律和随机事件
一起来学一学
-
什么是二项分布?
二项分布是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里始创的,所以又叫贝努里分布。
-
小白学统计(22)概率分布关系:正态分布作为二项分布近似
内容介绍: 计算二项分布的某个概率,需要对二项式展开(p+q)n的相关项相加,这是一个放缩的过程,而且对较大的n值或许得有一台计算机。上一篇(概率分布关系:泊松分布作为二项分布近似)指出,在一定条件下(当n≥20且q≤0.05时),可以使用泊松分布对二项概率进行近似。类似地,在一定条件下正态分布也是二项分布的一个良好近似,如下图所示,从而可用于计算二项分布的…
-
开发者和IT人士成为数据科学家的学习路线
这篇指南旨在帮助WEB开发者、软件工程师以及其他的IT从业者转行到数据分析/数据科学行业。
-
关于数据科学历史的新手指南
尽管很多数据科学的支持者已经拿起大数据作为武器,并且提出新的主张和挑战,但是关于数据科学你还需要了解一些名字和日期。
-
小白学统计(21)概率分布关系:泊松分布作为二项分布近似
内容介绍: 泊松分布可用于近似二项分布,条件是:在二项试验中随机出现的成功是稀有事件,其中n“大”,p“小”。二项分布有两个参数n和p,并且均值为np。如果np在n增加而p减少的过程中保持不变,则当n趋近于无穷而p趋近0时,二项分布趋近均值为np的泊松分布。泊松分布概率函数可以由二项分布概率公式推导而出:离散型随机变量概率分布— —泊松分布。 那n的“大”和…
-
小白学统计(20)连续型随机变量概率分布——指数分布
指数分布是连续型随机变量的另一种概率分布,它主要应用在随机事件之间发生的时间间隔的概率问题。例如,用它描述电子产品由使用到发生故障的时间的概率,描述两次电话之间时间间隔的概率,描述两位顾客到达商店间隔时间的概率等。前面讲述的泊松分布是描述某一区间内发生随机事件次数的概率分布,而指数分布是描述两次随机事件发生时间间隔的概率分布。因此,两种分布有着密切的关系,在…
-
小白学统计(19)连续型随机变量概率分布——正态分布
正态概率分布是连续型随机变量概率分布中最重要的形式,它在实践中有着广泛的应用。在自然界和人类社会,有许多现象的分布都服从正态分布,如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩,特别是,在统计推断时,当样本的数量足够大时,许多统计数据都服从正态分布。因此,正态分布在抽样理论中占有重要地位。另外,正态分布还是其他连续型概率分布的极限分布,可…
-
小白学统计(18)连续型随机变量概率分布——平均概率分布
在了解连续型随机变量的概率分布之间,我们需要先了解概率密度函数:由于连续型随机变量的数值在某一区间内有无限多个,因此无法一一列举,其概率分布只能通过一个函数来描述,这个函数称为概率密度函数,记作f(x)。 计算连续型随机变量的概率,首先需要找到该变量的概率密度函数,然后,通过积分求出f(x)与随机变量轴所夹面积,即为概率值,如下图所示: 图中阴影部份面积即是…
-
小白学统计(17)通俗归纳连续型概率分布
两个注意点 1、离散型概率分布的概率函数称为概率质量函数,概率是散布在随机变量的各个离散值上的,所以二维坐标的纵轴为概率;连续型概率分布的概率函数被称为概率密度函数,二维坐标纵轴为密度(区别于离散型概率分布的概率),随机变量范围内任意点的概率为0(因为概率密度函数曲线下积分面积为0),随机变量取值区间的概率为曲线下积分面积。如下图所示: 2、对于任何连续型概…
-
小白学统计(16)离散型随机变量概率分布——超几何分布
超几何分布是统计学上一种重要的离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还)。 例如:在有N个样本,其中m个是不合格的。超几何分布描述了在该N个样本中抽出n个,其中k个是不合格的的概率: 或者 上式可如此理解:Cmk表示所有在N个样本中抽出n个的方法数目。CNn表示在m个不合格样本中,抽出k个的方法数目。C(N-m)…
-
小白学统计(15)简述泊松分布假设条件
基础准备 泊松分布概率公式推导自二项分布,因为换一种角度来看待它,它就是二项分布;回顾泊松分布公式推导过程及应用案例请点击下方链接: 离散型随机变量概率分布— —泊松分布 背景介绍 泊松分布是一种在现实生活中运用比较广的离散型概率分布模型,它可以恰当的计算某些事件发生的概率,例如:工厂生产的电缆上出现的缺陷个数;1立方厘米血液中白细胞的个数;一辆崭新的汽车表…
-
小白学统计(14)离散型随机变量概率分布——泊松分布
上一篇文章中,我们介绍了离散型随机变量的二项分布,为了便于各位统子的知识串联和掌握,下面将介绍由二项分布公式到泊松分布公式的推导过程。 推导过程: 二项分布概率公式: 表示为X~B(n,p)(二项分布概率公式解释及应用实例,请见上一篇) 下面我们做以下假定条件: 一个事件在一段时间或空间内发生的平均次数或数学期望为λ; 我们将这段时间或空间分成n等份,在每一…