使用R进行统计分析——假设检验

本篇文章介绍如何使用R语言中的这些函数进行假设检验。

假设检验统计学中的一种推断方法,用来判断两个样本或总体间的差异是由于抽样误差引起的还是本质差别造成的。R语言中提供了很多假设检验函数,如F检验,t检验和卡方检验等等。本篇文章介绍如何使用R语言中的这些函数进行假设检验。

hypothesis-testing

二项分布检验

假设一个广告的点击率为0.02,更换新的广告创意后1000次曝光获得了23次点击,新广告在点击率上是否明显优于老广告?

H0:新广告与老广告效果无差异
H1:新广告效果优于老广告

1

2

#老广告点击率0.02,新广告1000次广告曝光获得23次点击是否明显优于老广告

binom.test(x =23,n = 1000,p = 0.02,alternative = "greater",conf.level = 0.95 )

%e4%ba%8c%e9%a1%b9%e5%88%86%e5%b8%83%e6%a3%80%e9%aa%8c

p-value = 0.2778>0.05,在0.95的置信区间下接受原假设H0。新广告与老广告在点击率上没有显著差异。

1

2

#1000次访问0.02点击率下差异显著的临界值

qbinom(p = 0.95,size = 1000,prob = 0.02)

[1] 28

新广告在1000次广告曝光中点击量需要提升到28次以上才能明显优于老广告的效果。

泊松分布检验

假设一次市场推广活动中前一个小时有50人注册,后一个小时有60人注册,后一小时的注册人数是否明显高于前一小时?

H0:前一小时与后一小时注册人数无差异
H1:后一小时注册用户数量高于前一小时

1

2

#上一小时50人注册,下一小时60人注册,后一小时是否显著高于前一小时

poisson.test(x = 60,T = 50,alternative = "greater",conf.level = 0.95)

%e6%b3%8a%e6%9d%be%e5%88%86%e5%b8%83%e6%a3%80%e9%aa%8c

p-value = 0.09227>0.05,在0.95的置信区间下接受原假设H0,后一小时注册人数与前一小时无差异。

1

2

#与上一小时50人注册差异显著的临界值

qpois(0.95,lambda =50)

[1] 62

后一小时的注册用户数需要提升到62以上才能明显高于前一小时的注册用户数。

单样本t检验

假设某流量渠道的目标是每日带来150个咨询,在过去的一周带来的咨询用户数量分别为229,164,121,137,145,127,123,我们是否能认为该渠道已经达到目标,即每日的平均咨询量大于150?

这里使用单样本t检验,首先建立假设。

H0:每日平均咨询量不大于153,未达到目标。
H1:每日平均咨询量大于153,达到目标。

1

2

3

4

#将过去一周咨询用户数量赋给X

X=c(229,164,121,137,155,127,143)

#计算过去一周咨询量的均值

mean(X)

[1] 153.7143

1

2

#过去一周咨询用户数量是否达到目标

t.test(X,alternative = "greater",mu=153,conf.level = 0.95)

%e5%8d%95%e6%a0%b7%e6%9c%act%e6%a3%80%e9%aa%8c

p-value = 0.4801>0.05,在0.95的置信区间下接受原假设H0,流量渠道的咨询量没有达到目标。

双样本t检验

假设两个流量渠道在过去的一周分布为网站带来咨询用户,这两个流量渠道带来的咨询用户数量是否有显著差异?

这里使用双样本t检验,首先建立假设。

H0:两个流量渠道带来的咨询用户数量没有显著差异。
H1:两个流量渠道带来的咨询用户数量存在有显著差异。

1

2

3

4

#流量渠道1带来的咨询用户数量赋值给X

X=c(229,164,121,137,155,127,143)

#流量渠道2带来的咨询用户数量赋值给Y

Y=c(175,120,187,144,117,184,135)

进行双样本t检验之前先进行方差检验,确定两组样本方差是否相同。 H0:两个总体方差相同 H1:两个总体方差不同

1

2

#方差检验,确定两个流量渠道的咨询量是否相同

var.test(x = X,y = Y,conf.level = 0.95)

%e6%96%b9%e5%b7%ae%e6%a3%80%e9%aa%8c

p-value = 0.6469>0.05,在0.95的置信区间下接受原假设H0,两个总体方差相同。进行等方差t检验。

1

2

#等方差t检验,两个流量渠道带来的咨询用户数量是否有差异

t.test(X,Y,var.equal=TRUE,alternative = "two.sided")

%e5%8f%8c%e6%a0%b7%e6%9c%ac%e7%ad%89%e6%96%b9%e5%b7%aet%e6%a3%80%e9%aa%8c

p-value = 0.9125>0.05,接受原假设H0,在0.95的置信区间下两个流量渠道的咨询用户量没有显著差异。

成对样本t检验

假设网站对咨询流程进行了优化并进行了测试,那么改版后的效果是否明显优于改版前?

这里使用成对t检验,首先建立假设。

H0:改版后的效果与改版前无差异
H1:改版后的效果明显优于改版前

1

2

3

4

#改版前注册用户量赋给before

before=c(229,164,121,137,155,127,143)

#改版后注册用户量赋给after

after=c(217,284,155,190,158,170,180)

1

2

#改版前的咨询量是否小于改版后的咨询量

t.test(before-after,alternative = "less",conf.level = 0.95)

%e6%88%90%e5%af%b9%e5%8f%8c%e6%a0%b7%e6%9c%act%e6%a3%80%e9%aa%8cp-value = 0.02362<0.05,拒绝原假设H0,接受备择假设H1。在0.95的置信区间下改版后的效果明显优于改版前。

卡方检验

假设广告创意A1315次访问,65次转化,转化率4.94%,广告创意B939次访问,54次转化,转化率5.75%。广告创意B的效果是否优于广告创意A?

这里使用卡方检验,首先建立假设。

H0:两个广告创意的效果无差异

H1:广告创意B的效果优于广告创意A

对源数据近整理,广告创意A1250次未购买,65次购买,广告创意B885次未购买,54次购买。以此建立列联表。

1

2

3

4

#创建列联表

X=c(1250,885,65,54)

dim(X)=c(2,2)

X

%e5%88%97%e8%81%94%e8%a1%a8

1

2

#使用卡方检验

chisq.test(X,correct = FALSE)

%e5%8d%a1%e6%96%b9%e6%a3%80%e9%aa%8c

p-value = 0.3978>0.05,在0.95的置信区间下接受原假设H0,两个广告创意效果没有显著差异。

本文为专栏文章,来自:蓝鲸,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/27161.html 。

(1)
蓝鲸的头像蓝鲸专栏
上一篇 2016-09-26
下一篇 2016-09-28

相关文章

  • SAS与R优缺点讨论:从工业界到学界 ?

    导读:尽管这个话题已经讨论过很多次,但是这个翻译是比较系统的总结了一下两个软件的优缺点,值得一看。PS: 此话题已老,推荐新人看,另见以前一篇SAS评论引发的思考 by sxlion 摘要:尽管在工业界还是被 SAS 所统治,但是 R 在学术界却得到广泛的应用,因为其免费、开源的属性使得用户们可以编写和分享他们自己的应用。然而,许多正在获得数据分析相关学位的…

    2015-11-25
    0
  • 小白学统计(14)离散型随机变量概率分布——泊松分布

    上一篇文章中,我们介绍了离散型随机变量的二项分布,为了便于各位统子的知识串联和掌握,下面将介绍由二项分布公式到泊松分布公式的推导过程。 推导过程: 二项分布概率公式: 表示为X~B(n,p)(二项分布概率公式解释及应用实例,请见上一篇) 下面我们做以下假定条件: 一个事件在一段时间或空间内发生的平均次数或数学期望为λ; 我们将这段时间或空间分成n等份,在每一…

    2016-08-14
    1
  • R语言入门秘录10/25:根据位置从数据框中选择列

    数据分析网整理自tbkken的《R语言入门25招》,一招招技能带你走进R语言。

    2016-01-04
    0
  • R语言分析老九门到底谁是主角

    我一直认为佛爷(陈伟霆)是主演,也让我对这二位谁是主角产生的好奇,于是决定用R语言进行文本统计一下,证明谁是男1,谁是男2。

    2016-08-01
    0
  • 小白学统计(13)离散型随机变量概率分布——二项分布

    所谓概率分布,是指随机变量的取值与该取值发生概率所构成的分布。概率分布描述了一个随机变量的所有取值与其相应概率值之间的关系。它可以分为离散型概率分布和连续型概率分布(离散型及连续型随机变量分类见上一篇)。 离散型概率分布主要有以下三种: 二项分布 泊松分布 超集合概率分布 今天介绍的是离散型随机变量的二项分布。 在许多试验中,结果往往只有两个。例如:检查产品…

    2016-08-13
    1
关注我们
关注我们
分享本页
返回顶部