小白学统计(69)一元(简单线性)相关分析与回归分析

回归分析要求研究者根据因果关系(或假设存在因果关系)将两个变量,一个定义为自变量(X),由试验者设定,一个定义为因变量(Y),是随机变量。

基础准备

相关与回归分析基础中阐述了相关分析与回归分析的区别与联系,以及分类等基础概念,简要回顾:

回归分析要求研究者根据因果关系(或假设存在因果关系)将两个变量,一个定义为自变量(X),由试验者设定,一个定义为因变量(Y),是随机变量。目的是给出描述两个变量关系的数学方程,这个方程可以用来预测相应因变量的值。例如,某品牌矿泉水的定价与其销售量之间的关系。

相关分析的两个变量都是自变量,研究的是两个自变量的相关程度,两个自变量均为随机变量。例如,矿泉水(不同品牌)价格与销售量之间的关系。

简单线性回归

简单线性回归模型

如果自变量X与因变量Y是直线型关系,则可以通过建立一元线性模型来描述它们之间的关系。而将所建立的一元线性模型称为一元回归模型或简单线性回归模型,可以表示为:

小白学统计(69)一元(简单线性)相关分析与回归分析

回归模型是从总体的角度描述自变量X与因变量Y的关系。因此,β0,β1就是从总体上说明X与Y变量关系的系数,称为回归系数,他们的数值在实际中是不可能得到的,只能通过样本数据得到它们的估计值,所以通过它们得到的Y与实际的Y之间存在随机误差εi。回归模型分成两部分:一部分是由线性函数β01Xi构成的确定性数值;另一部分就是随机误差εi。E(Yi)=β01Xi称为回归函数。

回归系数的估计

回归分析的任务就是用恰当的方法估计出参数β0和β1。通过n对样本数据(Xi,Yi)可以得到回归函数E(Yi)=β01Xi的估计,即:

小白学统计(69)一元(简单线性)相关分析与回归分析

上式称为Y关于X的一元线性回归方程。

β0和β1的估计值b0,b1可以通过最小二乘法计算得到。用Excel,SPSS进行一元线性拟合就是通过最小二乘法计算出b0和b1数值的。

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。简单的说,就是通过误差平方和的最小化,寻找数据的最佳函数匹配。

现有回归函数:

小白学统计(69)一元(简单线性)相关分析与回归分析
其一元线性回归方程为:

小白学统计(69)一元(简单线性)相关分析与回归分析

假定n对样本数据(x1,y1),(x2,y2)……(xn,yn)为已知,现在需要确定通过这些点的哪一条直线描述X与Y最好。

根据最小二乘法建立回归直线的原则就是:使Yi的估计值与其离差平方和最小。因此设:

小白学统计(69)一元(简单线性)相关分析与回归分析
小白学统计(69)一元(简单线性)相关分析与回归分析
范例分析

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表8-1中,根据这些数据建立回归方程。

货运总量 2.8 2.9 3.2 3.2 3.4 3.2 3.3 3.7 3.9 4.2
工业总值 25 27 29 32 34 36 35 39 42 45

单位:货运总量(亿吨);工业总产值(10亿元);

解:分析步骤如下:

1、确定因变量和自变量,通过散点图观察它们之间的关系。从下图可以看出,两者之间有线性关系。

小白学统计(69)一元(简单线性)相关分析与回归分析

2、进行数据计算

数据计算表
年份 货运总量(X) 工业总值(Y) XY X平方 Y平方
1991 2.8 25 70.0 625 7.84
1992 2.9 27 78.3 729 8.41
1993 3.2 29 92.8 841 10.24
1994 3.2 32 102.4 1024 10.24
1995 3.4 34 115.6 1156 11.56
1996 3.2 36 115.2 1296 10.24
1997 3.3 35 115.5 1225 10.89
1998 3.7 39 144.3 1521 13.69
1999 3.9 42 163.8 1704 15.21
2000 4.2 45 189.0 2025 17.64
合计 33.8 344 1186.9 12206 115.96

3、带入公式计算

小白学统计(69)一元(简单线性)相关分析与回归分析

用Excel添加渐近线及回归方程,结果与上面计算结果一致:

小白学统计(69)一元(简单线性)相关分析与回归分析

简单线性相关

对于简单线性回归,变量X是固定的(由试验者设定),而Y是随机变量,如上所述。对于简单线性相关,X与Y均为随机变量,目的是确定他们之间线性相关的程度。

散点图

两个随机变量之间的关系可由散点图看出:

小白学统计(69)一元(简单线性)相关分析与回归分析

协方差

协方差刻画了两个随机变量相对于它们均值的同时偏差,它反映了两个变量共同变化的程度,如果结果是负数,说明两个变量可能是负相关;结果为正,它们可能是正相关。例如,对随机变量X和Y的相关程度感兴趣,得到一些样本点(如下图),对每个样本点,求它们与各自均值的偏差,然后相乘,除以自由度即可得到样本协方差。

小白学统计(69)一元(简单线性)相关分析与回归分析
协方差计算公式:

小白学统计(69)一元(简单线性)相关分析与回归分析

但是,协方差不能直接用来度量两个变量的相关程度,因为它的值与测量单位相关,当两个变量的测量单位不同时会带来一些问题。因此,需要将协方差标准化,以消除测量单位的影响,这就引出了相关系数r。

相关系数r

为了消除测量单位对协方差的影响,引出相关系数r,计算公式如下:

小白学统计(69)一元(简单线性)相关分析与回归分析
相关系数r的取值范围在-1到1之间。取正值或负值完全取决于分子。

相关系数r有以下性质:

小白学统计(69)一元(简单线性)相关分析与回归分析

当|r|≥0.8时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。

本文为专栏文章,来自:生活统计学,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/34261.html 。

(0)
生活统计学的头像生活统计学专栏
上一篇 2016-10-21 12:25
下一篇 2016-10-22 00:12

相关文章

关注我们
关注我们
分享本页
返回顶部