基础准备
相关与回归分析基础中阐述了相关分析与回归分析的区别与联系,以及分类等基础概念,简要回顾:
回归分析要求研究者根据因果关系(或假设存在因果关系)将两个变量,一个定义为自变量(X),由试验者设定,一个定义为因变量(Y),是随机变量。目的是给出描述两个变量关系的数学方程,这个方程可以用来预测相应因变量的值。例如,某品牌矿泉水的定价与其销售量之间的关系。
相关分析的两个变量都是自变量,研究的是两个自变量的相关程度,两个自变量均为随机变量。例如,矿泉水(不同品牌)价格与销售量之间的关系。
简单线性回归
简单线性回归模型
如果自变量X与因变量Y是直线型关系,则可以通过建立一元线性模型来描述它们之间的关系。而将所建立的一元线性模型称为一元回归模型或简单线性回归模型,可以表示为:
回归模型是从总体的角度描述自变量X与因变量Y的关系。因此,β0,β1就是从总体上说明X与Y变量关系的系数,称为回归系数,他们的数值在实际中是不可能得到的,只能通过样本数据得到它们的估计值,所以通过它们得到的Y与实际的Y之间存在随机误差εi。回归模型分成两部分:一部分是由线性函数β0+β1Xi构成的确定性数值;另一部分就是随机误差εi。E(Yi)=β0+β1Xi称为回归函数。
回归系数的估计
回归分析的任务就是用恰当的方法估计出参数β0和β1。通过n对样本数据(Xi,Yi)可以得到回归函数E(Yi)=β0+β1Xi的估计,即:
上式称为Y关于X的一元线性回归方程。
β0和β1的估计值b0,b1可以通过最小二乘法计算得到。用Excel,SPSS进行一元线性拟合就是通过最小二乘法计算出b0和b1数值的。
最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。简单的说,就是通过误差平方和的最小化,寻找数据的最佳函数匹配。
现有回归函数:
其一元线性回归方程为:
假定n对样本数据(x1,y1),(x2,y2)……(xn,yn)为已知,现在需要确定通过这些点的哪一条直线描述X与Y最好。
根据最小二乘法建立回归直线的原则就是:使Yi的估计值与其离差平方和最小。因此设:
范例分析
某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表8-1中,根据这些数据建立回归方程。
货运总量 | 2.8 | 2.9 | 3.2 | 3.2 | 3.4 | 3.2 | 3.3 | 3.7 | 3.9 | 4.2 |
工业总值 | 25 | 27 | 29 | 32 | 34 | 36 | 35 | 39 | 42 | 45 |
单位:货运总量(亿吨);工业总产值(10亿元);
解:分析步骤如下:
1、确定因变量和自变量,通过散点图观察它们之间的关系。从下图可以看出,两者之间有线性关系。
2、进行数据计算
数据计算表 | |||||
年份 | 货运总量(X) | 工业总值(Y) | XY | X平方 | Y平方 |
1991 | 2.8 | 25 | 70.0 | 625 | 7.84 |
1992 | 2.9 | 27 | 78.3 | 729 | 8.41 |
1993 | 3.2 | 29 | 92.8 | 841 | 10.24 |
1994 | 3.2 | 32 | 102.4 | 1024 | 10.24 |
1995 | 3.4 | 34 | 115.6 | 1156 | 11.56 |
1996 | 3.2 | 36 | 115.2 | 1296 | 10.24 |
1997 | 3.3 | 35 | 115.5 | 1225 | 10.89 |
1998 | 3.7 | 39 | 144.3 | 1521 | 13.69 |
1999 | 3.9 | 42 | 163.8 | 1704 | 15.21 |
2000 | 4.2 | 45 | 189.0 | 2025 | 17.64 |
合计 | 33.8 | 344 | 1186.9 | 12206 | 115.96 |
3、带入公式计算
用Excel添加渐近线及回归方程,结果与上面计算结果一致:
简单线性相关
对于简单线性回归,变量X是固定的(由试验者设定),而Y是随机变量,如上所述。对于简单线性相关,X与Y均为随机变量,目的是确定他们之间线性相关的程度。
散点图
两个随机变量之间的关系可由散点图看出:
协方差
协方差刻画了两个随机变量相对于它们均值的同时偏差,它反映了两个变量共同变化的程度,如果结果是负数,说明两个变量可能是负相关;结果为正,它们可能是正相关。例如,对随机变量X和Y的相关程度感兴趣,得到一些样本点(如下图),对每个样本点,求它们与各自均值的偏差,然后相乘,除以自由度即可得到样本协方差。
协方差计算公式:
但是,协方差不能直接用来度量两个变量的相关程度,因为它的值与测量单位相关,当两个变量的测量单位不同时会带来一些问题。因此,需要将协方差标准化,以消除测量单位的影响,这就引出了相关系数r。
相关系数r
为了消除测量单位对协方差的影响,引出相关系数r,计算公式如下:
相关系数r的取值范围在-1到1之间。取正值或负值完全取决于分子。
相关系数r有以下性质:
当|r|≥0.8时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。
本文为专栏文章,来自:生活统计学,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/34261.html 。