小白学统计(74)多元线性回归分析

在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。

基础回顾

在一元线性回归分析中,只研究一个自变量对因变量的影响:

  • 相关与回归分析基础;
  • 一元(简单线性)相关分析与回归分析;
  • 回归参数的区间估计;
  • 一元(简单线性)回归方程的假设检验;
  • 范例分析:一元(简单线性)相关与回归分析;

在实际中,对因变量的影响往往有两个或两个以上的自变量。例如:影响产品单位成本的变量不仅有产量,还包括原材料价格、劳动力价格,劳动效率及废品率等因素。对建立这种具有多变量模型的分析,就是多元回归分析。

在多元回归分析中,如果因变量和多个自变量的关系为线性时,就属于多元线性回归。多元线性回归是一元线性回归的扩展,其基本原理及方法与一元线性回归分析类似。变量越多,计算过程越是复杂,此篇着重原理介绍,计算可由统计软件代为完成。

多元线性回归

回归模型

多元线性回归模型与一元线性回归模型类似,由几部分组成:

小白学统计(74)多元线性回归分析

回归方程

小白学统计(74)多元线性回归分析

回归系数

代入样本值,可以求得回归系数a,b,…,g的点估计值(不同样本求得的值不同),从而得到样本多元线性回归方程:

小白学统计(74)多元线性回归分析

回归模型方差

小白学统计(74)多元线性回归分析

随机变量的方差,也就是回归模型的方差,由下图的剩余变差引起。该值可以通过样本数据的离散程度来估计,回顾一元线性回归分析,如下图:

小白学统计(74)多元线性回归分析
计算式如下:

小白学统计(74)多元线性回归分析

回归系数求取

与一元回归系数的求取一样,多元线性回归系数的估计值仍然采用最小二乘法原理求得,即将观察得到的样本数据作为已知,带入样本回归方程中,然后分别对a,b,…,g求偏导数(回顾:最小二乘法),从而得到它们的点估计值。其数值可以使用Excel、SPSS的统计软件计算得到。

相关性检验

在一元(简单线性)回归方程的假设检验中介绍了,回归方程的相关性检验有三种方式,它们的作用相同,只需选取其中一种检验即可(相关系数的检验、回归方程的检验、回归系数的检验)。三种检验使用的统计量与检验原则与一元线性回归的相关性检验相同,这里不在赘述。

需要着重介绍多元的相关系数的检验

在多元回归中,决定系数(R平方)又称为拟合优度或者多元决定系数(Multiple coefficient of determination),其计算公式与一元回归相同,即

小白学统计(74)多元线性回归分析
可参考上文变差图。

R平方的数值大小可以说明所建立模型与实际数据的拟合程度好坏,其值越接近1,拟合程度越高。一元回归中,决定系数的平方根即为相关系数,表示两个变量的相关程度,可正可负(正相关或负相关);多元回归中,关注正平方根,称为复相关系数,表示因变量与作为一个整体的所有自变量的相关程度。

决定系数(R平方)又称为拟合优度,因为在样本容量相同和自变量个数相同时,能够说明不同模型的拟合情况好坏。在样本容量不同或者自变量个数不同时,用决定系数比较拟合程度需要慎重,因为它们对决定系数有很大影响(影响原因回归计算公式变化)。

为了对包含不同自变量个数的方程进行拟合程度比较,需要对R平方进行修正(解除自变量个数影响),称为修正的多元决定系数(Adjusted multiple coefficient of determination),公式如下:

小白学统计(74)多元线性回归分析
可回顾上文变差图帮助理解。

区间估计与预测

与一元回归分析一样,作完上面的分析后,1、可以对回归系数(a,b,…,g)进行区间估计;2、对特定自变量通过回归方程计算得到的因变量值进行区间估计。

随着自变量个数的增加,回归分析的计算量也是非常大,所以需要借助分析软件帮助计算。下篇用具体案例,通过Excel分析工具计算,分析计算结果,以这样的方式帮助大家掌握一元(简单线性)回归分析和多元线性回归分析。

本文为专栏文章,来自:生活统计学,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/34323.html 。

(0)
生活统计学的头像生活统计学专栏
上一篇 2016-10-23 00:55
下一篇 2016-10-24 01:02

相关文章

关注我们
关注我们
分享本页
返回顶部