基础准备
回归与相关分析的历史文章:
- 相关与回归分析基础;
- 一元(简单线性)相关分析与回归分析;
- 回归参数的区间估计;
上面文章介绍了简单线性相关与回归分析的两个主要模块:回归方程建立及回归参数的区间估计,但是它们都是建立在假定因变量和自变量线性相关的基础上。因此,对相关程度进行检验也是重要的,相关程度的检验方法主要有三种:
- 相关系数的检验
- 回归方程的检验
- 回归系数的检验
相关系数的检验
变差关系
先来一张图:
如上图所示:当给定X0时,Y的实际值与均值的差值就是Y值随X值的全部变化,称之为总变差。在总变差中,一部分变差可以用设定的回归方程解释,称之为回归变差;另一部分变差是回归方程不能解释的,称为剩余变差,它们之间有下面等式:
如果在总变差Y中,回归变差所占的比例越大,则说明Y值随X值的变化越显著,或者说X解释Y的能力越强。反之,回归变差在总变差中所占比例越小,则说明Y值随X值的变化越不显著,或者说X解释Y的能力越差。
对于所有数据点,变差之间的关系可以用离差平方和表示:
它们从左到右分别称为:总离差平方和、剩余平方和和回归平方和。
决定系数与相关系数
回归变差所占的比例越大,则说明Y值随X值的变化越显著。利用回归平方和与总离差平方和的比值来说明X与Y的相关性,称为决定系数,即有:
决定系数的开方被称为相关系数,前面介绍过相关系数r(Excel数据分析工具:协方差与相关系数),计算公式为:
两者的计算结果是完全一致的。
相关系数与决定系数都能表示变量之间的线性相关程度,但是相关系数计算更简便且能表示相关关系的方向。
相关系数的检验
当已求得r值时,这个r值是真正刻画了两个变量之间的线性关系呢,还是仅仅由于样本的偶然相关而引起的?仅凭相关系数的大小,不能直接说明变量之间是否存在线性相关,通过对r的检验,确定样本是否抽自一个总体相关系数为0的总体,可以解答这个问题。可以证明r的t统计量服从自由度为n-2的t分布:
范例分析
某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入下表中,根据这些数据对回归方程相关系数r在显著水平0.05做双侧检验。
解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;
决定系数为0.9149,相关系数r=0.9565;相关系数r的假设检验过程如下:
回归方程的检验
对回归方程进行显著性检验,就是看自变量从总体上是否对因变量有明显的影响。有回归方程y=a+bx,如果b=0,则Y等于一个常数a,X与Y没有任何关系,故方程不存在。如果b不等于0,则Y随着X的变化而变化,说明方程有意义。
为了对b=0进行检验,需要构造一个检验的统计量。可以证明:在一元线性回归中,当b=0时,有以下结论:
范例分析
某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入下表中,根据这些数据对回归方程在显著水平0.05做单侧检验。
解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;
回归系数的检验
上面回归方程的检验是利用b=0时,回归方程的特性建立F统计量,进而进行假设检验。也可以构造另一个统计量t,如下:
利用上述t统计量即可对b进行假设检验。
范例分析
再次使用上面的例题:某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表8-1中,根据这些数据对回归系数b在显著水平0.05做双侧检验。
解:运用Excel对数据进行回归分析,得到回归方程和决定系数R平方;
三种检验方法虽然各有侧重,但在一元线性回归方程的检验中,三种检验的作用是相同的,因此对于一元线性回归方程而言,只要选择一种方法进行检验即可。
本文为专栏文章,来自:生活统计学,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/34290.html 。