1引子
大家在日常的工作和学习中是不是经常有这样的疑问:邮箱是如何自动区分正常邮件和垃圾邮件的呢?
银行是如何判断是否通过你的贷款申请的呢?
经常收到某种商品的推荐信息,商家又是如何知道你对这个商品感兴趣的呢?
为了回答上述疑问,这一期给大家介绍逻辑回归算法。
逻辑回归,也称LogisticRegression,主要区别于一般的线性回归模型。
我们知道,一般的线性回归模型都是处理因变量是连续变量的问题,如果因变量是定性变量,一般线性回归模型就不再适用。
逻辑回归算法因其原理的相对简单,可解释性强等优点已成为互联网领域最常用也最有影响力的分类算法之一,同时它还可以作为众多集成算法以及深度学习的基本组成单位,所以学好逻辑回归尤其重要。
或许有人会有疑问,为什么对于分类问题,逻辑回归行而一般的线性回归模型却不行呢?
二者的区别又是什么呢?
下面将从现实意义和数学理论上给出解释。
2定性因变量回归方程的意义
设因变量y是只取0,1两个值,考虑简单线性回归模型:
在这种y只取0和1两个值的情况下,因变量均值
有着特殊的意义。
由于y是0-1型随机变量,得到如下概率分布:
P(y=1)=p
P(y=0)=1p
根据离散型随机变量期望值的定义,可得
E(y)=1(p)+0(1p)=p
所以,作为由回归函数给定的因变量均值,是自变量水平为x时y=1的概率。
3逻辑回归模型的特别之处
对于一般的线性模型
误差项有大三假定条件:
(1)误差项ε是一个期望为0的随机变量,即;
(2)误差项ε是一个服从正态分布的随机变量,且相互独立,即
(3)对于所有的x,的方差都相同,这意味着对于一个特定的x值,y的方差也都等于。
而在因变量y只能取0和1的逻辑回归模型,误差项显然是两点型的离散分布,不满足误差项正态分布的基本假定;
同时误差项的方差可以看出误差项随着x的不同水平而变化,是异方差,不满足线性回归的基本假定;
当因变量为0和1时,回归方程代表的是概率分布,所以因变量的均值受到的限制,一般的线性回归方程不会有这种限制。而逻辑回归却利用一些数学变化巧妙的解决了这些的问题,请看下面一节。
4从一般线性回归到逻辑回归
当被解释变量y为0和1的二分类变量时,虽然无法采用一般的线性回归模型建模,但是可以借鉴其理论基础:
第一,一般线性模型
方程左侧的概率p的取值范围为[0,1],方程右边的额取值范围在∞+∞之间。
如果对概率p做合理的变换,使其的取值范围与右侧吻合,则左侧和右侧可以通过等号连接起来。
第二,一般线性模型
方程中的概率p与解释变量之间的关系是线性的。
但在实际的应用中,它们之间的关系往往是非线性的,例如通过银行贷款申请的概率通常不会随着年收入(或者年龄等)的增长而线性增长,于是对概率p的变换应该是采用非线性变换。
基于以上的分析,可采取一下两步变换:
第一步,将概率p转换成
,其中,
称为logitP。
上述的两步变换称为logit变换。经过logit变换,logitP的取值范围范围为∞+∞,与一般线性回归模型右侧的取值范围吻合。
同时logitP与p之间保持单调一致性。
至此,用等号将logitP和一般线性模型的右侧连接起来,得到
,即为逻辑回归模型。
这样我们就完成从一般线性模型到逻辑回归模型的演变。
或许有人还会质疑logit变换的合理性,那么我们就继续往下扒。
从以上的推导和变换我们得到,
故有
其为(0,1)型的Sigmoid函数,如下图所示。这是一个非线性函数,很好的体现了概率p与解释变量之间的非线性关系。
5逻辑回归模型的解读
逻辑回归方程的右侧与一般线性回归方程的形式一致,可用类似的方法解释逻辑回归方程系数的含义,即当其他自变量保持不变时,自变量xi每增加一个单位,logitP平均增加(或减少)βi个单位。
在实际应用中,人们更关心自变量为优势Ω带来的变化,其中优势
表示某一事件的发生概率与不发生概率之比。同时我们还会通过优势比来进行不同组别之间风险的对比分析。
在逻辑回归方程中,,当其他自变量不变时,xi每增加一个单位,优势变为原来优势的,优势比即为。
6逻辑回归模型的参数估计
设y是0-1型变量,是与y相关的确定性变量,n组观测数据为,其中,是取值0或1的随机变量,yi与的关系如下:
其中,函数f(x)是值域在[0,1]区间内的单调增函数。对于逻辑回归
于是yi是均值为
的0-1分布,概率函数为
可以把yi的概率函数合写为
于是,的似然函数为
对似然函数取自然对数,得
对于logistic回归,将
代入得
最大似然估计就是选取的估计值,使上式最大。同时,作为一个最优化问题,可以采用梯度下降法和牛顿法等最优化算法。
7逻辑回归模型的检验
逻辑回归方程的显著性检验的目的是检验所有自变量与logitP的线性关系是否显著,是否可以选择线性模型。
原假设是假设各回归系数同时为0,自变量全体与logitP的线性关系不显著。
如果方程中的诸多自变量对logitP的线性解释有显著意义,那么必然会使回归方程对样本的拟合得到显著提高。
可通过对数似然比测度拟合程度是否有所提高。
我们通常采用似然比检验统计量也可称为似然比卡方,其中L表示引入变量前回归方程的似然函数值,表示引入变量xi后回归方程的似然函数值。
似然比检验统计量越大表明引入变量xi越有意义。
如果似然比卡方观测值的概率p值小于给定的显著性水平,不接受原假设,即认为自变量全体与logitP之间的线性关系显著。
反之,线性关系不显著。
8回归系数的显著性检验
逻辑回归系数的显著性检验是检验方程中各变量与logitP之间是否具有线性关系。原假设是假设变量与logitP之间的线性关系不显著,即。
回归系数的显著性检验采用的是Wald统计量,其中,
是回归系数,是回归系数的标准误差。
Wald检验统计量近似服从卡方分布,当变量xi的Wald观测值的p值小于给定的显著性水平,不接受原假设,即变量xi与logitP的线性关系显著,应保留该变量。
9后记
逻辑回归虽然简单,但是因为其运算过程简单,而且分类效果不会太差,所以在业界应用广泛。
我们大名鼎鼎的围棋高手AlphaGo在快速走子的过程中,也有用到该算法哟。
本次对逻辑回归的介绍就到这里,下一期我们将介绍支持向量机。
本文由 普林科技(微信公众号:普林科技) 投稿 数据分析网 发表,并经数据分析网编辑。版权归作者所有,转载此文请与作者联系。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。