工资挖掘:用分位数回归看你的工资水平

今天我们再来用分位数回归做一下工资挖掘,它与均值回归和众数回归相比也有自己的独到之处。

摘要:也许你还记得,我们之前发过一篇从众数回归角度探讨工资水平的文章,让你看看你的工资究竟处于什么位置。今天我们再来用分位数回归做一下工资挖掘,它与均值回归和众数回归相比也有自己的独到之处。

不久前我们发过一篇大受欢迎的文章:《“深度挖掘,你的工资拖后腿了吗?”》。文中试着用众数回归的方法,向大家展示了一个公司不同年龄层中出现次数最多(也就是众数)的工资水平。不过,除了用众数回归得到出现次数最多的工资数,也可以尝试用中位数回归,从另一个角度研究一下工资的分布。顾名思义,中位数回归就是得到处于中间位置的工资数,大家通过与中间位置的工资额度比较,就可以知道自己到底是在前50%的区间里,还是后50%。事实上,我们不仅可以计算出中间位置的工资,还可以算出前15%、后15%等任意位置的工资数额,而这些就要通过今天向大家介绍的分位数回归来实现了。

先来聊一聊分位数吧。简单地说,假设有100个数按照从低到高排序,排在第25个位置上的数就是25/100分位数,也就是四分之一分位数,同理在第75个位置上的数就是四分之三分位数。排在第50个位置上的数,也就是最出名的分位数——中位数。

按照统计学的语言来说就是:对于工资挖掘:用分位数回归看你的工资水平,如果有工资挖掘:用分位数回归看你的工资水平成立,则将y 定义为随机变量Y的工资挖掘:用分位数回归看你的工资水平阶分位数,其中工资挖掘:用分位数回归看你的工资水平为Y的分布函数。

和均值一样,分位数作为刻画数据位置的特征数,可大致上估画出一组数据的分布情况。常应用于箱线图上:

工资挖掘:用分位数回归看你的工资水平

再来说说回归,通常大家所熟悉的线性回归的形式如下:

工资挖掘:用分位数回归看你的工资水平

这实际上是一种均值回归,也就是说,通过模型,我们得到的是在某一条件x下Y的平均水平。比如通过回归模型,模拟出了家庭收入和家庭支出的关系,那么在确定的家庭收入下,就可以预测出这个家庭的支出水平,这个支出水平其实是这个家庭收入下所有家庭的一个平均水平。

当然,普通均值回归存在着一些缺点。其一,回归结果反映的是Y的均值水平,很难观察出Y在各个层面分布的差异情况。其二,传统回归模型中对于误差项有一些假设条件(误差项要服从零均值同方差的正态分布),然而实际情况中往往很难满足这一点,这时候再用普通均值回归方法得出的参数值,其可靠性会大打折扣。

分位回归的出现恰恰弥补了普通均值回归的以上两点不足。首先,分位回归刻画的是X与不同分位数下Y的关系,相对于传统均值回归只能解释X对Y的平均水平的影响而言,分位数回归刻画范围更广,内容也更为丰富。其次,分位回归不对误差项做具体的假定,因而在实际应用中对于参数的估计也更加可靠。

分位回归是Koenker和Bassett于1978年所提出的,在30 多年里,随着计算机技术的提高,分位回归有了长足的发展,广泛应用于经济学、社会学和生物医学等众多学科之中。

分位回归的定义如下:

在给定了一个固定的分位点工资挖掘:用分位数回归看你的工资水平的条件下,普通线性分位回归模型为:

工资挖掘:用分位数回归看你的工资水平

表示在给定x的条件下响应变量Y的线性条件分位函数。可以看出,分位回归与普通线性回归的形式差异就在等式的左边,普通均值回归的左侧是条件均值,而分位回归则是该分位点所对应的条件分位数。

在普通均值回归中,我们采用的是最小二乘估计方法,即将平方损失函数最小化,从而得到各个参数的估计值。而在分位回归中则提出了一种新的损失函数,名为检验函数 (Check Function),形式如下(如果觉得烧脑请自行跳过):

工资挖掘:用分位数回归看你的工资水平

该函数为分段函数,斜率分别为

 

20161011

图形如下所示:

工资挖掘:用分位数回归看你的工资水平

目前,分位回归的估计算法主要有单纯形法、内点算法和平滑算法,这几种算法在统计软件R的软件包quantreg中都有提供,其默认方法是单纯形法。

说了这么多理论的东西,给大家举个例子吧。为了研究工作年限和收入水平的关系,秉着工作年份越久、收入越高,且同一年份下的人们收入差距也越大的规律,我们模拟了一个地区2000个人在不同工作年限下的月收入水平。

从下图中可以明显看出,随着工作年限的增加,人们的工资水平呈现出来的是一个斜向上方的喇叭状。另外,这个喇叭的上方开口程度要大于下方开口程度,也就是这个喇叭不太对称,这是因为在模拟过程中,我们模拟了非对称的数据,进而可以检验分位回归的在这种非对称环境中的表现究竟如何。

工资挖掘:用分位数回归看你的工资水平

将数据读入R中,调用R包中均值回归以及分位回归的函数,便成功跑出了回归模型,也就是上图的那几条彩色的线。硕果仅存的黑线为均值回归的结果,红线为中位数回归的结果,可以看到中位数回归线基本都在均值回归线之下,这说明在非对称分布中,均值回归较容易受到异常点的影响,这也是为什么一般官方公布的平均工资水平会给大众一种普遍偏高的感觉(一些土豪领跑了我们的工资)。

图中蓝色直线从上到下分别为0.95、0.75、0.25和0.05分位点对应的分位回归线(当然你也可以任意选择一个分位点)。可以看出,不论是均值回归还是分位回归,随着工作年份的增加,工资水平都是上升的趋势,但不同收入水平下工资的提升速度却有差异。在高收入水平下,分位回归线的斜率更为陡峭,说明高收入人群的收入水平提升速度更快,而低收入人群的回归线斜率相对平缓,说明低收入人群的收入增幅较为缓慢。细思极恐的是,两者之间的差距越来越大,也就是“贫者越贫,富者越富“……

这些结论都是均值和众数角度无法提供的。加入这几条分位回归线,我们对工资的认知就从二维转换成了三维,变得立体化、动态化了。

分位回归发展至今,不仅可以应用于线性回归模型,还可以用于拟合非线性回归模型,估计的方法也从参数估计推广到非参数估计,数据应用层面也不仅仅是截面数据,还可以是面板和纵向数据,感兴趣的你不妨试着研(tang)究(tang)研(hun)究(shui)。

怎么样,分位回归这种不仅可以在数量上取胜,更可以在内容上丰富结论的模型,是不是有点意思。觉得有趣的话,别忘了在下面打个赏吧,毕竟我们一直辛苦挖掘,都是为了你的工资着想呀~

本文为专栏文章,来自:KPMG大数据挖掘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/33822.html 。

(3)
KPMG大数据挖掘的头像KPMG大数据挖掘专栏
上一篇 2016-10-12 08:47
下一篇 2016-10-17 10:59

相关文章

关注我们
关注我们
分享本页
返回顶部