作者: 陈肖雅(数据产品经理)
1、主成分降维思想
多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。
但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。
人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息.
这实际上是一种“降维”的思想。
2、主成分分析的几何意义
就像物理中力的分解,将原本相交的两个力分解到垂直的坐标系中,主成分分析是将原本相关的各维变量数值映射到正交的主成分坐标体系中,主成分分析的实质是坐标系的转化。
假设我们要研究的样本对象(n个样本)有X1、X2两个属性变量,如下图所示,X1在各个样本上的观测值向量为(x11, x12,……,x1n), X2在各个样本上的观测值向量为(x21, x22,……,x2n)。假设X1、X2高度相关,存在信息重叠,需要将X1、X2的数值分解到两个正交的向量Z1、Z2中。设θ1、θ2分别是X1、X2在Z1方向的夹角。
Z1、Z2便是从该原始变量向量空间中抽取出来的主成分, 其中样本在Z1方向的方差很大,说明Z1包含了样本的大部分信息量。其中样本在Z2方向的方差很小,只包含样本小部分的信息量。我们称Z1为第一主成分,Z2为第二主成分。如果不介意原始变量信息的略微损失,我们可以只拿第一主成分Z1作为分析的标准,直接舍弃Z2 维度的数据。这样整个模型就变得简单,实际上就起到了降维的作用。
3、主成分提取
通过以上的分析,我们知道主成分的实质是从存在相关的多维度原始变量向量空间中抽取出几个彼此正交的主成分来代表原始数据,从而简化分析模型,这些主成分包含了原始变量大部分的信息。
而这些主成分跟原始变量又存在怎样的关系呢,我们将几何意义中二维空间的分析扩展到多维空间,各个主成分可以表示为原始变量的线性组合。
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的矩阵
主成分与原始变量之间有着如下的线性变换。
这里(Z1,Z2,…,ZP)为主成分变量指标。原变量X到主成分Z的线性组合系数矩阵为A=(ai1,ai2,…,aip),也称为主成分的得分系数矩阵。
通过线性变化,就将原始变量上的样本数据转化到(Z1,Z2,…,ZP)的坐标体系中。
设主成分(Z1,…,Zp)的方差为(λ1,…,λp )。所有主成分的总方差和等于原始变量的总方差和。各个主成分对应的方差越大,表示该主成包含的信息越多,越重要,我们将主成分对应的方差在总方差中的占比成为该主城分的贡献率。
为主成分Zk的贡献率。如果a1使得Z1的贡献率在所有主成分中最大,就称Z1为第一主成分。同理可得第二、三、四…主成分。当提取的前面几个主成分总贡献率达到预定要求,就可以只保留这几个主成分舍弃其它。主成分分析试图在力保数据信息丢失最少的原则下尽可能选择最少的维度。
我们希望找到一组新的变量(Z1,…,Zm)(m≤p) ,这组新的变量充分地反映原变量(X1,…,Xp)的信息,而且相互独立。
先找第一主成分Z1。Z1=a′1X,需要确定a1使得Z1的方差达到最大,一般a1满足以下条件时var(Z1)最大。
如果Z1的贡献率,及var(Z1)在总方差中的占比达到预定要求,只需要提取Z1作为主成分就已经足够。
若不满足代表原变量所包含的信息,再考
虑选取Z2 ,使 满足
称Z2为第二主成分。
类似地,可求第三主成分,第四主成分等等。
4、主成分的性质
(1) 主成分间互不相关
(2) 组合系数ai*a,i=1,主成分提取的方案有多种,满足这个条件,能保证每次提取的主成分方差值最大
(3) 总方差不变
(4) (X1,…,Xp)的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征向量(该特征向量为归一化标准向量)。而且,特征值li就是第i主成分的方差,即 Var(Zi)= λi
5、主成分分析计算步骤
1、 计算相关系数矩阵
rij为原变量xi与xj的相关系数
2、 计算特征值和特征向量
对R求特征值(λ1,…,λp ),并求出特征值分别对应的单位特征(a1,,…ap,)向量,这些特征向量组成的矩阵即为X到Z的相关系数矩阵
3、 各主成分得分
最终的主成分Z可通过原变量X跟相关系数A的线性组合求出。
本文由 陈肖雅 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/73378.html 。