科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。比如说,对于糖尿病、动脉硬化等疾病,其病因是多种多样的,收集的资料中包含的信息是丰富多彩的。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。1933年,Hotelling提出的主成分分析(PrincipalComponent Analysis)方法正是实现这一目的的有效途径之一。
何为主成分?简而言之,主成分实际上就是由原变量X1~Xm线性组合出来的m个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。
主成分分析的基本条件与主成分的基本性质
设相关矩阵为R以及与之同阶的单位矩阵为I、原始变量的个数为m,则R就是m阶方阵,特征值为λ,求各特征值λi的过程就是求解下列特征方程:|R-λI|=0, 此方程的左边展开后实际上是一个λ的m阶多项式,其解由大到小依次排列为λ1≥λ2≥…≥λm>0。主成分分析的基本条件与主成分的基本性质可概述如下:
①各主成分之间互不相关,若原变量服从正态,则各主成分之间互相独立;
②全部m个主成分所反映的n例样品的总信息,等于m个原变量的总信息。信息量的多少,用变量的方差来度量。若将m个原变量标准化后,每个变量的方差都为1,故方差之和为m,此时,求得的m个主成分的方差之和也为m;
③各主成分的作用大小是∶Z1≥Z2≥…≥Zm;
④第i个主成分的贡献率是(λi/m)×100%;
⑤前P个主成分的累计贡献率是((∑Pi=1λi)/m)×100%。在应用时,一般取累计贡献率为70~85%或以上所对应的前P个主成分即可。 在资料所含的变量个数、样品数及累计贡献率固定的前提下,P/m的比值越小,则说明此资料用主成分分析越合适。
⑥r(Zi,xj)=cij,说明第i个主成分Zi与第j个标准化变量xj之间的相关系数就是表达式(3)中的系数cij;
⑦∑mj=1r2(Zi,xj)=λi,说明第i个主成分Zi与m个标准化变量中的每一个变量之间的相关系数的平和为由大到小排列后的第i个特征值λi;
⑧∑mi=1r2(Zi,xj)=1,说明m个主成分分别与第j个标准化变量的相关系数的平和为1,即每1个标准化变量的信息由全部主成分完全包含。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。