主成分分析(PCA)

多元统计固有的困难之一是将有许多变量的数据可视化。MATLAB®函数情节显示两个变量之间关系的图表。的plot3冲浪命令显示不同的三维视图。但是当变量超过三个时,就很难想象它们之间的关系了。

幸运的是,在有许多变量的数据集中,一组变量经常一起移动。原因之一是,不止一个变量可能在测量控制系统行为的相同驱动原则。在许多系统中,这样的驱动力寥寥无几。但是大量的仪器使您能够测量几十个系统变量。当这种情况发生时,您可以利用这种信息冗余。您可以通过用一个新变量替换一组变量来简化这个问题。

主成分分析是实现这种简化的一种定量严格的方法。该方法生成一组新的变量,称为主成分.每个主成分都是原始变量的线性组合。所有的主分量都是互相正交的,所以没有冗余信息。主分量作为一个整体构成数据空间的正交基。

有无数种方法可以为几列数据构造正交基。主成分基础有什么特别之处?

第一个主分量是空间中的一个单轴。当您将每个观察结果投影到该轴上时,得到的值将形成一个新变量。这个变量的方差是第一个轴上所有可能选项中最大的。

第二个主分量是空间中的另一个轴,垂直于第一个。在这个轴上投影观测结果会产生另一个新的变量。这个变量的方差是第二个轴中所有可能选项中的最大值。

整个主成分集与原始变量集一样大。但通常情况下,前几个主成分的方差之和超过原始数据总方差的80%。通过检查这些新变量的图,研究人员通常会对产生原始数据的驱动力有更深的理解。

你可以使用这个函数主成分分析求主分量。使用主成分分析,你需要有你想要分析的实际测量数据。然而,如果您缺乏实际数据,但有数据的样本协方差或相关矩阵,您仍然可以使用该函数pcacov执行主成分分析。参见参考页pcacov用于描述其输入和输出。

另请参阅

|||

相关的话题