主成分分析(PCA)

多元统计固有的困难之一是将有许多变量的数据可视化。MATLAB^®函数情节显示两个变量之间关系的图表。的plot3和冲浪命令显示不同的三维视图。但是当变量超过三个时，就很难想象它们之间的关系了。

幸运的是，在有许多变量的数据集中，一组变量经常一起移动。原因之一是，不止一个变量可能在测量控制系统行为的相同驱动原则。在许多系统中，这样的驱动力寥寥无几。但是大量的仪器使您能够测量几十个系统变量。当这种情况发生时，您可以利用这种信息冗余。您可以通过用一个新变量替换一组变量来简化这个问题。

主成分分析是实现这种简化的一种定量严格的方法。该方法生成一组新的变量，称为主成分．每个主成分都是原始变量的线性组合。所有的主分量都是互相正交的，所以没有冗余信息。主分量作为一个整体构成数据空间的正交基。

有无数种方法可以为几列数据构造正交基。主成分基础有什么特别之处?

第一个主分量是空间中的一个单轴。当您将每个观察结果投影到该轴上时，得到的值将形成一个新变量。这个变量的方差是第一个轴上所有可能选项中最大的。

第二个主分量是空间中的另一个轴，垂直于第一个。在这个轴上投影观测结果会产生另一个新的变量。这个变量的方差是第二个轴中所有可能选项中的最大值。

整个主成分集与原始变量集一样大。但通常情况下，前几个主成分的方差之和超过原始数据总方差的80%。通过检查这些新变量的图，研究人员通常会对产生原始数据的驱动力有更深的理解。

你可以使用这个函数主成分分析求主分量。使用主成分分析，你需要有你想要分析的实际测量数据。然而，如果您缺乏实际数据，但有数据的样本协方差或相关矩阵，您仍然可以使用该函数pcacov执行主成分分析。参见参考页pcacov用于描述其输入和输出。

另请参阅