主成分分析

原始数据的主成分分析

折叠所有页面

语法

多项式系数= pca (X)

多项式系数= pca (X、名称、值)

[多项式系数,得分,潜伏]= pca (＿＿＿）

[多项式系数,分数,潜伏,tsquared] = pca (＿＿＿）

[多项式系数,分数,潜伏,tsquared解释说,μ)= pca (＿＿＿）

描述

例子

多项式系数= pca (X）的主分量系数，也称为加载n——- - - - - -p数据矩阵X．行X对应观察值，列对应变量。系数矩阵为p——- - - - - -p．每一列的多项式系数包含一个主分量的系数，列是按分量方差降序排列的。默认情况下,主成分分析将数据集中并使用奇异值分解(SVD)算法。

例子

多项式系数= pca (X，名称,值）使用由一个或多个指定的用于计算和处理特殊数据类型的附加选项返回前面语法中的任何输出参数名称,值对参数。

例如，可以指定主组件的数量主成分分析返回或使用SVD以外的算法。

例子

［多项式系数，分数，潜在的) = pca (＿＿＿）也返回主成分得分分数和主分量方差潜在的．您可以使用前面语法中的任何输入参数。

主成分得分是表示X在主分量空间中。行分数对应观察值，列对应组件。

主分量方差是的协方差矩阵的特征值X．

例子

［多项式系数，分数，潜在的，tsquared) = pca (＿＿＿）也返回霍特林的每一个观察的t平方统计X．

例子

［多项式系数，分数，潜在的，tsquared，解释，μ) = pca (＿＿＿）同样的回报解释，由各主成分和解释的总方差的百分比μ中每个变量的估计均值X．

例子

全部折叠

数据集的主要组成部分

打开生活的脚本

加载示例数据集。

负载哈尔德

成分数据有4个变量的13个观察值。

找到成分数据的主要成分。

多项式系数= pca(成分)

多项式系数=4×4-0.0678 -0.6460 0.5673 0.5062 -0.6785 -0.0200 -0.5440 0.4933 0.0290 0.7553 0.4036 0.5156 0.7309 -0.1085 -0.4684 0.4844

的行多项式系数包含四个成分变量的系数，它的列对应四个主成分。

存在缺失数据的PCA

当数据集中有缺失值时，找出主成分系数。

加载示例数据集。

负载进口- 85

数据矩阵X在列3至15中有13个连续变量:轮距、长度、宽度、高度、限重、发动机尺寸、内径、冲程、压缩比、马力、峰值rpm、城市英里数和公路英里数。在第56行到第59行，内径和冲程变量少了4个值，在第131行和132行，马力和峰值转速变量少了2个值。

执行主成分分析。

多项式系数= pca (X (:, 3:15));

默认情况下,主成分分析属性指定的操作“行”,“完成”名称-值对的论点。此选项将删除带有的观察值南值计算。行南S重新插入分数和tsquared在相应的位置，即第56到59行，第131行和第132行。

使用“成对”进行主成分分析。

多项式系数= pca (X (:, 3:15),“行”，“成对”）;

在这种情况下,主成分分析计算(我，j)元素的协方差矩阵使用的行没有南列中的值我或j的X．注意，得到的协方差矩阵可能不是正定的。此选项适用于算法主成分分析用的是特征值分解。如果你不指定算法，就像在这个例子中，主成分分析将它设置为“eig”．如果您需要“圣言”作为算法，用“成对”选项,然后主成分分析返回警告消息，将算法设置为“eig”和仍在继续。

如果你使用“行”,“所有”名称-值对的论点,主成分分析终止，因为该选项假定数据集中没有丢失的值。

多项式系数= pca (X (:, 3:15),“行”，“所有”）;

当'Rows'选项被设置为'all'时，原始数据包含NaN缺失值。可以考虑使用“complete”或“paired”选项。

加权主成分分析

打开生活的脚本

在进行主成分分析时，使用逆变量方差作为权重。

加载示例数据集。

负载哈尔德

执行主成分分析，使用成分方差的倒数作为可变权重。

[wcoeff，~，潜在，~，解释]=pca（成分，．..“VariableWeights”，“方差”）

wcoeff =4×41.4180 -8.7743 -6.4411 4.8927 9.9863 2.5240 -3.8749 -4.0845 1.7196 9.1714 7.5529 3.2710 11.3273

潜在的=4×12.2357 1.5761 0.1866 0.0016

解释了=4×139.4017 4.6652 0.0406

注意系数矩阵，wcoeff，不是标准正交的。

计算标准正交系数矩阵。

系数= inv(diag(std(components)))* wcoeff

coefforth =4×40.4760 0.5090 0.6755 0.2411 0.5639 -0.4139 0.3144 0.6418 0.3941 0.6050 -0.6377 0.2685 0.5479 0.4512 0.1954 0.6767

检查新系数矩阵的标准正交性，coefforth．

coefforth * coefforth’

ans =4×41.0000 0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 -0.0000 0.0000

PCA使用ALS对缺失数据进行分析

打开生活的脚本

当数据中有缺失值时，使用交替最小二乘(ALS)算法寻找主成分。

加载示例数据。

负载哈尔德

成分数据有4个变量的13个观察值。

使用ALS算法进行主成分分析，并显示主成分系数。

[多项式系数,分数,潜伏,tsquared解释]= pca(成分);多项式系数

多项式系数=4×4-0.0678 -0.6460 0.5673 0.5062 -0.6785 -0.0200 -0.5440 0.4933 0.0290 0.7553 0.4036 0.5156 0.7309 -0.1085 -0.4684 0.4844

随机引入缺失值。

y =成分;rng (“默认”）;%的再现性第九=随机(“unif”0 1大小(y)) < 0.30;y (ix) = NaN

y =13×47 26 6 NaN 1 29 15 52 NaN 8 20 11 31 NaN 47 7 52 6 33 NaN 55 NaN NaN 71 NaN 6 1 31 NaN 44 2 NaN 22 21 47 4 26⋮

大约30%的数据现在有缺失值，由南．

使用ALS算法进行主成分分析，并显示主成分系数。

[coeff1 score1,潜伏,tsquared,解释说,mu1] = pca (y,．..“算法”，“als”）;coeff1

coeff1 =4×4-0.0362 0.8215 -0.5252 0.2190 -0.6831 -0.0998 0.1828 0.6999 0.0169 0.5575 0.8215 -0.1185 0.7292 -0.0657 0.1261 0.6694

显示估计的平均值。

mu1

mu1 =1×48.9956 47.9088 9.0451 28.5515

重建观测数据。

T = score1*coeff1' + repmat(mu1,13,1)

t =13×47.0000 26.0000 6.0000 51.5250 1.0000 29.0000 15.0000 52.0000 10.7819 53.0230 8.0000 20.0000 11.0000 31.0000 13.5500 47.0000 7.0000 52.0000 6.0000 33.0000 10.4818 55.0000 7.8328 17.9362 3.0982 71.0000 11.9491 6.0000 1.0000 31.0000 -0.5161 44.0000 2.0000 53.7914 5.7710 22.0000 21.0000 47.0000 4.0000 4.0000 26.0000⋮

ALS算法估计数据中的缺失值。

另一种比较结果的方法是找出系数向量张成的两个空间之间的角度。使用ALS找出为完整数据找到的系数与缺失值数据之间的角度。

子空间(多项式系数,coeff1)

ans = 6.1030 e-16

这是个小值。它表明结果，如果你使用主成分分析与“行”,“完成”名称-值对参数，如果没有丢失的数据，并且使用主成分分析与“算法”、“als”当缺少数据时，名称-值对参数彼此接近。

使用。执行主成分分析“行”,“完成”名称-值对参数并显示组件系数。

[coeff2 score2,潜伏,tsquared,解释说,mu2] = pca (y,．..“行”，“完成”）;coeff2

coeff2 =4×30.2054 0.8587 0.0492 0.6694 0.3720 0.5510 0.1474 0.3513 -0.5187 0.6986 -0.0298 0.6518

在这种情况下,主成分分析删除缺少值的行y只有四行没有丢失值。主成分分析只返回三个主要组件。你不能使用“行”,“成对”选项，因为协方差矩阵不是正的半定的主成分分析返回错误消息。

使用列表删除(当)找到完整数据和缺失值数据之间的系数“行”,“完成”）．

子空间(多项式系数(:1:3),coeff2)

ans = 0.3576

两个空间之间的角度要大得多。这表明这两个结果是不同的。

显示估计的平均值。

mu2

mu2 =1×49.8750 29.6000

这里的均值就是样本均值y．

重建观测数据。

score2 * coeff2’

ans =13×4南南南南南南南南南南南南-0.5644 5.3213 -3.3432 3.6040南南南南南南南南南南南南南南南南南12.8315 -0.1076 -6.3333 -3.7758⋮

这表明删除的行包含南值的工作效果不如ALS算法。当数据中有太多缺失值时，使用渐冻人(ALS)会更好。

主成分系数、分数和方差

打开生活的脚本

找出主成分的系数、分数和方差。

加载示例数据集。

负载哈尔德

成分数据有4个变量的13个观察值。

找出成分数据的主成分系数、分数和成分的方差。

[多项式系数,分数,潜伏]= pca(成分)

多项式系数=4×4-0.0678 -0.6460 0.5673 0.5062 -0.6785 -0.0200 -0.5440 0.4933 0.0290 0.7553 0.4036 0.5156 0.7309 -0.1085 -0.4684 0.4844

分数=13×436.8218 -6.8709 -4.5909 0.3967 29.6073 4.6109 -2.2476 -0.3958 -12.9818 -4.2049 0.9022 -1.1261 23.7147 -6.6341 1.8547 -0.3786 -0.5532 -4.4617 -6.0874 0.1424 -10.8125 -3.6466 0.9130 -0.1350 -32.5882 8.9798 -1.6063 0.0818 22.6064 10.7259 0.3265 -9.2626 8.9854 -0.0169 -3.2840 -14.1573 7.0465 0.3405⋮

潜在的=4×1517.7969 67.4964 12.4054 0.2372

每一列的分数对应一个主分量。这个向量,潜在的，存储四个主成分的方差。

重构中心成分数据。

Xcentered =分数*多项式系数的

Xcentered =13×4-0.4615 -22.1538 -5.7692 30.000 -6.4615 -19.1538 3.2308 22.0000 3.5385 7.8462 -3.7692 -10.0000 3.5385 -17.1538 -3.7692 17.0000 -0.4615 3.8462 -2.7692 -8.0000 -4.4615 22.8462 5.2308 -24.0000 -6.4615 -17.1538 10.2308 14.0000 -5.4615 5.8462 -6.4615 -17.1538 13.5385 -1.1538 -7.7692 -4.0000⋮

新的数据Xcentered是从相应列中减去列均值的原始成分数据。

可视化每个变量的标准正交主成分系数和每个观察的主成分得分在一个单一的plot中。

biplot(多项式系数(:,1:2),“分数”分数(:1:2),“varlabels”，{“v_1”，“v_2”，“v_3”，“两者”}）;

图中包含一个轴对象。axis对象包含14个类型为line, text的对象。

在这个双图中，所有四个变量都由一个矢量表示，矢量的方向和长度表明了每个变量对图中的两个主分量的贡献。例如，横轴上的第一个主分量对第三和第四个变量具有正系数。因此,矢量 $v_{3.}$ 和 $v_{4}$ 被引导到情节的右半部分。第一个主成分中系数最大的是第四个，对应于变量 $v_{4}$ ．

第二个主分量在纵轴上，变量的系数为负 $v_{1}$ ， $v_{2}$ , $v_{4}$ ，变量的系数为正 $v_{3.}$ ．

这个二维双图还包括13个观测值中的每个点，坐标表示每个观测值在图中的两个主要成分。例如，靠近图左边缘的点的第一个主成分得分最低。这些点是根据最大得分值和最大系数长度进行缩放的，因此只能从图中确定它们的相对位置。

t方统计

打开生活的脚本

找到霍特林的t平方统计值。

加载示例数据集。

负载哈尔德

成分数据有4个变量的13个观察值。

执行主成分分析并请求t平方值。

[多项式系数,分数,潜伏,tsquared] = pca(成分);tsquared

tsquared =13×15.6803 3.0758 6.0002 2.6198 3.3681 0.5668 3.4818 3.9794 2.6086 7.4818⋮

只请求前两个主成分，并在请求主成分的缩减空间中计算t平方值。

[多项式系数,分数,潜伏,tsquared] = pca(成分,“NumComponents”2);tsquared

tsquared =13×15.6803 3.0758 6.0002 2.6198 3.3681 0.5668 3.4818 3.9794 2.6086 7.4818⋮

注意，即使你指定了一个简化的分量空间，主成分分析计算整个空间的t平方值，使用所有四个分量。

约简空间中的t平方值对应于约简空间中的马氏距离。

tsqreduced =泰姬陵(得分,得分)

tsqreduced =13×13.3179 2.0079 0.5874 1.7382 0.2955 0.4228 3.2457 2.6914 1.3619 2.9903⋮

通过取全空间的t平方值与简化空间的马氏距离之差来计算废弃空间中的t平方值。

Tsqdiscarded = tsquared - tsqreduced

tsqdiscarded =13×12.3624 1.0679 5.4128 0.8816 3.0726 0.1440 0.2362 1.2880 1.2467 4.4915⋮

由主要成分解释的百分比变异性

打开生活的脚本

找出由主成分解释的可变性百分比。在主组件空间中显示数据表示。

加载示例数据集。

负载进口- 85

数据矩阵X在列3至15中有13个连续变量:轮距、长度、宽度、高度、限重、发动机尺寸、内径、冲程、压缩比、马力、峰值rpm、城市英里数和公路英里数。

找出由这些变量的主要组成部分解释的可变性百分比。

[多项式系数,分数,潜伏,tsquared解释]= pca (X (:, 3:15));解释

解释了=13×164.3429 35.4484 0.1550 0.0379 0.0078 0.0048 0.0013 0.0011 0.0005 0.0002⋮

前三部分解释了99.95%的可变性。

在前三个主成分的空间中可视化数据表示。

scatter3(分数(:1),分数(:,2),得分(:,3)轴平等的包含(第一主成分的) ylabel (第二主成分的) zlabel (第三主成分的）

图中包含一个轴对象。axis对象包含一个散点类型的对象。

数据显示沿第一个主成分轴的变异性最大。这是第一个轴所有可能选项中最大的可能方差。沿第二个主成分轴的变异性在第二个轴的所有可能的剩余选择中是最大的。第三主成分轴具有第三大变异性，明显小于沿第二主成分轴的变异性。第四到第十三主成分轴不值得检查，因为它们只能解释数据中所有变异性的0.05%。

要跳过任何输出，可以使用～而是在相应的元素中。例如，如果你不想得到t平方值，指定

[多项式系数,分数,潜伏,~,解释]= pca (X (:, 3:15));

将PCA应用于新数据，生成C/ c++代码

这个示例使用:

打开生活的脚本

找到一个数据集的主成分，并将PCA应用到另一个数据集。当您拥有机器学习模型的训练数据集和测试数据集时，此过程非常有用。例如，可以使用PCA对训练数据集进行预处理，然后训练模型。要使用测试数据集测试训练的模型，需要将训练数据获得的PCA转换应用到测试数据集。

这个例子还描述了如何生成C/ c++代码。因为主成分分析金宝app支持代码生成，您可以生成使用训练数据集执行PCA的代码，并将PCA应用于测试数据集。然后将代码部署到设备上。在这个工作流中，您必须通过训练数据，这些数据可能相当大。为了节省设备上的内存，您可以将训练和预测分开。使用主成分分析在MATLAB®中，并将PCA应用于设备上生成的代码中的新数据。

生成C/ c++代码需要MATLAB®Coder™。

对新数据应用PCA

使用。将数据集装入表中readtable．数据集在文件中CreditRating_Historical.dat，其中包含历史信用评级数据。

creditrating = readtable (“CreditRating_Historical.dat”）;creditrating (1:5,:)

ans =5×8表ID WC_TA RE_TA EBIT_TA MVE_BVTD S_TA行业评级  _____ _____ _____ _______ ________ _____ ________ _______ 62394 0.013 0.104 0.036 0.447 0.142 3{“BB”}48608 0.232 0.335 0.062 1.969 0.281 8 {A} 42444 0.311 0.367 0.074 1.935 0.366 1 {A} 48631 0.194 0.263 0.062 1.017 0.228 - 4 {BBB的}43768 0.121 0.413 0.057 3.647 0.466 12 {' AAA '}

第一列是每个观察的ID，最后一列是一个评级。指定第二到第七列作为预测器数据，并指定最后一列(评级)作为回应。

X = table2array (creditrating (: 2:7));Y = creditrating.Rating;

将前100个观察数据作为测试数据，其余的作为训练数据。

XTest = X (1:10 0,);XTrain = X(101年:,);欧美= Y (1:10 0);YTrain = Y(101:结束);

找出训练数据集的主成分XTrain．

[多项式系数,scoreTrain, ~, ~,解释说,μ)= pca (XTrain);

这段代码返回四个输出:多项式系数，scoreTrain，解释,μ．使用解释(被解释的总变异的百分比)，以找出解释至少95%变异所需的成分数目。使用多项式系数(主成分系数)和μ(估计的方法XTrain)将主成分分析应用于测试数据集。使用scoreTrain(主成分分数)而不是XTrain当你训练一个模特的时候。

显示由主要成分解释的百分比变异性。

解释

解释了=6×158.2614 41.2606 0.3875 0.0632 0.0269 0.0005

前两个部分解释了95%以上的可变性。找出解释至少95%可变性所需的组件数量。

idx =找到(cumsum(解释)> 95,1)

idx = 2

使用前两个组件训练分类树。

scoreTrain95 = scoreTrain (:, 1: idx);mdl = fitctree (scoreTrain95 YTrain);

mdl是一个ClassificationTree模型。

要将训练好的模型用于测试集，需要使用训练数据集获得的PCA对测试数据集进行转换。通过减法得到测试数据集的主成分分数μ从XTest,乘以多项式系数．只有前两个部分的分数是必要的，所以使用前两个系数多项式系数(:1:idx)．

scoreTest95 = (XTest-mu) *多项式系数(:1:idx);

通过训练的模型mdl以及转换后的测试数据集scoreTest到预测函数预测测试集的评级。

scoreTest95 YTest_predicted =预测(mdl);

生成代码

生成代码，将PCA应用于数据，并使用训练过的模型预测评级。请注意，生成C/ c++代码需要MATLAB®Coder™。

将分类模型保存到文件中myMdl.mat通过使用saveLearnerForCoder．

saveLearnerForCoder (mdl“myMdl”）;

定义一个入口点函数名为myPCAPredict接受测试数据集(XTest)及PCA资料(多项式系数和μ)，并返回测试数据的评级。

添加% # codegen编译器指令(或pragma)到函数签名后的入口点函数，以指示您打算为MATLAB算法生成代码。添加此指令将指示MATLAB代码分析器帮助您诊断和修复在代码生成期间可能导致错误的违规。

函数标签= myPCAPredict (XTest、多项式系数μ)% # codegen%使用PCA变换数据scoreTest=bsxfun（@减号，XTest，mu）*系数；%负荷训练分类模型mdl = loadLearnerForCoder (“myMdl”）;%使用加载模型预测评级标签=预测(mdl scoreTest);

myPCAPredict将PCA应用于新数据使用多项式系数和μ，然后使用转换后的数据预测评级。这样，您就不需要通过训练数据，这些数据可能相当大。

注意:如果你点击这个页面右上角的按钮，并在MATLAB®中打开这个示例，那么MATLAB®将打开示例文件夹。这个文件夹包括入口点函数文件。

使用以下命令生成代码codegen(MATLAB编码器)．因为C和c++都是静态类型语言，所以必须在编译时确定入口点函数中所有变量的属性。要指定数据类型和精确的输入数组大小，通过使用arg游戏选择。如果在编译时观察值的数量未知，还可以使用coder.typeof(MATLAB编码器)．有关详细信息,请参见为代码生成指定可变大小参数．

codegenmyPCAPredictarg游戏{coder.typeof (XTest[正无穷,6],[1,0]),多项式系数(:,1:idx),μ}

代码生成成功。

codegen生成MEX函数myPCAPredict_mex与平台相关的扩展。

验证生成的代码。

YTest_predicted_mex = myPCAPredict_mex (XTest多项式系数(:1:idx),μ);isequal (YTest_predicted YTest_predicted_mex)

ans =逻辑1

isequal返回逻辑1 (真正的)，这意味着所有的输入都是相等的。比较证实了预测的函数mdl和myPCAPredict_mex函数返回相同的评级。

有关代码生成的更多信息，请参见代码生成简介和代码生成和分类学习程序．后者描述了如何使用Classification Learner应用程序执行PCA并训练模型，以及如何基于训练的模型生成C/ c++代码来预测新数据的标签。

输入参数

全部折叠

`X`- - - - - -输入数据
矩阵

用于计算主要部件的输入数据，指定为n——- - - - - -p矩阵。行X对应观察值，列对应变量。

数据类型:单|双

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“算法”、“eig”、“集中”,假的,‘行’,‘所有’,‘NumComponents’,3指定主成分分析使用特征值分解算法，不集中数据，使用所有的观察，并只返回前三个主成分。

`算法`- - - - - -主成分算法
`“圣言”`(默认)|`“eig”`|`“als”`

主成分算法主成分分析用于执行主成分分析，指定为逗号分隔对组成“算法”下面是其中之一。

价值描述

“圣言” 违约。奇异值分解(SVD)X．

“eig” 协方差矩阵的特征值分解(EIG)。当观测数据个数、n，超过变量的数量，p，但不太准确，因为协方差的条件数是条件数的平方X．

价值	描述
`“圣言”`	违约。奇异值分解(SVD)`X`．
`“eig”`	协方差矩阵的特征值分解(EIG)。当观测数据个数、n，超过变量的数量，p，但不太准确，因为协方差的条件数是条件数的平方`X`．
`“als”`	交替最小二乘(ALS)算法。该算法找到最佳秩-k近似通过分解`X`成一个n——- - - - - -k左因子矩阵L和ap——- - - - - -k右因子矩阵R，其中k为主成分的个数。因数分解使用从随机初值开始的迭代方法。渐冻症是为了更好地处理缺失值而设计的。最好是成对删除(`“行”,“成对”`)，并处理缺少的值而不进行列表删除(`“行”,“完成”`）．它可以很好地处理随机丢失数据百分比很小的数据集，但在稀疏数据集上可能表现不佳。

“als”

交替最小二乘(ALS)算法。该算法找到最佳秩-k近似通过分解X成一个n——- - - - - -k左因子矩阵L和ap——- - - - - -k右因子矩阵R，其中k为主成分的个数。因数分解使用从随机初值开始的迭代方法。

渐冻症是为了更好地处理缺失值而设计的。最好是成对删除(“行”,“成对”)，并处理缺少的值而不进行列表删除(“行”,“完成”）．它可以很好地处理随机丢失数据百分比很小的数据集，但在稀疏数据集上可能表现不佳。

例子:“算法”、“eig”

`为中心的`- - - - - -定心柱指示器
`真正的`(默认)|`假`

用于对列居中的指示符，指定为逗号分隔对，由“中心”其中一个逻辑表达式。

价值	描述
`真正的`	违约。`主成分分析`中心`X`通过减列是指在计算奇异值分解或特征值分解之前。如果`X`包含`南`缺失值,`意思是(X, omitnan)`是用来找出任何可用数据的平均值。您可以使用`分数*多项式系数的`．
`假`	在这种情况下`主成分分析`不集中数据。您可以使用`分数*多项式系数的`．

例子:“集中”,假的

数据类型:逻辑

`经济`- - - - - -经济规模产出指标
`真正的`(默认)|`假`

指标为经济规模产出时自由度，d，小于变量的数量，p，指定为逗号分隔的对，由“经济”其中一个逻辑表达式。

价值描述

价值	描述
`真正的`	违约。`主成分分析`只返回第一个d的元素`潜在的`对应的列`多项式系数`和`分数`．当变量数量达到一定数量时，这个选项可以大大加快速度p比d．
`假`	`主成分分析`返回`潜在的`．的列`多项式系数`和`分数`中零元素的`潜在的`是0。

真正的

违约。主成分分析只返回第一个d的元素潜在的对应的列多项式系数和分数．

当变量数量达到一定数量时，这个选项可以大大加快速度p比d．

假

主成分分析返回潜在的．的列多项式系数和分数中零元素的潜在的是0。

注意,当d<p，分数(d + 1:: p)和潜在的(d + 1: p)必然是零，那么多项式系数(d + 1:: p)定义与之正交的方向X．

例子:“经济”,假的

数据类型:逻辑

`NumComponents`- - - - - -所需组件数量
数量的变量(默认)|标量整数

请求的组件数量，指定为由逗号分隔的对组成“NumComponents”和一个标量整数k满足0 <k≤p,在那里p原始变量的数量在里面吗X．当指定时,主成分分析返回第一个k列多项式系数和分数．

例子:“NumComponents”,3

数据类型:单|双

`行`- - - - - -采取行动`南`值
`“完成”`(默认)|`“成对”`|`“所有”`

采取行动南值X，指定为逗号分隔的对，由“行”下面是其中之一。

价值描述

价值	描述
`“完成”`	违约。观察与`南`值在计算前被删除。行`南`S重新插入`分数`和`tsquared`在相应的位置。
`“成对”`	此选项仅适用于算法为时`“eig”`．如果你不指定算法随`“成对”`,然后`主成分分析`将它设置为`“eig”`．如果您指定`“圣言”`作为算法，以及选项`“行”,“成对”`,然后`主成分分析`返回警告消息，将算法设置为`“eig”`和仍在继续。当你指定`“行”,“成对”`选项,`主成分分析`计算(我，j)元素的协方差矩阵使用的行没有`南`列中的值我或j的`X`．注意，得到的协方差矩阵可能不是正定的。在这种情况下,`主成分分析`以错误消息终止。
`“所有”`	`X`期望没有丢失的值。`主成分分析`使用所有数据并终止(如果有)`南`价值发现。

“完成”

违约。观察与南值在计算前被删除。行南S重新插入分数和tsquared在相应的位置。

“成对”

此选项仅适用于算法为时“eig”．如果你不指定算法随“成对”,然后主成分分析将它设置为“eig”．如果您指定“圣言”作为算法，以及选项“行”,“成对”,然后主成分分析返回警告消息，将算法设置为“eig”和仍在继续。

当你指定“行”,“成对”选项,主成分分析计算(我，j)元素的协方差矩阵使用的行没有南列中的值我或j的X．

注意，得到的协方差矩阵可能不是正定的。在这种情况下,主成分分析以错误消息终止。

“所有”

X期望没有丢失的值。主成分分析使用所有数据并终止(如果有)南价值发现。

例子:“行”,“成对”

`权重`- - - - - -观察权重
的(默认)|行向量

观察权值，指定为逗号分隔的对，由“重量”和一个长度的向量n包含所有积极因素。

数据类型:单|双

`VariableWeights`- - - - - -变量权重
行向量|`“方差”`

变量权重，指定为逗号分隔的对，由“VariableWeights”下面是其中之一。

价值描述

价值	描述
行向量	向量的长度p包含所有积极因素。
`“方差”`	可变权重是样本方差的倒数。如果还使用为观察值指定权重`“重量”`，则变权成为加权样本方差的倒数。如果`“中心”`被设置为`真正的`同时，求出数据矩阵`X`是有中心和标准化的。在这种情况下,`主成分分析`根据相关矩阵返回主成分。

行向量

向量的长度p包含所有积极因素。

“方差”

可变权重是样本方差的倒数。如果还使用为观察值指定权重“重量”，则变权成为加权样本方差的倒数。

如果“中心”被设置为真正的同时，求出数据矩阵X是有中心和标准化的。在这种情况下,主成分分析根据相关矩阵返回主成分。

例子:“VariableWeights”、“方差”

数据类型:单|双|字符|字符串

`Coeff0`- - - - - -系数初值
随机值矩阵(默认)|p——- - - - - -k矩阵

系数矩阵的初值多项式系数，指定为逗号分隔的对，由“Coeff0”和一个p——- - - - - -k矩阵,p是变量的个数，和k是所要求的主要组件的数量。

请注意

只有在以下情况下才能使用此名称-值对“算法”是“als”．

数据类型:单|双

`Score0`- - - - - -分数初始值
随机值矩阵(默认)|k——- - - - - -米矩阵

分数矩阵的初始值分数，指定为逗号分隔的对，由“Score0”和一个n——- - - - - -k矩阵,n观察的次数是多少k是所要求的主要组件的数量。

请注意

只有在以下情况下才能使用此名称-值对“算法”是“als”．

数据类型:单|双

`选项`- - - - - -选择迭代
结构

迭代的选项，指定为逗号分隔的对，由“选项”一个由statset函数。主成分分析在选项结构中使用下列字段。

字段名	描述
`“显示”`	显示输出电平。的选择是`“关闭”`，`“最后一次”`,`“通路”`．
`“麦克斯特”`	允许的最大步数。默认值是1000。与优化设置不同，达到`马克西特`值被视为收敛。
`“TolFun”`	给出代价函数的终止容限的正数。默认为1e-6。
`“TolX”`	给出了渐近算法中左右因子矩阵L和R元素相对变化的收敛阈值。默认为1e-6。

请注意

只有在以下情况下才能使用此名称-值对“算法”是“als”．

中可以更改这些字段的值并指定新的结构主成分分析使用“选项”名称-值对的论点。

例子:选择= statset (pca);opt.MaxIter = 2000;多项式系数= pca (X,“选项”,选择);

数据类型:结构体

输出参数

全部折叠

`多项式系数`-主成分系数
矩阵

主成分系数，返回为ap——- - - - - -p矩阵。每一列的多项式系数包含一个主成分的系数。这些列是按分量方差下降的顺序排列的，潜在的．

`分数`-主成分分数
矩阵

主成分得分，以矩阵形式返回。行分数对应于观察值，列对应于组件。

`潜在的`-主成分方差
列向量

主分量方差，也就是协方差矩阵的特征值X，作为列向量返回。

`tsquared`-霍特林的t平方统计
列向量

霍特林的丁字尺统计，它是每个观察的标准化分数的平方和，以列向量的形式返回。

`解释`-解释总方差的百分比
列向量

由每个主成分解释的总方差的百分比，作为列向量返回。

`μ`——估计意味着
行向量

中变量的估计均值X时作为行向量返回为中心的被设置为真正的．当为中心的是假，该软件不计算平均值，而是返回一个零向量。

算法

的主成分分析函数强制使用符号约定，强制每个列中大小最大的元素系数是积极的。改变系数向量的符号并不改变它的意义。

工具书类

[1] Jolliffe, i.t。主成分分析．2002年第2版。

w·J·克扎诺夫斯基多元分析原理．牛津大学出版社，1988。

g.a. F. Seber多变量的观察．威利,1984年。

杰克逊，j.e.a。主要组件用户指南．威利,1988年。

[5] Roweis, S. " PCA和SPCA的EM算法"《1997年神经信息处理系统进展会议论文集》．第10卷(NIPS 1997)，马萨诸塞州剑桥，美国:麻省理工学院出版社，1998年，第626-632页。

伊林·A·赖科和t·赖科。缺失值存在时主成分分析的实用方法j·马赫。学习。Res。．第11卷，2010年8月，1957-2000页。

扩展功能

高大的数组
使用具有大于内存容量的行数的数组进行计算。

对于内存不足的数据，这个函数金宝app支持高数组，但有一些限制。

主成分分析通过计算协方差矩阵和使用内存直接与高数组工作pcacov函数来计算主分量。
金宝app支持的语法是:
- 多项式系数= pca (X)
- [多项式系数,分数,潜伏]= pca (X)
- [多项式系数,分数,潜伏,解释]= pca (X)
- [多项式系数,分数,潜伏,tsquared] = pca (X)
- [多项式系数,分数,潜伏,tsquared解释]= pca (X)
不支持名称-值对参数。金宝app

有关更多信息，请参见用于内存不足数据的高数组．

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。

使用注意事项及限制:

当“算法”是“als”,“显示”值“选项”将被忽略。
的值“重量”和“VariableWeights”名称-值对参数必须为实值。
的值“经济”名称-值对参数必须是编译时常量。例如，使用“经济”,假的生成的代码中的名称-值对参数，包括{coder.Constant(经济),coder.Constant (false)}在arg游戏的价值codegen(MATLAB编码器)．
名称-值对参数中的名称必须是编译时常量。
生成的代码总是返回第5个输出解释作为列向量。
生成的代码总是返回第六个输出μ作为行向量。
如果μ是空的,主成分分析返回μ作为一个1 × 0数组。主成分分析不转换μ到一个0乘0的空数组。
生成的代码不处理输入矩阵X,所有南值作为特殊情况。输出尺寸与相应的有限输入是相称的。
为了在部署生成代码的设备上节省内存，可以将训练(从输入数据构建PCA组件)和预测(执行PCA转换)分开。在MATLAB中构造PCA分量^®．然后定义一个入口点函数，该入口点函数利用主成分系数(多项式系数)及估计平均数(μ的输出主成分分析．最后，生成入口点函数的代码。例如，请参见将PCA应用于新数据，生成C/ c++代码．

有关代码生成的更多信息，请参见代码生成简介和通用代码生成工作流．

GPU数组
使用并行计算工具箱™在图形处理单元(GPU)上运行加速代码。

使用注意事项及限制:

不能指定名称-值参数“算法”作为“als”．
默认的主组件算法是SVD(名称-值参数)“算法”,“圣言”）．SVD算法在GPU而不是CPU上执行时很少会更快。指定名称-值参数“算法”作为“eig”加速GPU上的计算。

有关更多信息，请参见在GPU上运行MATLAB函数(并行计算工具箱)．

另请参阅

主题

介绍了R2012b

主成分分析

语法

描述

例子

数据集的主要组成部分

存在缺失数据的PCA

加权主成分分析

PCA使用ALS对缺失数据进行分析

主成分系数、分数和方差

t方统计

由主要成分解释的百分比变异性

将PCA应用于新数据，生成C/ c++代码

输入参数

X- - - - - -输入数据矩阵

名称-值参数

算法- - - - - -主成分算法“圣言”(默认)|“eig”|“als”

为中心的- - - - - -定心柱指示器真正的(默认)|假

经济- - - - - -经济规模产出指标真正的(默认)|假

NumComponents- - - - - -所需组件数量数量的变量(默认)|标量整数

行- - - - - -采取行动南值“完成”(默认)|“成对”|“所有”

权重- - - - - -观察权重的(默认)|行向量

VariableWeights- - - - - -变量权重行向量|“方差”

Coeff0- - - - - -系数初值随机值矩阵(默认)|p——- - - - - -k矩阵

Score0- - - - - -分数初始值随机值矩阵(默认)|k——- - - - - -米矩阵

选项- - - - - -选择迭代结构

输出参数

多项式系数-主成分系数矩阵

分数-主成分分数矩阵

潜在的-主成分方差列向量

tsquared-霍特林的t平方统计列向量

解释-解释总方差的百分比列向量

μ——估计意味着行向量

更多关于

霍特林的丁字尺统计

自由度

变量权重

算法

工具书类

扩展功能

高大的数组使用具有大于内存容量的行数的数组进行计算。

C / c++代码生成使用MATLAB®Coder™生成C和c++代码。

GPU数组使用并行计算工具箱™在图形处理单元(GPU)上运行加速代码。

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

`X`- - - - - -输入数据
矩阵

`算法`- - - - - -主成分算法
`“圣言”`(默认)|`“eig”`|`“als”`

`为中心的`- - - - - -定心柱指示器
`真正的`(默认)|`假`

`经济`- - - - - -经济规模产出指标
`真正的`(默认)|`假`

`NumComponents`- - - - - -所需组件数量
数量的变量(默认)|标量整数

`行`- - - - - -采取行动`南`值
`“完成”`(默认)|`“成对”`|`“所有”`

`权重`- - - - - -观察权重
的(默认)|行向量

`VariableWeights`- - - - - -变量权重
行向量|`“方差”`

`Coeff0`- - - - - -系数初值
随机值矩阵(默认)|p——- - - - - -k矩阵

`Score0`- - - - - -分数初始值
随机值矩阵(默认)|k——- - - - - -米矩阵

`选项`- - - - - -选择迭代
结构

`多项式系数`-主成分系数
矩阵

`分数`-主成分分数
矩阵

`潜在的`-主成分方差
列向量

`tsquared`-霍特林的t平方统计
列向量

`解释`-解释总方差的百分比
列向量

`μ`——估计意味着
行向量

高大的数组
使用具有大于内存容量的行数的数组进行计算。

C / c++代码生成
使用MATLAB®Coder™生成C和c++代码。

GPU数组
使用并行计算工具箱™在图形处理单元(GPU)上运行加速代码。