PPCA

概率主成分分析

页面上倒塌

语法

[多项式系数,分数,pcvar] =车牌提取(Y, K)

[多项式系数,分数,pcvar] =车牌提取(Y, K,名称,值)

[多项式系数,分数,pcvar,μ=车牌提取(＿＿＿）

[Coeff，Score，PCVAR，MU，V，S] = PPCA（＿＿＿）

描述

例子

［COEFF.，分数，PCVAR.) =车牌提取(Y，K）返回主成分系数n——- - - - - -p数据矩阵Y基于一个概率主成分分析(车牌提取)。它还返回主成分分数，这是表示Y在主分量空间中，主分量方差，主分量方差是协方差矩阵的特征值Y，在PCVAR.．

每一列的COEFF.包含一个主分量的系数，列是按分量方差降序排列的。行分数对应观察值，列对应组件。行Y对应于观察和列对应于变量。

概率主成分分析可能优于处理缺失数据的其他算法，例如当任何数据向量具有一个或多个缺失值时，诸如交替的最小二乘算法。它假设通过数据集随机缺少值。期望最大化算法用于完整和缺少数据。

例子

［COEFF.，分数，PCVAR.) =车牌提取(Y，K，名称,值）使用由一个或多个指定的特殊数据类型的计算和处理的附加选项返回主成分系数、分数和方差名称,值对参数。

例如，您可以引入残差方差的初始值，v，或更改终止条件。

例子

［COEFF.，分数，PCVAR.，亩) =车牌提取(＿＿＿）也返回每个变量的估计平均值Y．您可以使用前面语法中的任何输入参数。

例子

［COEFF.，分数，PCVAR.，亩，v，年代) =车牌提取(＿＿＿）的各向同性残差v并且在结构中收敛的最终结果年代．

例子

全部折叠

执行概率主成分分析

打开直播脚本

加载样本数据。

负载渔民

双矩阵测定由花朵上的四种类型的测量组成，分别是萼片和花瓣的长度和宽度。

随机引入缺失值。

y =量;rng ('默认'）;%的再现性第九=随机(“unif”0 1大小(y)) < 0.20;y (ix) =南;

现在，大约有20%的数据丢失了，这是南．

执行概率主成分分析并请求组件系数和差异。

[Coeff，得分，PCVAR，MU] = PPCA（Y，3）;COEFF.

Coeff =4×30.3562 0.6709 -0.5518 -0.0765 0.7120 0.6332 0.8592 -0.1597 0.0596 0.3592 -0.1318 0.5395

PCVAR.

pcvar =3×14.0914 0.2125 0.0617

使用交替最小二乘算法进行主成分分析，要求主成分系数和方差。

[coeff2, score2 pcvar2 mu2] = pca (y,“算法”，'als'，......“NumComponents”，3）;COEFF2.

coeff2 =4×30.3376 0.4952 0.7406 -0.0731 0.8609 -0.4476 0.8657 -0.1168 -0.1233 0.3623 -0.0086 -0.4857

PCVAR2.

pcvar2 =3×14.0733 0.2652 0.1222

前两个主成分的系数和方差是相似的。

比较结果的另一种方法是在系数向量跨越的两个空格之间找到角度。

子空间（Coeff，Coeff2）

ans = 0.0884

这两个空间之间的角度非常小。这表明这两个结果是相近的。

改变概率主成分分析的终止准则

打开直播脚本

加载样本数据集。

负载进口- 85

数据矩阵X在列3至15中有13个连续变量:轮距、长度、宽度、高度、限重、发动机尺寸、内径、冲程、压缩比、马力、峰值rpm、城市英里数和公路英里数。在第56行到第59行，内径和冲程变量少了4个值，在第131行和132行，马力和峰值转速变量少了2个值。

执行概率主成分分析并显示前三个主组件。

[coeff，score，pcvar] = ppca（x（:,3:15），3）;

警告:达到最大迭代次数1000。

将成本函数的终止公差更改为0.01。

opt = statset（“车牌提取”）;opt.tolfun = 0.01;

执行概率主成分分析。

[多项式系数,得分,pcvar] =车牌提取(X (:, 3:15), 3,“选项”、选择);

警告:达到最大迭代次数1000。

PPCA现在在达到最大迭代次数之前终止，因为它符合成本函数的容差。

重建观察

打开直播脚本

加载样本数据。

负载哈尔德y =成分;

成分数据有4个变量的13个观察值。

向数据中引入缺失的值。

y(16:结束)=南;

每16个值是南．这对应于数据的7.69％。

利用PPCA找到数据的前三个主成分，并显示重建的观测结果。

[Coeff，Score，PCVAR，MU，V，S] = PPCA（Y，3）;

警告:达到最大迭代次数1000。

S.Recon

ans =13×46.8536 25.8700 5.8389 59.8730 1.0433 28.9710 14.9654 51.9738 11.5770 56.5067 8.6352 20.5076 11.0835 31.0722 8.0920 47.0748 7.0679 52.2556 6.0748 33.0598 11.0486 55.0430 9.0534 22.0423 2.8493 70.8691 16.8339 5.8656 1.0333 31.0281 19.6907 44.0306 2.0400 54.0354 18.0440 22.0349 20.7822 3.7603 25.8081⋮

您还可以使用主成分和估计的平均值重建观测值。

T = score*coeff' + repmat(mu,13,1);

结果收敛

打开直播脚本

加载数据。

负载哈尔德

在这里,配料是一种真实值的预测变量矩阵。

执行概率主成分分析和显示系数。

[多项式系数,分数,pcvariance、μv, S] =车牌提取(成分,3);

警告:达到最大迭代次数1000。

COEFF.

Coeff =4×3-0.0693 -0.6459 0.5673 -0.6786 -0.0184 -0.5440 0.0308 0.7552 0.4036 0.7306 -0.1102 -0.4684

在PPCA收敛时显示算法结果。

年代

S =结构与字段：W: [4x3 double] Xexp: [13x3 double] Recon: [13x4 double] v: 0.2372 NumIter: 1000 RMSResid: 0.2340 nloglk: 149.3388

显示矩阵W．

S.W.

ans =4×30.5624 2.0279 5.4075 4.8320 -10.3894 5.9202 -3.7521 -3.0555 -4.1552 -1.5144 11.7122 -7.2564

使正交化W恢复系数。

奥尔特(白雪)

ans =4×3-0.0693 0.6459 0.5673 0.6786 0.0184 -0.5440 0.0308 -0.7552 0.4036 0.7306 0.1102 -0.4684

输入参数

全部折叠

`Y`- - - - - -输入数据
n——- - - - - -p矩阵

用于计算主要部件的输入数据，指定为n——- - - - - -p矩阵。行Y对应于观察和列对应于变量。

数据类型:单身的|双

`K`- - - - - -主成分数
正整数值少于等级

要返回的主组件的数量，指定为小于数据秩的整数值。最大可能等级为最小(n，p),n是观察人数和p是变量的数量。但是，如果数据相关，则排名可能小于min（n，p)．

PPCA根据其方差订购组件。

如果K是min（n，p），PPCA集K等于min（n，p) - 1，和“W0”被截断为最小值(p，n） - 如果指定a，则为1列p——- - - - - -pW0.矩阵。

例如，您可以根据下面的组件方差只请求前三个组件。

例子:coeff = ppca（y，3）

数据类型:单身的|双

名称值对参数

指定可选的逗号分隔的对名称,值参数。名称参数名和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“W0”,初始化,“选项”,选择指定初始值“W0”在矩阵初始化和PPCA使用定义的选项选择．

`“W0”`- - - - - -初始值的W
随机值的矩阵（默认）|p——- - - - - -k矩阵

初始值的W在概率主成分分析算法，指定为逗号分隔对组成“W0”A.p——- - - - - -k矩阵。

数据类型:单身的|双

`“半”`- - - - - -剩余方差的初值
随机数（默认）|正标量值

残差方差的初始值，指定为逗号分隔对组成“半”和正标量值。

数据类型:单身的|双

`“选项”`- - - - - -选择迭代
结构体

迭代的选项，以逗号分隔的对指定“选项”一个由statset函数。PPCA在选项结构中使用下列字段。

`“显示”`	显示输出电平。的选择是`“关闭”`，`“最后一次”`，和`“通路”`．
`“麦克斯特”`	允许的最大步数。默认值是1000。与优化设置不同，达到`maxiter.`价值被视为融合。
`“TolFun”`	正整数，表示代价函数的终止容限。默认为1e-6。
`“TolX”`	表示元素相对变化的收敛阈值的正整数W．默认为1e-6。

中可以更改这些字段的值并指定新的结构PPCA使用“选项”名称-值对的论点。

例子:选择= statset（'ppca'）;opt.maxiter = 2000;coeff = ppca（y，3，'选项'，选择）;

数据类型:结构体

输出参数

全部折叠

`COEFF.`- 主成分系数
p——- - - - - -k矩阵

主成分系数，返回为ap——- - - - - -k矩阵。每一列的COEFF.包含一个主成分的系数。这些列是按分量方差下降的顺序排列的，PCVAR.．

`分数`- 主成分分数
n——- - - - - -k矩阵

主成分分数，返回为n——- - - - - -k矩阵。行分数对应观察值，列对应组件。

`PCVAR.`-主成分方差
柱矢量

的协方差矩阵的特征值Y，作为列向量返回。

`亩`- 估计的意思
行矢量

每个变量的估计平均值Y，作为一排矢量返回。

`v`- 各向同性残差方差
标量值

各向同性的残余方差，作为标量值返回。

`年代`-最终收敛结果
结构体

在收敛时的最终结果，作为包含以下字段的结构返回。

`W`	W在收敛。
`Xexp`	估计的潜在变量的条件期望x．
`侦察`	重建观察使用k主要成分。这是输入数据的低尺寸近似值`Y`，等于`亩`+`分数`＊`多项式系数的`．
`v`	残余方差。
`RMSRESID.`	残留的均方根平方。
`NumIter`	迭代计数的数量。
`nloglk.`	负对数似然函数值。

参考

[1]给小费，m.e.和c.m.毕晓普。概率主成分分析。皇家统计学会杂志。B辑(统计方法论)，第61卷第3期，1999年，第611-622页。

[2] Roweis，S.“PCA和SPCA的EM算法”。在1997年的神经信息处理系统进步会议上的诉讼中．第10卷(NIPS 1997)，马萨诸塞州剑桥，美国:麻省理工学院出版社，1998年，第626-632页。

伊林·A·赖科和t·赖科。缺失值存在时主成分分析的实用方法j·马赫。学习。Res。．卷。11，2010年8月，PP。1957-2000。

另请参阅

在R2013A介绍

PPCA

语法

描述

例子

执行概率主成分分析

改变概率主成分分析的终止准则

重建观察

结果收敛

输入参数

`Y`- - - - - -输入数据
n——- - - - - -p矩阵

`K`- - - - - -主成分数
正整数值少于等级

名称值对参数

`“W0”`- - - - - -初始值的W
随机值的矩阵（默认）|p——- - - - - -k矩阵

`“半”`- - - - - -剩余方差的初值
随机数（默认）|正标量值

`“选项”`- - - - - -选择迭代
结构体

输出参数

`COEFF.`- 主成分系数
p——- - - - - -k矩阵

`分数`- 主成分分数
n——- - - - - -k矩阵

`PCVAR.`-主成分方差
柱矢量

`亩`- 估计的意思
行矢量

`v`- 各向同性残差方差
标量值

`年代`-最终收敛结果
结构体

更多关于

概率主成分分析

参考

另请参阅

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

PPCA

语法

描述

例子

执行概率主成分分析

改变概率主成分分析的终止准则

重建观察

结果收敛

输入参数

Y- - - - - -输入数据n——- - - - - -p矩阵

K- - - - - -主成分数正整数值少于等级

名称值对参数

“W0”- - - - - -初始值的W随机值的矩阵（默认）|p——- - - - - -k矩阵

“半”- - - - - -剩余方差的初值随机数（默认）|正标量值

“选项”- - - - - -选择迭代结构体

输出参数

COEFF.- 主成分系数p——- - - - - -k矩阵

分数- 主成分分数n——- - - - - -k矩阵

PCVAR.-主成分方差柱矢量

亩- 估计的意思行矢量

v- 各向同性残差方差标量值

年代-最终收敛结果结构体

更多关于

概率主成分分析

参考

另请参阅

统计和机器学习工具箱文档

金宝app

掌握机器学习:一步一步的指导与MATLAB

`Y`- - - - - -输入数据
n——- - - - - -p矩阵

`K`- - - - - -主成分数
正整数值少于等级

`“W0”`- - - - - -初始值的W
随机值的矩阵（默认）|p——- - - - - -k矩阵

`“半”`- - - - - -剩余方差的初值
随机数（默认）|正标量值

`“选项”`- - - - - -选择迭代
结构体

`COEFF.`- 主成分系数
p——- - - - - -k矩阵

`分数`- 主成分分数
n——- - - - - -k矩阵

`PCVAR.`-主成分方差
柱矢量

`亩`- 估计的意思
行矢量

`v`- 各向同性残差方差
标量值

`年代`-最终收敛结果
结构体