主要内容

进行因子分析考试成绩

这个例子展示了如何使用统计和机器学习进行因子分析工具箱™。

多元数据通常包括大量的测量变量,有时这些变量“重叠”的组可能是相关的。例如,在一个十项全能,每个运动员竞争在10的事件,但他们中的一些人可以被认为是“速度”事件,而另一些则被认为是“力量”事件,等。因此,竞争对手的分数10事件可能被认为是主要依赖于一组较小的3或4类型的运动能力。

因子分析是一种多元数据的模型适合估计这种相互依存。

因子分析模型

在因子分析模型,测量变量取决于少数未被注意的(潜在的)因素。因为每个因素可能影响几个变量的共同之处,他们被称为“共同因素”。假定每个变量依赖于一个线性组合的常见因素,和系数被称为载荷。每个被测变量还包括一个组件由于独立随机变化,称为“特定的方差”,因为它是特定于一个变量。

具体来说,因子分析假设数据的协方差矩阵的形式

SigmaX =λ*λ' + Psi

λ是载荷的矩阵,对角矩阵的元素Psi的具体差异。这个函数factoran使用最大似然的因子分析模型。

例子:寻求共同因素影响考试成绩

120名学生都采取五个考试,前两个数学覆盖,接下来的两个文学,一个全面的第五次考试。似乎合理的五个成绩对于一个给定的学生应该是相关的。有些学生既擅长科目,有些擅长只有一个,等这个分析的目的是确定是否有量化的证据表明,学生的成绩在五个不同的考试在很大程度上取决于两种类型的能力。

首先加载数据,然后调用factoran和请求模型符合一个常见因素。

负载examgrades[Loadings1 specVar1 T,统计]= factoran(等级1);

factoran的前两个回归参数估计的载荷和估计的具体差异。从估计的载荷,可以看到,这种模式的一个常见因素给五大积极的重量变量,但大多数体重在第五,综合考试。

Loadings1
Loadings1 = 0.6021 0.6686 0.7704 0.7204 - 0.9153

这个适合的一种解释是,一个学生可能想到的“综合能力”,综合考试是最好的可用的测量。一个学生的分数更科目的测试将取决于他们的整体能力,而且对学生是否强大。这可以解释较低载荷的前四个考试。

从估计的具体差异,你可以看到,该模型表明,特定学生的年级在一个特定的测试不同以外的很多变化由于共同的因素。

specVar1
specVar1 = 0.6375 0.5530 0.4065 0.4810 - 0.1623

一个特定的方差1表明存在没有公因数组件的变量,而特定的0表明变量的方差完全由共同的因素决定的。这些考试成绩似乎则介于这两者之间,虽然有最少的具体变化综合考试。这是符合上面给出的解释这个模型的单常见的因素。

在返回的假定值统计数据结构拒绝零假设的一个常见的因素,所以我们改装模型。

stats.p
ans = 0.0332

下一步,使用两个常见因素,试图更好地解释考试分数。有超过一个因素,你可以旋转载荷估计,试图让他们的解释简单,但就目前而言,要求一个不旋转的解决方案。

[Loadings2 specVar2 T,统计]= factoran(等级2“旋转”,“没有”);

从估计的载荷,可以看到,第一个不旋转因子给所有五个变量近似等于重量,而第二个因素对比第一和第二两个两个变量。

Loadings2
Loadings2 = 0.6289 0.3485 0.6992 0.3287 0.7785 -0.2069 0.7246 -0.2070 0.8963 -0.0473

这些因素可以解释为“整体能力”和“定量与定性能力”,扩大解释的单因素配合。

变量的情节,每个加载是一个沿着相应的协调因素的轴,生动地说明了这个解释。前两个考试有积极的加载第二因素,这表明他们依靠“定量”的能力,而第二个两个考试显然取决于相反。第五次考试只有一个小加载第二因素。

biplot (Loadings2“varlabels”num2str ((1:5) '));标题(不旋转的解决方案的);包含(“潜在因素1”);ylabel (《潜在因素2》);

从估计的具体差异,你可以看到这双因素模型表明少变化之外,由于比单因素模型的常见因素。再一次,最少的具体差异发生第五次考试。

specVar2
specVar2 = 0.4829 0.4031 0.3512 0.4321 - 0.1944

统计数据结构表明,只有一个自由度的双因素模型。

stats.dfe
ans = 1

只有五个测量变量,不能适应一个模型有超过两个因素。

因子分析从协方差/相关矩阵

你上面的适合使用原始的成绩,但有时你也许只有一个样本协方差矩阵总结数据。factoran接受协方差或相关矩阵,使用“Xtype”参数,并给出了一个相同的结果,从原始数据。

σ= x(成绩);[LoadingsCov, specVarCov] =factoran(σ2“Xtype”,“浸”,“旋转”,“没有”);LoadingsCov
LoadingsCov = 0.6289 0.3485 0.6992 0.3287 0.7785 -0.2069 0.7246 -0.2070 0.8963 -0.0473

因子旋转

有时,从因素分析模型估计的载荷可以着重在几个因素的测量变量,使得它难以解释这些因素代表什么。因子旋转的目标是找到一个解决方案,每个变量只有少量的大载荷,即。少量的因素影响,最好是只有一个。

如果你认为载荷矩阵的每一行作为m维空间中的一个点的坐标,然后每个因素都对应于一个坐标轴。因子旋转相当于旋转的轴,旋转坐标系统和新载荷计算。有很多种方法可以做到这一点。一些方法把轴正交的,而另一些则斜方法改变它们之间的角度。

最大方差法是一种常见的标准正交旋转。factoran默认执行方差极大旋转,所以你不需要显式地请求它。

[LoadingsVM, specVarVM rotationVM] = factoran(等级2);

快速检查返回的方差极大旋转矩阵factoran确认它是正交的。实际上,最大方差法旋转因子轴在上图中,但让他们成直角。

rotationVM‘* rotationVM
ans = 1.0000 -0.0000 -0.0000 1.0000

biplot旋转上的五个变量因素显示方差极大旋转的影响。

biplot (LoadingsVM“varlabels”num2str ((1:5) '));标题(“最大方差法解决方案”);包含(“潜在因素1”);ylabel (《潜在因素2》);

最大方差法严格旋转坐标轴,以使所有的载荷接近0或1。前两个考试是最靠近轴的第二大因素,而第三和第四接近第一轴和第五个考试是在一个中间位置。这两个旋转因素可能是最好的解释为“定量能力”和“定性能力”。然而,由于没有一个变量因子轴附近biplot表明正交旋转并没有成功地提供一组简单的因素。

因为正交旋转并非完全满意,你可以尝试使用电子产品品牌,一个共同的斜旋转标准。

[LoadingsPM, specVarPM rotationPM] =factoran(等级2“旋转”,的电子产品品牌);

检查返回的电子产品品牌旋转矩阵factoran表明,它不是正交的。实际上,电子产品品牌旋转因子轴分别在第一个图,让他们有一个夹角倾斜。

rotationPM‘* rotationPM
ans = 1.9405 -1.3509 -1.3509 1.9405

biplot变量的新旋转旋转显示电子产品品牌的影响因素。

biplot (LoadingsPM“varlabels”num2str ((1:5) '));标题(“电子产品品牌解决方案”);包含(“潜在因素1”);ylabel (《潜在因素2》);

电子产品品牌表现的非刚性的转动轴,并做得更好比最大方差法建立一个“结构简单”。前两个考试接近第二个因素轴,而第三和第四个接近第一轴和第五个考试是一个中间的位置。这使得这些旋转因素的解释为“定量能力”和“定性能力”更精确。

而策划的变量在不同的轴旋转,可以叠加不旋转的旋转轴线biplot得到一个更好的主意的旋转和不旋转的解决方案是相关的。金宝搏官方网站

h1 = biplot (Loadings2,“varlabels”num2str ((1:5) '));包含(“潜在因素1”);ylabel (《潜在因素2》);持有invRotVM =发票(rotationVM);h2 =线([-invRotVM (1,1) invRotVM(1, 1)南-invRotVM (2, 1) invRotVM (2, 1)),[-invRotVM (1、2) invRotVM(1、2)南-invRotVM (2, 2) invRotVM (2, 2)),“颜色”,(1 0 0));invRotPM =发票(rotationPM);h3 =线([-invRotPM (1,1) invRotPM(1, 1)南-invRotPM (2, 1) invRotPM (2, 1)),[-invRotPM (1、2) invRotPM(1、2)南-invRotPM (2, 2) invRotPM (2, 2)),“颜色”[0 1 0]);持有广场lgndHandles = [h1 (1) h1 h2(结束)h3);lgndLabels = {“变量”,不旋转的轴的,“方差极大旋转坐标轴”,“电子产品品牌旋转坐标轴”};传奇(lgndHandles lgndLabels,“位置”,“东北”,“字体名”,“arial窄”);

预测因子得分

有时是有用的能够分类一个观察基于其因素分数。举例来说,如果您接受了双因素模型和电子产品品牌旋转因素的解释,你可能会想要预测一个学生将在未来做一个数学考试。

由于数据是原始的考试成绩,不仅是他们的协方差矩阵,我们可以factoran回归预测价值的两个旋转共同因素的每个学生。

(载荷、specVar旋转,统计,仅仅]=factoran(等级2“旋转”,的电子产品品牌,“麦克斯特”,200);biplot(载荷,“varlabels”num2str ((1:5) '),“分数”,仅仅);标题(“预测因子得分为电子产品品牌解决方案”);包含(“文学能力”);ylabel (“数学能力”);

这图显示了模型适合在原始变量(向量)和预测分数为每个观察(点)。适合表明,一些学生在一个主题而不是其他(第二和第四象限),大多数学生做的好或差的数学和文学(第一和第三象限)。您可以通过查看确认这一点估计相关矩阵的两个因素。

发票(旋转的旋转*)
ans = 1.0000 0.6962 0.6962 1.0000

因子分析和主成分分析的比较

有大量的重叠在术语和目标之间的主成分分析(PCA)和因子分析(FA)。大部分的文学两种方法不区分他们,和一些涉及PCA算法拟合足总模型。都降维技术,在某种意义上,它们可以用来替代大量的观测变量与一组较小的新变量。他们也经常给类似的结果。然而,这两种方法都是不同的在他们的目标和他们的基本模型。粗略地说,您应该使用PCA当你只需要总结或近似数据使用更少的尺寸(例如可视化,),你应该使用FA当你需要一个解释性模型,数据之间的相关性。