主要内容

fsrftest

单变量特性排名回归使用F测试

描述

idx= fsrftest (资源描述,ResponseVarName)排名(预测)使用特性F测试。表资源描述包含预测变量和响应变量,ResponseVarName响应变量的名称吗资源描述。函数返回idx,其中包含预测要求的指标预测的重要性,意义idx (1)的指数是最重要的预测因子。您可以使用idx选择重要的回归预测问题。

idx= fsrftest (资源描述,公式)指定一个响应变量和预测变量考虑的变量中资源描述通过使用公式

例子

idx= fsrftest (资源描述,Y)排名预测资源描述使用响应变量Y

例子

idx= fsrftest (X,Y)排名预测X使用响应变量Y

idx= fsrftest (___,名称,值)使用一个或多个名称-值对参数指定附加选项除了任何输入参数组合在前面的语法。例如,您可以指定分类预测和观察权重。

例子

(idx,分数)= fsrftest (___)还返回预测分数分数。大的得分值表明,相应的预测是很重要的。

例子

全部折叠

排名预测在一个数字矩阵和创建一个酒吧图预测重要的分数。

加载示例数据。

负载robotarm.mat

robotarm数据集包含7168个训练观察(Xtrainytrain)和1024测试观察(Xtest欧美),32个特征[1][2]

观察排名预测使用培训。

[idx,分数]= fsrftest (Xtrain ytrain);

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数。创建一个酒吧阴谋之前,确定分数包括值。

找到(isinf(分数)
ans = 1 x0空两行向量

分数不包括值。如果分数包括值,你可以换通过大型数字号码之前创建一个酒吧图可视化的目的。有关详细信息,请参见排名预测表

创建一个酒吧的情节预测重要性分数。

栏(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)

图包含一个坐标轴对象。坐标轴对象包含一个对象类型的酒吧。

选择五大最重要的预测因子。找到这些预测的列Xtrain

idx (1:5)
ans =1×530 24 10 4 5

30列Xtrain是最重要的预测ytrain

排名预测表中并创建一个酒吧图预测重要的分数。

如果你的表和数据fsrftest行列表中的变量的子集,然后只使用函数索引变量子集。因此,一个良好的实践是将你不想等级的预测表的结束。移动响应变量和观测权向量。然后,输出参数的指标符合表的索引。你可以移动表中使用的变量movevars函数。

下面的例子使用了鲍鱼的数据[3][4]在UCI机器学习库[5]

下载数据并将其保存在当前文件夹的名字“abalone.csv”

url =“https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data”;websave (“abalone.csv”url);

表中读取数据。

台= readtable (“abalone.csv”,“文件类型”,“文本”,“ReadVariableNames”、假);tbl.Properties。VariableNames = {“性”,“长度”,“直径”,“高度”,“WWeight”,“SWeight”,“VWeight”,“ShWeight”,“NoShellRings”};

预览表的前几行。

头(台)
ans =8×9表性长度直径高度WWeight SWeight VWeight ShWeight NoShellRings专攻________ ________累积_________ ________ _______ {“M”} 0.455 0.365 0.095 0.514 0.2245 0.101 0.15 15 {“M”} 0.35 0.265 0.09 0.2255 0.0995 0.0485 0.07 7 {' F '} 0.53 0.42 0.135 0.677 0.2565 0.1415 0.21 9 {“M”} 0.44 0.365 0.125 0.516 0.2155 0.114 0.155 10{“我”}0.33 0.255 0.08 0.205 0.0895 0.0395 0.055 7{“我”}0.425 0.3 0.095 0.3515 0.141 0.0775 0.12 8 {' F '} 0.53 0.415 0.15 0.7775 0.237 0.1415 0.33 20 {' F '} 0.545 0.425 0.125 0.768 0.294 0.1495 0.26 16

表中最后一个变量是一个响应变量。

等级的预测资源描述。指定最后一列NoShellRings作为响应变量。

[idx,分数]= fsrftest(资源描述,“NoShellRings”)
idx =1×83 4 5 6 7 8 2 1
成绩=1×8604.6692 447.6891 736.9619正正正正正无穷

中的值分数的负面日志吗p值。如果一个p值小于每股收益(0)值,那么相应的分数。创建一个酒吧阴谋之前,确定分数包括值。

idxInf =找到(isinf(分数))
idxInf =1×53 4 5 7 8

分数包括5个值。

创建一个酒吧图预测重要的分数。使用预测的名称x设在标记标签。

栏(分数(idx))包含(“预测排名”)ylabel (“预测重要性分数”)xticklabels (strrep (tbl.Properties.VariableNames (idx),“_”,“\ _”)xtickangle (45)

酒吧函数不绘制任何酒吧值。为相同的价值观,情节酒吧,作为最大的长度有限的分数。

持有酒吧(分数(idx(长度(idxInf) + 1) *(长度(idxInf), 1))传说(“有限的分数”,“正分数”)举行

条形图显示有限的分数和正分数使用不同的颜色。

输入参数

全部折叠

样本数据,指定为一个表。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

每一行的资源描述对应于一个观察,每一列对应一个预测变量。可选地,资源描述响应变量可以包含额外的列和观察权重。响应变量必须是一个数字向量。

  • 如果资源描述包含响应变量,你想使用所有剩余的变量资源描述作为预测因子,然后通过使用指定的响应变量ResponseVarName。如果资源描述还包含观察权重,那么您可以指定使用的重量权重

  • 如果资源描述包含响应变量,和你想使用剩余的变量的一个子集资源描述作为预测因子,然后由使用指定变量的子集公式

  • 如果资源描述不包含响应变量,然后指定一个响应变量通过使用Y。响应变量和资源描述必须有相同数量的行。

如果fsrftest使用变量的子集资源描述预测,那么函数索引预测仅使用子集。中的值CategoricalPredictors名称-值参数和输出参数idx不计数函数的预测没有排名。

如果资源描述包含一个响应变量fsrftest认为在响应变量值缺失值。fsrftest不使用观测与失踪的反应变量中的值。

数据类型:

响应变量名称,指定为一个特征向量或字符串标量包含变量的名称资源描述

例如,如果一个响应变量的列Y资源描述(Tbl.Y),然后指定ResponseVarName作为“Y”

数据类型:字符|字符串

响应变量的解释模型和预测变量的一个子集,指定为一个特征向量或字符串标量形式“Y ~ x1 + x2 + x3”。在这种形式,Y代表的响应变量,x1,x2,x3代表了预测变量。

指定变量的子集资源描述为预测因子,使用一个公式。如果您指定一个公式fsrftest没有等级变量吗资源描述不出现在公式

公式中的变量名必须两变量名资源描述(Tbl.Properties.VariableNamesMATLAB)和有效®标识符。您可以验证变量名资源描述通过使用isvarname函数。如果变量名是无效的,那么您可以将其转换使用matlab.lang.makeValidName函数。

数据类型:字符|字符串

响应变量指定为一个数值向量。每一行的Y代表的响应相应的行X资源描述

fsrftest认为Y缺失值。fsrftest不使用和缺失值的观察吗Y

数据类型:|

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

数据类型:|

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“UseMissing”“NumBins”, 20日,真的集箱的数量是20,并指定使用缺失值的预测排名。

分类预测列表,该表中指定的值。

价值 描述
向量的正整数

向量中的每个条目是一个索引值表明相应的预测分类。索引值介于1和p,在那里p预测的数量被用来训练模型。

如果fsrftest使用输入变量的子集作为预测因子,然后只使用函数索引预测指标子集。的CategoricalPredictors值不计数响应变量,观察体重变量,或任何其他变量,函数不使用。

逻辑向量

一个真正的意味着相应的预测分类条目。向量的长度p

字符矩阵 矩阵的每一行是一个预测变量的名字。名称必须匹配的名称资源描述。垫的名字与额外的空格字符矩阵的每一行有相同的长度。
字符串数组或单元阵列的特征向量 数组中的每个元素是一个预测变量的名字。名称必须匹配的名称资源描述
“所有” 所有预测都直言。

默认情况下,如果预测数据表(资源描述),fsrftest假设变量是直言如果它是一个逻辑向量,无序分类向量,字符数组,字符串数组或单元阵列特征向量。如果预测数据是一个矩阵(X),fsrftest假设所有的预测都是连续的。识别任何其他预测分类预测,通过使用指定它们CategoricalPredictors名称-值参数。

例子:“CategoricalPredictors”、“所有”

例子:CategoricalPredictors = 5 6 8 [1]

数据类型:||逻辑|字符|字符串|细胞

装箱的箱子数量连续预测,指定为逗号分隔组成的“NumBins”和一个正整数标量。

例子:“NumBins”, 50岁

数据类型:|

指标在预测是否使用或丢弃缺失值,指定为逗号分隔组成的“UseMissing”,要么真正的使用或抛弃缺失值的预测排名。

fsrftest认为,(空字符向量),”“(空字符串),<失踪>,<定义>值缺失值。

如果您指定“UseMissing”,真的,然后fsrftest使用缺失值排名。分类变量,fsrftest把缺失的值作为一个额外的类别。连续变量,fsrftest的地方装箱的值在一个单独的本。

如果您指定“UseMissing”,假的,然后fsrftest不使用缺失值排名。因为fsrftest计算重要性分数分别为每个预测,该函数不丢弃整个行值时行部分失踪。为每一个变量,fsrftest使用所有的值没有失踪。

例子:“UseMissing”,真的

数据类型:逻辑

观察体重、指定为逗号分隔组成的“重量”和一个向量的标量值或变量的名称资源描述。每一行的观测函数权重X资源描述与相应的价值权重。的大小权重必须等于中的行数X资源描述

如果您指定输入数据表资源描述,然后权重可以是一个变量的名字资源描述包含一个数字向量。在这种情况下,您必须指定权重作为一个特征向量或字符串标量。例如,如果体重是列向量W资源描述(Tbl.W),然后指定“重量”、“W”

fsrftest规范化的重量加起来比一。

数据类型:||字符|字符串

输出参数

全部折叠

指数的预测X资源描述下令预测的重要性,作为一个1 -返回r数字矢量,r是排名的数量预测。

如果fsrftest使用变量的子集资源描述预测,那么函数索引预测仅使用子集。例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。如果idx (3)5,然后第三个最重要的因素是第十列资源描述,这是第五个预测的子集。

预测成绩,作为1 -返回r数字矢量,r是排名的数量预测。

大的得分值表明,相应的预测是很重要的。

  • 如果你使用X指定预测或使用的所有变量资源描述作为预测因子,然后中的值分数同一订单的预测吗X资源描述

  • 如果您指定变量的子集资源描述作为预测因子,然后中的值分数子集的顺序相同。

例如,假设资源描述包括10列和你指定的最后5列资源描述通过使用作为预测变量公式。然后,分数(3)包含8列的得分值资源描述第三因素子集。

算法

全部折叠

单变量特性排名使用F测试

  • fsrftest检查每个预测单独使用的重要性F以及。每一个F以及测试的假设预测响应值分组的变量值都来自相同的人口意味着对备择假设人口意味着并非都是相同的。一个小p检验统计量的值表明,相应的预测是很重要的。

  • 输出分数日志(p)。因此,大的得分值表明,相应的预测是很重要的。如果一个p值小于每股收益(0),然后输出

  • fsrftest检查装箱后连续变量或离散化变量。您可以指定箱使用的数量“NumBins”名称-值对的论点。

引用

[1]Rasmussen, c, E。,R. M. Neal, G. E. Hinton, D. van Camp, M. Revow, Z. Ghahramani, R. Kustra, and R. Tibshirani. The DELVE Manual, 1996.

[2]多伦多大学计算机科学系。深入研究数据集。

[3]纳什,j,T. L. Sellers, S. R. Talbot, A. J. Cawthorn, and W. B. Ford. "The Population Biology of Abalone (石决明物种)的塔斯马尼亚岛。即Blacklip鲍鱼(h . rubra从北海岸和岛屿的巴斯海峡。”Sea Fisheries Division, Technical Report No. 48, 1994.

[4]沃,S。Cascade-Correlation扩展和基准:扩展Cascade-Correlation体系结构和前馈人工神经网络监管的基准。”塔斯马尼亚大学计算机科学论文,1995年。

[5]Lichman, m . UCI机器学习库。欧文,CA:加州大学信息与计算机科学学院,2013。http://archive.ics.uci.edu/ml。

版本历史

介绍了R2020a