主要内容

rankfeatures

排名关键特性的类可分性准则

描述

例子

IDX= rankfeatures (X,集团)排名的特性X使用一个独立的评价标准二进制分类。X是一个矩阵,每一列是一个观察向量和的行数对应于原始特征的数量。集团包含的类标签。IDX是一个列表的索引的行吗X最重要的特性。

例子

IDX= rankfeatures (X,集团,名称=值)使用附加选项指定一个或多个名称参数。

例子

(IDX,Z)= rankfeatures (X,集团,___)还返回一个列表的绝对值准则用于每个特性。

例子

全部折叠

找到一套降低乳腺癌细胞分化的基因,是充分的t矩阵的所有其他类型的癌症NCI60数据集。

加载示例数据。

负载NCI60tmatrix

得到一个逻辑索引向量乳腺癌细胞。

公元前=组= = 8;

选择功能。

I = rankfeatures (X,公元前,NumberOfIndices = 12);

测试功能与线性判别分类器。

C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

利用互相关权重进一步减少所需数量的基因。

我= rankfeatures (X,公元前“CCWeighting”,0.7,“NumberOfIndices”8);C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

发现两组的判别峰与高斯脉冲调制信号的两个不同的来源。

加载数据。

负载GaussianPulses

指定区域信息超过z值的特性作为处理函数。输出指标的数量设置为5。

f = rankfeatures (y ', grp NWeighting = @ x (x) / 10 + 5, NumberOfIndices = 5);情节(t y (grp = = 1:)“b”、t、y (grp = = 2,:)‘g’t (f), 1.35,“虚拟现实”);

图包含一个坐标轴对象。坐标轴对象包含45行类型的对象。

输入参数

全部折叠

样本数据,指定为一个数字矩阵。每一列是一个观察向量,每一行是一个特性。

数据类型:

类标签,指定为一个数值向量,字符串向量,或单元阵列的特征向量。元素个数(集团)列的数量是一样的吗X集团必须只有两个唯一的值。如果它包含任何值,忽略了相应的观测向量的函数X

数据类型:|字符串|细胞

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

例子:(idx x) = rankfeatures (x,团体,则=“entrophy”, NWeighting = 0.2)指定使用的相对熵作为标准来评估的功能意义和区域信息价值大于0.2 z值的潜在功能。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:[idx x] = rankfeatures (x,团体,“标准”,“entrophy”、“NWeighting”, 0.2)

标准来评估每个特性的意义分离两个标签组,指定为以下之一:

  • “tt”——两个示例绝对值t检验与汇集方差估计。

  • “熵”相对熵,也称为Kullback-Leibler距离或散度。

  • “bhattacharyya”——最小的分类误差或切尔诺夫绑定。

  • “中华民国”——区域之间的经验接受者操作特征(ROC)曲线和随机分类器的斜率。

  • “wilcoxon”——两个示例的标准化u-statistic未配对的绝对值Wilcoxon测试,也称为Mann-Whitney。

请注意

“tt”,“熵”,“bhattacharyya”假设正常分布类“中华民国”“wilcoxon”非参数测试。所有的测试是功能独立的。

数据类型:字符|字符串

关联信息大于潜在的z值特性,指定为一个数值之间的标量01

这个函数使用 Z × ( 1 α × ρ ) 计算重量,ρ平均绝对值的候选人之间的互关联系数特性和先前选定的所有功能。αCCWeighting设置权重因子的值。

默认情况下,α0,函数不重的潜在功能。一个大的价值ρ(接近1)超过了统计意义,这意味着特性高度相关的特性已经选择了不太可能被包括在输出列表。

数据类型:

区域信息大于潜在的z值特性,指定为负的标量或函数处理。

这个函数使用 Z × ( 1 e ( D β ) 2 ) 计算重量,D之间的距离(行)之前选定的候选功能和特性。βNWeighting设置权重因子的值。β必须大于或等于0

默认情况下,β0,函数不重的潜在功能。一个小的值D(接近0)超过了统计意义只有关闭功能。这意味着特性接近已经选择功能不太可能被包括在输出列表。这个选项是有用的,从时间序列中提取特征与时间相关。

β也可以是一个函数的功能位置,指定使用吗@或一个匿名函数。在这两种情况下rankfeatures将行位置的特性传递给指定的功能和预期值大于或等于0

请注意

您可以使用CCWeightingNWeighting在一起。

数据类型:|function_handle

产出指标IDX,指定为一个积极的标量。默认情况下,索引的数量是一样的特性时的数量αβ0。否则,指标设置的数量20.

数据类型:

方法独立在观察每一个功能正常化,指定为以下之一:

  • “没有”(默认)——没有规范化。

  • “meanvar”- - - - - - X n e w = X μ σ

  • “softmax”- - - - - - X n e w = 1 1 + e ( μ X σ )

  • “极大极小”- - - - - - X n e w = X X 最小值 X 马克斯 X 最小值

在这些方程,μ=是指(X),σ=性病(X),X最小值= min (X),X马克斯= max (X)

Cross-normalization确保不同特性之间的可比性虽然并不总是必要的,因为所选的标准可能已经占。

数据类型:字符|字符串

输出参数

全部折叠

的索引列表的行X最重要的功能,作为一个数值向量返回。

绝对的值的列表标准使用的功能,作为一个数值向量返回。

引用

[1]Theodoridis、塞尔吉奥和Konstantinos Koutroumbas。模式识别。圣地亚哥:学术出版社,1999:341 - 342。

[2],欢,Hiroshi Motoda。特征选择对知识发现和数据挖掘。提供国际系列454年工程和计算机科学。波士顿:Kluwer学术出版社,1998年。

[3]罗斯,道格拉斯·T。,Uwe Scherf, Michael B. Eisen, Charles M. Perou, Christian Rees, Paul Spellman, Vishwanath Iyer, et al. “Systematic Variation in Gene Expression Patterns in Human Cancer Cell Lines.”自然遗传学24日,没有。3(2000年3月):227 - 35。

版本历史

之前介绍过的R2006a