根据类可分性标准对关键特征进行排序
[
IDX
,Z
) = rankfeatures (X
,集团
)
[IDX
,Z
) = rankfeatures (X
,集团
,“标准”,CriterionValue
,……)
[IDX
,Z
) = rankfeatures (X
,集团
……“CCWeighting”,α
,……)
[IDX
,Z
) = rankfeatures (X
,集团
……“NWeighting”,β
,……)
[IDX
,Z
) = rankfeatures (X
,集团
……“NumberOfIndices”,N
,……)
[IDX
,Z
) = rankfeatures (X
,集团
……“CrossNorm”,CN
,……)
[
对功能进行排序IDX
,Z
) = rankfeatures (X
,集团
)X
采用独立的评价准则进行二值分类。X
是一个矩阵,其中每一列是一个观测向量,行数对应于原始特征数。集团
包含类标签。
IDX
行的索引列表在里面吗X
具有最重要的特性。Z
为所使用标准的绝对值(见下文)。
集团
可以是数字向量、字符向量或字符串向量的单元格数组。元素个数(集团)
与列数相同吗X
,集团
必须只有两个唯一的值。如果它包含任何NaN值,函数将忽略相应的观测向量X
.
[
调用IDX
,Z
) = rankfeatures (X
,集团
,……”PropertyName
',PropertyValue
,……)rankfeatures
使用属性名/属性值对的可选属性。您可以以任意顺序指定一个或多个属性。每一个PropertyName
必须用单引号括起来,不区分大小写。这些属性名/属性值对如下所示:
[
设置标准用于评估每个特征的重要性,以分离两个标记组。的选择是:IDX
,Z
) = rankfeatures (X
,集团
,“标准”,CriterionValue
,……)
的tt
(默认)-绝对值两样本t检验与合并方差估计。
“熵”
-相对熵,也被称为Kullback-Leibler距离或散度。
“bhattacharyya”
-可达到的最小分类误差或切诺夫界。
“中华民国”
-经验接受者工作特征(ROC)曲线与随机分类器斜率之间的面积。
“wilcoxon”
-两样本未配对Wilcoxon检验标准化u-统计量的绝对值,也称为Mann-Whitney检验。
请注意
的tt
,“熵”
,“bhattacharyya”
假设正态分布类“中华民国”
和“wilcoxon”
非参数测试。所有测试都是特性独立的。
[
使用相关信息来超过IDX
,Z
) = rankfeatures (X
,集团
……“CCWeighting”,α
,……)Z
使用的潜在特征值
,在那里Z
* (1 -α
*(ρ))ρ
为候选特征与所有之前选择的特征之间的互相关系数绝对值的平均值。α
设置权重因子。它是一个标量值0
和1
.当α
是0
(默认)未对潜在特征进行加权。很大的价值ρ
(接近1
)超过显著性统计;这意味着与已经选择的特性高度相关的特性不太可能包含在输出列表中。
[
利用区域信息来超过IDX
,Z
) = rankfeatures (X
,集团
……“NWeighting”,β
,……)Z
使用的潜在特征值
,在那里Z
* (1-exp (- (DIST /β
) ^ 2))。经销
为候选特征与先前选择的特征之间的距离(以行为单位)。β
设置权重因子。它大于等于0
.当β
是0
(默认)未对潜在特征进行加权。一个小经销
(接近0
)的显著性统计量大于仅相近特征的显著性统计量。这意味着输出列表中不太可能包含与已经选择的特性接近的特性。这个选项对于从具有时间相关性的时间序列中提取特征非常有用。
β
也可以是一个功能的特征位置,指定使用@
或者匿名函数。在这两种情况下rankfeatures
将特性的行位置传递给β()
并期望返回一个大于等于的值0
.
请注意
您可以使用“CCWeighting”
和“NWeighting”
在一起。
[
设置中输出索引的数量IDX
,Z
) = rankfeatures (X
,集团
……“NumberOfIndices”,N
,……)IDX
.默认是相同的数量的功能时α
和β
是0
,或20.
否则。
[
在每个特性的观察中应用独立的标准化。交叉规范化确保了不同特征之间的可比性,尽管这并不总是必要的,因为所选的标准可能已经说明了这一点。的选择是:IDX
,Z
) = rankfeatures (X
,集团
……“CrossNorm”,CN
,……)
“没有”
(默认)-强度没有交叉标准化。
“meanvar”
- - - - - -X_new = (x - mean(x))/std(x)
“softmax”
- - - - - -x_new = (1 + exp((平均(x) - x) /性病(x))) ^ 1
极大极小的
- - - - - -X_new = (x -min(x)) /(max(x)-min(x))
[1] Theodoridis, S.和Koutroumbas, K.(1999)。模式识别,学术出版社,341-342。
[2] Liu, H., Motoda, H.(1998)。知识发现和数据挖掘的特征选择,Kluwer学术出版社。
罗斯,D.T.等人。(2000)。人类癌症细胞系基因表达模式的系统性变异。自然遗传学。24(3),227-235。