主要内容

rankfeatures

根据类可分性标准对关键特征进行排序

语法

IDXZ) = rankfeatures (X集团
IDXZ) = rankfeatures (X集团,“标准”,CriterionValue,……)
IDXZ) = rankfeatures (X集团……“CCWeighting”,α,……)
IDXZ) = rankfeatures (X集团……“NWeighting”,β,……)
IDXZ) = rankfeatures (X集团……“NumberOfIndices”,N,……)
IDXZ) = rankfeatures (X集团……“CrossNorm”,CN,……)

描述

IDXZ) = rankfeatures (X集团对功能进行排序X采用独立的评价准则进行二值分类。X是一个矩阵,其中每一列是一个观测向量,行数对应于原始特征数。集团包含类标签。

IDX行的索引列表在里面吗X具有最重要的特性。Z为所使用标准的绝对值(见下文)。

集团可以是数字向量、字符向量或字符串向量的单元格数组。元素个数(集团)与列数相同吗X,集团必须只有两个唯一的值。如果它包含任何NaN值,函数将忽略相应的观测向量X

IDXZ) = rankfeatures (X集团,……”PropertyName',PropertyValue,……)调用rankfeatures使用属性名/属性值对的可选属性。您可以以任意顺序指定一个或多个属性。每一个PropertyName必须用单引号括起来,不区分大小写。这些属性名/属性值对如下所示:

IDXZ) = rankfeatures (X集团,“标准”,CriterionValue,……)设置标准用于评估每个特征的重要性,以分离两个标记组。的选择是:

  • 的tt(默认)-绝对值两样本t检验与合并方差估计。

  • “熵”-相对熵,也被称为Kullback-Leibler距离或散度。

  • “bhattacharyya”-可达到的最小分类误差或切诺夫界。

  • “中华民国”-经验接受者工作特征(ROC)曲线与随机分类器斜率之间的面积。

  • “wilcoxon”-两样本未配对Wilcoxon检验标准化u-统计量的绝对值,也称为Mann-Whitney检验。

请注意

的tt“熵”,“bhattacharyya”假设正态分布类“中华民国”“wilcoxon”非参数测试。所有测试都是特性独立的。

IDXZ) = rankfeatures (X集团……“CCWeighting”,α,……)使用相关信息来超过Z使用的潜在特征值Z* (1 -α*(ρ)),在那里ρ为候选特征与所有之前选择的特征之间的互相关系数绝对值的平均值。α设置权重因子。它是一个标量值01.当α0(默认)未对潜在特征进行加权。很大的价值ρ(接近1)超过显著性统计;这意味着与已经选择的特性高度相关的特性不太可能包含在输出列表中。

IDXZ) = rankfeatures (X集团……“NWeighting”,β,……)利用区域信息来超过Z使用的潜在特征值Z* (1-exp (- (DIST /β) ^ 2))。,在那里经销为候选特征与先前选择的特征之间的距离(以行为单位)。β设置权重因子。它大于等于0.当β0(默认)未对潜在特征进行加权。一个小经销(接近0)的显著性统计量大于仅相近特征的显著性统计量。这意味着输出列表中不太可能包含与已经选择的特性接近的特性。这个选项对于从具有时间相关性的时间序列中提取特征非常有用。

β也可以是一个功能的特征位置,指定使用或者匿名函数。在这两种情况下rankfeatures将特性的行位置传递给β()并期望返回一个大于等于的值0

请注意

您可以使用“CCWeighting”“NWeighting”在一起。

IDXZ) = rankfeatures (X集团……“NumberOfIndices”,N,……)设置中输出索引的数量IDX.默认是相同的数量的功能时αβ0,或20.否则。

IDXZ) = rankfeatures (X集团……“CrossNorm”,CN,……)在每个特性的观察中应用独立的标准化。交叉规范化确保了不同特征之间的可比性,尽管这并不总是必要的,因为所选的标准可能已经说明了这一点。的选择是:

  • “没有”(默认)-强度没有交叉标准化。

  • “meanvar”- - - - - -X_new = (x - mean(x))/std(x)

  • “softmax”- - - - - -x_new = (1 + exp((平均(x) - x) /性病(x))) ^ 1

  • 极大极小的- - - - - -X_new = (x -min(x)) /(max(x)-min(x))

例子

全部折叠

在t-matrix NCI60数据集中找到一组足够将乳腺癌细胞从所有其他类型癌症中区分出来的基因。加载示例数据。

负载NCI60tmatrix

得到一个合乎逻辑的指向乳腺癌细胞的索引向量。

BC =组== 8;

选择功能。

我= rankfeatures (X,公元前“NumberOfIndices”12);

用线性判别分类器测试特征。

C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

使用互相关加权进一步减少所需的基因数量。

我= rankfeatures (X,公元前“CCWeighting”, 0.7,“NumberOfIndices”8);C =分类(X(我,:),X(我:),双(BC));公元前cp = classperf (C);cp.CorrectRate
ans = 1

求两组不同源高斯脉冲调制的两组信号的鉴别峰。

负载GaussianPulsesgrp f = rankfeatures (y ',“NWeighting”@ (x) x / 10 + 5,“NumberOfIndices”5);情节(t y (grp = = 1:)“b”、t、y (grp = = 2,:)‘g’t (f), 1.35,“虚拟现实”

参考文献

[1] Theodoridis, S.和Koutroumbas, K.(1999)。模式识别,学术出版社,341-342。

[2] Liu, H., Motoda, H.(1998)。知识发现和数据挖掘的特征选择,Kluwer学术出版社。

罗斯,D.T.等人。(2000)。人类癌症细胞系基因表达模式的系统性变异。自然遗传学。24(3),227-235。

之前介绍过的R2006a