主要内容

relieff

排名使用ReliefF或RReliefF算法预测的重要性

描述

例子

(idx,权重)= relieff (X,y,k)排名预测使用ReliefF或RReliefF算法k最近的邻居。输入矩阵X包含预测变量和向量y包含一个响应向量。函数返回idx,其中包含的指标最重要的预测因子,和权重,其中包含预测因子的权重。

如果y是数字,relieff默认执行RReliefF分析回归。否则,relieff执行ReliefF分析分类使用k最近的邻居每个类。ReliefF和RReliefF更多信息,请参阅算法

例子

(idx,权重)= relieff (X,y,k,名称,值)使用一个或多个指定附加选项名称-值对参数。例如,“更新”,10集观测随机选择的数量计算重量10。

例子

全部折叠

加载示例数据。

负载fisheriris

使用10最近的邻居发现的重要预测因子。

[idx、重量]= relieff(量、种类、10)
idx =1×44 3 1 2
重量=1×40.1399 0.1226 0.3590 0.3754

idx显示了预测数字列出根据他们的排名。第四个因素是最重要的,第二个因素是最重要的。权重给出了权重值预测的顺序相同。第一个预测的重量为0.1399,第四个预测的重量为0.3754。

加载示例数据。

负载电离层

排名基于重要性的预测使用10最近的邻居。

[idx、重量]= relieff (X, Y, 10);

创建一个酒吧的预测重要性权重。

栏(权重(idx))包含(“预测排名”)ylabel (的预测指标的重要性权重)

选择五大最重要的预测因子。找到这些预测的列X

idx (1:5)
ans =1×524日3 8 5 14

的24日列X是最重要的预测Y

等级分类预测使用relieff

加载示例数据。

负载carbig

把分类预测变量制造行业,模型,起源数值,并将它们合并到一个输入矩阵。指定响应变量英里/加仑

X = [grp2idx (Mfg) grp2idx(模型)grp2idx(起源)];y = MPG;

找到的排名和权重预测变量使用10最近的邻居和治疗中的数据X分类。

(idx、重量)= relieff (X, y, 10日“categoricalx”,“上”)
idx =1×31 2 3
重量=1×3-0.0019 0.0501 0.0114

模型在预测预测是最重要的英里/加仑。的制造行业变量有负重量,表明这不是一个很好的预测英里/加仑

输入参数

全部折叠

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个变量。

数据类型:|

响应数据,指定为一个数字矢量,分类向量,逻辑向量,字符数组,字符串数组或单元阵列特征向量。

数据类型:||分类|逻辑|字符|字符串|细胞

最近的邻居,指定为一个正整数标量。

数据类型:|

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:relieff (X, y, 5,“方法”,“分类”、“categoricalx”,“上”)最近的邻居和指定5对响应变量和预测数据的分类。

计算重量的方法,指定为逗号分隔组成的“方法”,要么“回归”“分类”。如果y是数字,“回归”是默认的方法。否则,“分类”是默认的。

例子:“方法”、“分类”

先验概率为每个类,指定为逗号分隔组成的“之前”在这个表和一个值。

价值 描述
“经验” 类类频率的概率确定y
“统一” 所有类的概率是相等的。
数值向量 存在一个值为每一个不同的组名。
结构

一个结构年代两个字段:

  • S.group包含组名一样相同类型的一个变量y

  • S.prob包含一个向量对应的概率。

例子:“前”、“制服”

数据类型:||字符|字符串|结构体

数量的观察为计算权重,选择随机指定为逗号分隔组成的“更新”,要么“所有”或者一个正整数标量。默认情况下,relieff使用所有的观察。

例子:“更新”,25岁

数据类型:||字符|字符串

分类预测标志,指定为逗号分隔组成的“categoricalx”,要么“上”“关闭”。如果您指定“上”,然后relieff把所有预测X分类。否则,它将所有的预测X作为数字。你不能混合数值和分类预测。

例子:“categoricalx”,“上”

距离比例因子,指定为逗号分隔组成的“σ”和一个数字积极标量。为观察,影响预测体重从其最近的邻居j乘以 e ( 排名 ( , j ) / σ) 2 排名(,j)的位置吗j观察最近的邻居的th观察,按距离排序。默认值是分类(所有最近的邻居都有相同的影响)和50回归。

例子:“σ”,20

数据类型:|

输出参数

全部折叠

指数的预测X下令预测的重要性,作为一个数值向量返回。例如,如果idx (3)5,然后第三个最重要的因素是第五纵队X

数据类型:

预测因子的权重,作为一个数值向量返回。中的值权重同一订单的预测吗X权重范围从11,有大量积极的权重分配给重要的预测因子。

数据类型:

提示

  • 预测排名和权重通常依赖k。如果你设置k1,那么估计可以为嘈杂的数据是不可靠的。如果你设置k类似的观察值(行)X,relieff可以找不到重要的预测因子。你可以开始k=10和调查的稳定性和可靠性relieff对各种价值的排名和权重k

  • relieff删除的观察与值。

算法

全部折叠

ReliefF

ReliefF发现情况的预测因子的权重y是一个多级分类变量。的预测算法惩罚给邻居同一个类的不同的值,和奖励预测,给邻居不同的值不同的类。

ReliefF首先预测权重集Wj为0。然后,该算法迭代选择一个随机的观察xr,发现k最近的观察,xr对于每个类,和更新,为每一个最近邻x,所有的预测因子的权重Fj如下:

如果xrx是在同一个班,

W j = W j 1 Δ j ( x r , x ) d r

如果xrx分别在不同的班级上课,

W j = W j 1 + p y 1 p y r Δ j ( x r , x ) d r

  • Wj预测的重量吗Fj迭代步骤。

  • pyr这类的先验概率吗xr属于,py这类的先验概率吗x属于。

  • 指定的迭代次数吗“更新”

  • Δ j ( x r , x ) 预测的值的差异吗Fj之间的观察xrx。让xrj表示的值jth预示观察xr,让xqj表示的值jth预示观察x

    • 对于离散Fj,

      Δ j ( x r , x ) = { 0 , x r j = x j 1 , x r j x j

    • 连续Fj,

      Δ j ( x r , x ) = | x r j x j | 马克斯 ( F j ) 最小值 ( F j )

  • d中移动是一个距离函数的形式

    d r = d ˜ r l = 1 k d ˜ r l

    的距离比例

    d ˜ r = e ( 排名 ( r , ) / σ) 2

    在哪里排名(r,)的位置吗观察最近的邻居的rth观察,按距离排序。k是最近的邻居的数量,规定k。你可以改变指定的缩放“σ”

RReliefF

RReliefF与连续y。也类似于ReliefF, RReliefF惩罚给邻居不同值的预测响应值相同,和奖励预测,给邻居有不同的响应值不同的值。然而,RReliefF使用中间权重来计算最终的指标权重。

给定两个最近的邻居,假设如下:

  • Wdy是有不同的重量值反应y

  • Wdj是有不同的重量值预测Fj

  • W d y d j 的重量有不同的响应值和值预测Fj

RReliefF第一集的权重Wdy,Wdj, W d y d j ,Wj等于0。然后,该算法迭代选择一个随机的观察xr,发现k最近的观察,xr和更新,为每一个最近的邻居x,所有的中间权重如下:

W d y = W d y 1 + Δ y ( x r , x ) d r

W d j = W d j 1 + Δ j ( x r , x ) d r

W d y d j = W d y d j 1 + Δ y ( x r , x ) Δ j ( x r , x ) d r

  • 1标表示迭代步数。指定的迭代次数吗“更新”

  • Δ y ( x r , x ) 是连续的值的差异反应y之间的观察xrx。让yr表示的响应值的观察xr,让y表示的响应值的观察x

    Δ y ( x r , x ) = | y r y | 马克斯 ( y ) 最小值 ( y )

  • Δ j ( x r , x ) d中移动功能是一样的ReliefF

RReliefF计算指标权重Wj完全更新后中间的重量。

W j = W d y d j W d y W d j W d y d j W d y

有关更多信息,请参见[2]

引用

[1]Kononenko,我。,E. Simec, and M. Robnik-Sikonja. (1997). “Overcoming the myopia of inductive learning algorithms with RELIEFF.” Retrieved from CiteSeerX:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.4740

[2]Robnik-Sikonja, M。,即Kononenko。(1997)。“一个适应属性评估救援的回归。“从CiteSeerX检索:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.34.8381

[3]Robnik-Sikonja, M。,即Kononenko。(2003)。“理论和实证分析ReliefF和RReliefF。”机器学习现年53岁的23 - 69。

介绍了R2010b