relieff

排名使用ReliefF或RReliefF算法预测的重要性

语法

[idx、重量]= relieff (X, y, k)

(idx、重量)= relieff (X, y, k,名称,值)

描述

(idx,权重)= relieff (X,y,k)排名预测使用ReliefF或RReliefF算法k最近的邻居。输入矩阵X包含预测变量和向量y包含一个响应向量。函数返回idx,其中包含的指标最重要的预测因子,和权重,其中包含预测因子的权重。

如果y是数字,relieff默认执行RReliefF分析回归。否则,relieff执行ReliefF分析分类使用k最近的邻居每个类。ReliefF和RReliefF更多信息,请参阅算法。

例子

(idx,权重)= relieff (X,y,k,名称,值)使用一个或多个指定附加选项名称-值对参数。例如,“更新”,10集观测随机选择的数量计算重量10。

例子

全部折叠

确定重要的预测因子

打开生活的脚本

加载示例数据。

负载fisheriris

使用10最近的邻居发现的重要预测因子。

[idx、重量]= relieff(量、种类、10)

idx =1×44 3 1 2

重量=1×40.1399 0.1226 0.3590 0.3754

idx显示了预测数字列出根据他们的排名。第四个因素是最重要的,第二个因素是最重要的。权重给出了权重值预测的顺序相同。第一个预测的重量为0.1399,第四个预测的重量为0.3754。

排名预测的重要性

打开生活的脚本

加载示例数据。

负载电离层

排名基于重要性的预测使用10最近的邻居。

[idx、重量]= relieff (X, Y, 10);

创建一个酒吧的预测重要性权重。

栏(权重(idx))包含(“预测排名”)ylabel (的预测指标的重要性权重)

选择五大最重要的预测因子。找到这些预测的列X。

idx (1:5)

ans =1×524日3 8 5 14

的24日列X是最重要的预测Y。

确定重要的分类预测

打开生活的脚本

等级分类预测使用relieff。

加载示例数据。

负载carbig

把分类预测变量制造行业,模型,起源数值,并将它们合并到一个输入矩阵。指定响应变量英里/加仑。

X = [grp2idx (Mfg) grp2idx(模型)grp2idx(起源)];y = MPG;

找到的排名和权重预测变量使用10最近的邻居和治疗中的数据X分类。

(idx、重量)= relieff (X, y, 10日“categoricalx”,“上”)

idx =1×31 2 3

重量=1×3-0.0019 0.0501 0.0114

的模型在预测预测是最重要的英里/加仑。的制造行业变量有负重量,表明这不是一个很好的预测英里/加仑。

输入参数

全部折叠

`X`- - - - - -预测数据
数字矩阵

预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个变量。

数据类型:单|双

`y`- - - - - -响应数据
数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

响应数据,指定为一个数字矢量,分类向量,逻辑向量,字符数组,字符串数组或单元阵列特征向量。

数据类型:单|双|分类|逻辑|字符|字符串|细胞

`k`- - - - - -许多最近的邻居
正整数标量

最近的邻居,指定为一个正整数标量。

数据类型:单|双

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。

例子:relieff (X, y, 5,“方法”,“分类”、“categoricalx”,“上”)最近的邻居和指定5对响应变量和预测数据的分类。

`“方法”`- - - - - -计算重量的方法
`“回归”`|`“分类”`

计算重量的方法,指定为逗号分隔组成的“方法”,要么“回归”或“分类”。如果y是数字,“回归”是默认的方法。否则,“分类”是默认的。

例子:“方法”、“分类”

`“之前”`- - - - - -每个类的先验概率
`“经验”`(默认)|`“统一”`|数值向量|结构

先验概率为每个类,指定为逗号分隔组成的“之前”在这个表和一个值。

价值	描述
`“经验”`	类类频率的概率确定`y`。
`“统一”`	所有类的概率是相等的。
数值向量	存在一个值为每一个不同的组名。
结构	一个结构`年代`两个字段: `S.group`包含组名一样相同类型的一个变量`y`。 `S.prob`包含一个向量对应的概率。

例子:“前”、“制服”

数据类型:单|双|字符|字符串|结构体

`“更新”`- - - - - -的观测数量计算权重
`“所有”`(默认)|正整数标量

数量的观察为计算权重,选择随机指定为逗号分隔组成的“更新”,要么“所有”或者一个正整数标量。默认情况下,relieff使用所有的观察。

例子:“更新”,25岁

数据类型:单|双|字符|字符串

`“categoricalx”`- - - - - -分类预测标志
`“关闭”`(默认)|`“上”`

分类预测标志,指定为逗号分隔组成的“categoricalx”,要么“上”或“关闭”。如果您指定“上”,然后relieff把所有预测X分类。否则,它将所有的预测X作为数字。你不能混合数值和分类预测。

例子:“categoricalx”,“上”

`“σ”`- - - - - -距离比例因子
数字积极标量

距离比例因子,指定为逗号分隔组成的“σ”和一个数字积极标量。为观察我,影响预测体重从其最近的邻居j乘以 $e^{- {(排名 (我, j) / σ)}^{2}}$ 。排名(我,j)的位置吗j观察最近的邻居的我th观察,按距离排序。默认值是正分类(所有最近的邻居都有相同的影响)和50回归。

例子:“σ”,20

数据类型:单|双

输出参数

全部折叠

`idx`——指数预测下令预测的重要性
数值向量

指数的预测X下令预测的重要性,作为一个数值向量返回。例如,如果idx (3)是5,然后第三个最重要的因素是第五纵队X。

数据类型:双

`权重`——预测因子的权重
数值向量

预测因子的权重,作为一个数值向量返回。中的值权重同一订单的预测吗X。权重范围从1来1,有大量积极的权重分配给重要的预测因子。

数据类型:双

提示

预测排名和权重通常依赖k。如果你设置k1,那么估计可以为嘈杂的数据是不可靠的。如果你设置k类似的观察值(行)X,relieff可以找不到重要的预测因子。你可以开始k=10和调查的稳定性和可靠性relieff对各种价值的排名和权重k。
relieff删除的观察与南值。

算法

全部折叠

ReliefF

ReliefF发现情况的预测因子的权重y是一个多级分类变量。的预测算法惩罚给邻居同一个类的不同的值,和奖励预测,给邻居不同的值不同的类。

ReliefF首先预测权重集W_j为0。然后,该算法迭代选择一个随机的观察x_r,发现k最近的观察,x_r对于每个类,和更新,为每一个最近邻x_问,所有的预测因子的权重F_j如下:

如果x_r和x_问是在同一个班,

$W_{j}^{我} = W_{j}^{我 - 1} - \frac{Δ_{j} (x_{r}, x_{问})}{米} \cdot d_{r 问} 。$

如果x_r和x_问分别在不同的班级上课,

$W_{j}^{我} = W_{j}^{我 - 1} + \frac{p_{y_{问}}}{1 - p_{y_{r}}} \cdot \frac{Δ_{j} (x_{r}, x_{问})}{米} \cdot d_{r 问} 。$

W_j^我预测的重量吗F_j在我迭代步骤。
p_{y_r}这类的先验概率吗x_r属于,p_{y_问}这类的先验概率吗x_问属于。
米指定的迭代次数吗“更新”。
$Δ_{j} (x_{r}, x_{问})$ 预测的值的差异吗F_j之间的观察x_r和x_问。让x_rj表示的值jth预示观察x_r,让x_qj表示的值jth预示观察x_问。
- 对于离散F_j,
  
  $Δ_{j} (x_{r}, x_{问}) = {\begin{matrix} 0, & x_{r j} = x_{问 j} \\ 1, & x_{r j} \neq x_{问 j} \end{matrix} 。$
- 连续F_j,
  
  $Δ_{j} (x_{r}, x_{问}) = \frac{| x_{r j} - x_{问 j} |}{马克斯 (F_{j}) - 最小值 (F_{j})} 。$
d_中移动是一个距离函数的形式

$d_{r 问} = \frac{{\tilde{d}}_{r 问}}{\sum_{l = 1}^{k} {\tilde{d}}_{r l}} 。$

的距离比例

${\tilde{d}}_{r 问} = e^{- {(排名 (r, 问) / σ)}^{2}}$

在哪里排名(r,问)的位置吗问观察最近的邻居的rth观察,按距离排序。k是最近的邻居的数量,规定k。你可以改变指定的缩放“σ”。

RReliefF

RReliefF与连续y。也类似于ReliefF, RReliefF惩罚给邻居不同值的预测响应值相同,和奖励预测,给邻居有不同的响应值不同的值。然而,RReliefF使用中间权重来计算最终的指标权重。

给定两个最近的邻居,假设如下:

W_dy是有不同的重量值反应y。
W_dj是有不同的重量值预测F_j。
$W_{d y \land d j}$ 的重量有不同的响应值和值预测F_j。

RReliefF第一集的权重W_dy,W_dj, $W_{d y \land d j}$ ,W_j等于0。然后,该算法迭代选择一个随机的观察x_r,发现k最近的观察,x_r和更新,为每一个最近的邻居x_问,所有的中间权重如下:

$W_{d y}^{我} = W_{d y}^{我 - 1} + Δ_{y} (x_{r}, x_{问}) \cdot d_{r 问} 。$

$W_{d j}^{我} = W_{d j}^{我 - 1} + Δ_{j} (x_{r}, x_{问}) \cdot d_{r 问} 。$

$W_{d y \land d j}^{我} = W_{d y \land d j}^{我 - 1} + Δ_{y} (x_{r}, x_{问}) \cdot Δ_{j} (x_{r}, x_{问}) \cdot d_{r 问} 。$

的我和我1标表示迭代步数。米指定的迭代次数吗“更新”。
$Δ_{y} (x_{r}, x_{问})$ 是连续的值的差异反应y之间的观察x_r和x_问。让y_r表示的响应值的观察x_r,让y_问表示的响应值的观察x_问。

$Δ_{y} (x_{r}, x_{问}) = \frac{| y_{r} - y_{问} |}{马克斯 (y) - 最小值 (y)} 。$
的 $Δ_{j} (x_{r}, x_{问})$ 和d_中移动功能是一样的ReliefF。

RReliefF计算指标权重W_j完全更新后中间的重量。

$W_{j} = \frac{W_{d y \land d j}}{W_{d y}} - \frac{W_{d j} - W_{d y \land d j}}{米 - W_{d y}} 。$

有关更多信息,请参见[2]。

引用

[1]Kononenko,我。,E. Simec, and M. Robnik-Sikonja. (1997). “Overcoming the myopia of inductive learning algorithms with RELIEFF.” Retrieved from CiteSeerX:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.4740

[2]Robnik-Sikonja, M。,即Kononenko。(1997)。“一个适应属性评估救援的回归。“从CiteSeerX检索:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.34.8381

[3]Robnik-Sikonja, M。,即Kononenko。(2003)。“理论和实证分析ReliefF和RReliefF。”机器学习现年53岁的23 - 69。

另请参阅

主题

介绍了R2010b

relieff

语法

描述

例子

确定重要的预测因子

排名预测的重要性

确定重要的分类预测

输入参数

`X`- - - - - -预测数据
数字矩阵

`y`- - - - - -响应数据
数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

`k`- - - - - -许多最近的邻居
正整数标量

名称-值对的观点

`“方法”`- - - - - -计算重量的方法
`“回归”`|`“分类”`

`“之前”`- - - - - -每个类的先验概率
`“经验”`(默认)|`“统一”`|数值向量|结构

`“更新”`- - - - - -的观测数量计算权重
`“所有”`(默认)|正整数标量

`“categoricalx”`- - - - - -分类预测标志
`“关闭”`(默认)|`“上”`

`“σ”`- - - - - -距离比例因子
数字积极标量

输出参数

`idx`——指数预测下令预测的重要性
数值向量

`权重`——预测因子的权重
数值向量

提示

算法

ReliefF

RReliefF

引用

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一个循序渐进的指导与MATLAB

relieff

语法

描述

例子

确定重要的预测因子

排名预测的重要性

确定重要的分类预测

输入参数

X- - - - - -预测数据数字矩阵

y- - - - - -响应数据数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

k- - - - - -许多最近的邻居正整数标量

名称-值对的观点

“方法”- - - - - -计算重量的方法“回归”|“分类”

“之前”- - - - - -每个类的先验概率“经验”(默认)|“统一”|数值向量|结构

“更新”- - - - - -的观测数量计算权重“所有”(默认)|正整数标量

“categoricalx”- - - - - -分类预测标志“关闭”(默认)|“上”

“σ”- - - - - -距离比例因子数字积极标量

输出参数

idx——指数预测下令预测的重要性数值向量

权重——预测因子的权重数值向量

提示

算法

ReliefF

RReliefF

引用

另请参阅

主题

统计和机器学习工具箱文档

金宝app

掌握机器学习:一个循序渐进的指导与MATLAB

`X`- - - - - -预测数据
数字矩阵

`y`- - - - - -响应数据
数值向量|分类向量|逻辑向量|字符数组|字符串数组|单元阵列的特征向量

`k`- - - - - -许多最近的邻居
正整数标量

`“方法”`- - - - - -计算重量的方法
`“回归”`|`“分类”`

`“之前”`- - - - - -每个类的先验概率
`“经验”`(默认)|`“统一”`|数值向量|结构

`“更新”`- - - - - -的观测数量计算权重
`“所有”`(默认)|正整数标量

`“categoricalx”`- - - - - -分类预测标志
`“关闭”`(默认)|`“上”`

`“σ”`- - - - - -距离比例因子
数字积极标量

`idx`——指数预测下令预测的重要性
数值向量

`权重`——预测因子的权重
数值向量