主要内容

plotDiagnostics

情节线性回归模型的观察诊断

描述

plotDiagnostics创建一个阴谋的观察诊断等杠杆,库克的距离,和delete-1统计识别异常值和影响力的观察。

例子

plotDiagnostics (mdl)创建一个杠杆的情节线性回归模型(mdl)观察。图中的虚线代表推荐的阈值。

plotDiagnostics (mdl,plottype)指定类型的观察诊断plottype

plotDiagnostics (mdl,plottype,名称,值)指定的图形性能诊断数据点使用一个或多个参数名称-值对。例如,您可以指定数据点标记符号和大小。

h= plotDiagnostics (___)返回图形对象的线条或轮廓图使用任何输入参数组合在前面的语法。使用h修改属性的一个特定的行或轮廓在您创建的阴谋。一个属性列表,看到行属性轮廓属性

例子

全部折叠

情节的利用价值和库克的距离观察和发现离群值。

加载carsmall数据集和符合里程的线性回归模型的函数模型,重量和体重的平方。

负载carsmall台=表(MPG、重量);资源描述。年=分类(Model_Year);mdl = fitlm(资源描述,“MPG ~年+重量^ 2”);

情节杠杆值。

plotDiagnostics (mdl)传说(“显示”)%显示传奇

图包含一个坐标轴对象。坐标轴对象与标题案件情节的杠杆,包含行号,ylabel利用包含2线类型的对象。一个或多个行显示的值只使用这些对象标记代表杠杆,参考线。

虚线代表推荐阈值2 *p/n,在那里p系数的数量,n是观测的数量。找到阈值使用NumCoefficientsNumObservations属性。

t_leverage = 2 * mdl.NumCoefficients / mdl.NumObservations
t_leverage = 0.1064

找到观察和杠杆值超过阈值。

找到(mdl.Diagnostics。利用> t_leverage)
ans =3×126日32 35

你也可以找到一个观察数量通过使用数据提示。选择上面的数据点阈值线来显示他们的数据提示。提示包含的数据x设在和y设在值选择的点,随着观测数。

情节的库克的距离值。

plotDiagnostics (mdl“cookd”)

图包含一个坐标轴对象。标题顺序图的坐标轴对象库克的距离,包含行号,ylabel库克的距离包含2线类型的对象。一个或多个行显示的值只使用这些对象标记代表库克的距离,参考线。

虚线代表推荐的阈值。计算阈值t_cookd

t_cookd = 3 *意味着(mdl.Diagnostics.CooksDistance,“omitnan”)
t_cookd = 0.0320

找到与库克的距离的观测值超过阈值。

找到(mdl.Diagnostics。CooksDistance > t_cookd)
ans =6×126 35 80 90 92 97

两个观察(26 - 35)是离群值的措施,但一些点(32、80、90、92和97年)被只有一个测量异常值。

输入参数

全部折叠

线性回归模型,指定为一个LinearModel对象创建使用fitlmstepwiselm

类型的情节,指定为这个表中的值之一。

价值 情节类型 参考的点线的阴谋 目的
“轮廓” 剩余与杠杆覆盖轮廓的库克的距离 轮廓的库克的距离 观察认同大的剩余价值,高杠杆和大型库克的距离值。
“cookd” 库克的距离 推荐阈值,计算3 *意味着(mdl.Diagnostics.CooksDistance) 确定观测大库克的距离值。
“covratio” Delete-1协方差的比率决定因素 推荐阈值计算1±3 * p / n,在那里p是系数的数量(mdl.NumCoefficients),n是观测的数量(mdl.NumObservations) 确定观测delete-1统计值不在推荐阈值的范围。
“dfbetas” Delete-1比例系数估计的差异 推荐阈值,计算3 /√(n) 确定观测大delete-1统计值。
“dffits” Delete-1拟合值的差异 推荐阈值,计算2 *倍根号(p / n)在一个绝对值 确定观测大delete-1统计值的绝对值。
“杠杆” 利用 推荐阈值,计算2 * p / n 识别高杠杆的观察。
“s2_i” Delete-1方差 均方误差(mdl.MSE) 比较delete-1方差和均方误差。

所有图表类型(除了“轮廓”,x设在是行号(订单)的观察。

诊断的属性mdl包含所使用的诊断价值plotDiagnostics创建块。

关于观察诊断方法的更多信息,请参阅库克的距离,Delete-1统计,利用

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“颜色”、“蓝”、“标记”,“o”

请注意

图形属性列在这里只是一个子集。一个完整的列表,请参阅行属性。指定的属性确定诊断数据点的外观。

线的颜色,指定为逗号分隔组成的“颜色”和一个RGB值,十六进制颜色代码,颜色名称,或短名称的颜色选项下面的表中列出。

“颜色”名称-值对的论点也决定标记轮廓填充颜色,如果颜色和标志“MarkerEdgeColor”“汽车”(默认),“MarkerFaceColor”“汽车”

为一个自定义颜色,指定一个RGB值或十六进制的颜色代码。

  • 一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1]例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是一个字符串标量或字符始于一个散列向量符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色的示例

“绿色” “g” (0 1 0) “# 00 ff00”

样品的颜色绿色

“蓝色” “b” (0 0 1) “# 0000 ff”

样品的颜色蓝色

“青色” “c” (0 1 1) “# 00飞行符”

样品的颜色青色

“红色” “m” (1 0 1) “#”就

样品的颜色红色

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色黄色

“黑色” “k” (0 0 0) “000000 #”

样品的颜色黑色

“白色” “w” (1 1 1) “# FFFFFF”

样品的颜色白色

“没有” 不适用 不适用 不适用 没有颜色

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB®使用在许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

样本的RGB值(0 0.4470 - 0.7410),显示为深蓝色

(0.8500 0.3250 0.0980) “# D95319”

样本的RGB值(0.8500 0.3250 0.0980),它表现为暗橙

(0.9290 0.6940 0.1250) “# EDB120”

样本的RGB值(0.9290 0.6940 0.1250),它表现为暗黄色

(0.4940 0.1840 0.5560) “# 7 e2f8e”

样本的RGB值(0.4940 0.1840 0.5560),它表现为深紫色

(0.4660 0.6740 0.1880) “# 77 ac30”

样本的RGB值(0.4660 0.6740 0.1880),它表现为中绿色

(0.3010 0.7450 0.9330) “# 4 dbeee”

样本的RGB值(0.3010 0.7450 0.9330),它表现为浅蓝色

(0.6350 0.0780 0.1840) “# A2142F”

样本的RGB值(0.6350 0.0780 0.1840),它表现为深红色

例子:“颜色”、“蓝”

线宽,指定为逗号分隔组成的“线宽”和一个积极的价值点。如果线标记,标记的线宽也会影响边缘。

例子:“线宽”,0.75

标记符号,指定为逗号分隔组成的“标记”在这个表的一个值。

标记 描述 产生的标志
“o”

样本的圆圈标记

“+” 加号

的加号标记样本

“*” 星号

星号标记的样本

“。”

样本点标记

“x” 交叉

的十字标记样本

“_” 水平线

样本的水平线标志

“|” 垂直的线

垂直线的样本标记

“广场” 广场

广场标记样本

“钻石” 钻石

钻石线标记的样本

“^” Upward-pointing三角形

样本upward-pointing三角形标记

“v” 向下的三角形

向下的三角形的样本标记

“>” 三点三角形

样本的三点三角形标记

" < " 只左向三角形

样品只左向三角形标记

“五角星形” 五角星形

五角星形标记样本

“卦” 六角星形

六角星形标记样本

“没有” 没有标记 不适用

例子:“标记”,“+”

标志颜色,轮廓指定为逗号分隔组成的“MarkerEdgeColor”和一个RGB值,十六进制颜色代码,颜色名称,或短名称中列出的颜色选项之一颜色名称-值对的论点。

的默认值“汽车”使用相同的颜色指定使用“颜色”

例子:“MarkerEdgeColor”、“蓝”

填充颜色标志,指定为逗号分隔组成的“MarkerFaceColor”和一个RGB值,十六进制颜色代码,颜色名称,或短名称中列出的颜色选项之一颜色名称-值对的论点。

“汽车”使用指定的值使用相同的颜色“颜色”

例子:“MarkerFaceColor”、“蓝”

标记大小,指定为逗号分隔组成的“MarkerSize”和一个积极的价值点。

例子:“MarkerSize”, 2

输出参数

全部折叠

图形对象对应线或轮廓图,作为图形数组返回。使用点符号图形对象的查询和设置属性。有关详细信息,请参见行属性轮廓属性

您可以使用名称-值对参数指定的外观诊断数据点对应于第一个图形对象h (1)。如果plottype“dfbetas”,情节包含一行对象对于每个系数。名称-值对参数指定线对象属性的系数。您可以修改每个系数的属性分别用相应的图形对象。

更多关于

全部折叠

库克的距离

库克的距离是拟合值的比例变化,识别异常值是有用的X为预测变量值(观察)。库克的距离显示了安装上的每个观测响应值的影响。观察与库克的距离大于三倍的意思是库克的距离可能是局外人。

每个元素在库克的距离D是归一化的变化拟合响应值由于观察的删除。库克的距离观察

D = j = 1 n ( y ^ j y ^ j ( ) ) 2 p 年代 E ,

在哪里

  • y ^ j j拟合响应值。

  • y ^ j ( ) jth拟合响应值,适合不包括观察

  • 均方误差均方误差。

  • p回归模型系数的数量。

库克的距离是代数等价于如下表达式:

D = r 2 p 年代 E ( h ( 1 h ) 2 ) ,

在哪里rth残余,h二世利用价值。

更多细节,请参阅库克的距离

Delete-1统计

Delete-1统计数据是有用的寻找每一个观测的影响。这些统计数据捕获的变化将从依次扣除每个观测结果的健康。如果delete-1统计显著差异从模型中使用所有的观察,然后观察是有影响力的。

看到Delete-1统计的定义和用法delete-1统计数据。

利用

杠杆率是一个衡量一个特定的影响观察的回归预测由于位置观测空间的输入。

杠杆的观察的价值吗th对角线项h二世这顶帽子矩阵H。这顶帽子矩阵H定义的数据矩阵X:

H=X(XTX)1XT

帽子矩阵也被称为投影矩阵因为它项目观察y的向量的向量的预测 y ^ “帽子”,从而把y。

因为杠杆值的总和p(在回归模型系数的数量),一个观察可以被认为是一个异类的利用大大超过了p/n,在那里n是观测的数量。

更多细节,请参阅帽子矩阵和杠杆

提示

  • 光标显示的数据的值选择情节点在数据提示(小文本框位于旁边的数据点)。提示包含的数据x设在和y设在选择的点值,以及观察名称或号码。

  • 使用传奇(显示)显示预填充的传奇。

选择功能

引用

[1]净,J。,米。H。Kutner, C. J. Nachtsheim, and W. Wasserman.应用线性统计模型,第四版。芝加哥:麦格劳-希尔欧文,1996年。

扩展功能

版本历史

介绍了R2012a