主要内容

plotDiagnostics

绘制线性回归模型的观察诊断图

描述

plotDiagnostics创建一个观察诊断图,如杠杆、库克距离,并删除-1统计数据,以确定异常值和有影响的观察结果。

例子

plotDiagnostics (mdl创建线性回归模型的杠杆图(mdl)观察。图中的虚线表示推荐的阈值。

plotDiagnostics (mdl,plottype观察诊断的类型plottype

plotDiagnostics (mdl,plottype,名称,值使用一个或多个名称-值对参数指定诊断数据点的图形属性。例如,您可以为数据点指定标记符号和大小。

h= plotDiagnostics (___使用前面语法中的任意输入参数组合返回绘图中的线或轮廓的图形对象。使用h在创建绘图后修改特定线或轮廓的属性。有关属性列表,请参见行属性轮廓属性

例子

全部折叠

绘制杠杆值和库克的观察距离,并找出异常值。

加载carsmall数据集和拟合的线性回归模型的里程作为一个函数的模型年,重量,和重量的平方。

负载carsmall台=表(MPG、重量);资源描述。年=分类(Model_Year);mdl = fitlm(资源描述,'MPG ~年+重量^2');

绘制杠杆值。

plotDiagnostics (mdl)传说(“显示”%显示图例

图中包含一个坐标轴。杠杆的Case order plot的标题轴包含2个line类型的对象。这些对象表示杠杆、参考线。

虚线表示建议阈值2*p/n,在那里p是系数的个数,和n为观察次数。方法查找阈值NumCoefficientsNumObservations属性。

t_leverage = 2 * mdl.NumCoefficients / mdl.NumObservations
t_leverage = 0.1064

查找杠杆值超过阈值的观察值。

找到(mdl.Diagnostics。利用> t_leverage)
ans =3×126日32 35

您还可以使用数据提示找到一个观察数字。选择阈值线以上的数据点以显示它们的数据提示。数据提示包括x设在和y所选点的-axis值,以及观测数。

绘制库克的距离值。

plotDiagnostics (mdl“cookd”

图中包含一个坐标轴。库克距离的Case order plot标题轴包含2个line类型的对象。这些物体代表库克距离,参考线。

虚线表示建议阈值。计算阈值t_cookd

t_cookd = 3 *意味着(mdl.Diagnostics.CooksDistance,“omitnan”
t_cookd = 0.0320

找出库克距离值超过阈值的观察值。

找到(mdl.Diagnostics。CooksDistance > t_cookd)
ans =6×126 35 80 90 92 97

两个观察值(26和35)在两种测量方法中都是异常值,但一些点(32、80、90、92和97)仅在一种测量方法中是异常值。

输入参数

全部折叠

线性回归模型,指定为LinearModel对象创建使用fitlmstepwiselm

plot的类型,指定为该表中的一个值。

价值 情节类型 图中的虚线参考线 目的
“轮廓” 剩余vs. Cook距离重叠轮廓的杠杆 库克距离的轮廓 识别具有大剩余值、高杠杆和大库克距离值的观察结果。
“cookd” 库克的距离 建议阈值,由3 *意味着(mdl.Diagnostics.CooksDistance) 用较大的库克距离值识别观察结果。
“covratio” 减去-1协方差行列式之比 建议阈值,由1±3 * p / n,在那里p为系数个数(mdl。NumCoefficients),n为观测次数(mdl。NumObservations 当delete-1统计值不在建议阈值范围内时,识别观察值。
“dfbetas” 在系数估计中删除-1缩放差异 建议阈值,由3 /√(n) 识别具有大删除-1统计值的观测值。
“dffits” 删除-1比例差异的拟合值 建议阈值,由2 *倍根号(p / n)用绝对值表示 在绝对值中识别具有大删除-1统计值的观测值。
“杠杆” 利用 建议阈值,由2 * p / n 确定高杠杆观察。
“s2_i” Delete-1方差 均方误差(mdl。均方误差 将删除-1方差与均方误差进行比较。

对于所有情节类型,除了“轮廓”,x-axis是观察值的行号(大小写顺序)。

诊断的属性mdl包含所使用的诊断值plotDiagnostics创建块。

有关观察诊断的详细信息,请参见库克的距离,Delete-1统计,利用

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“颜色”、“蓝”、“标记”,“o”

请注意

这里列出的图形属性只是一个子集。有关完整列表,请参见行属性.指定的属性决定诊断数据点的外观。

行颜色,指定为逗号分隔对,由“颜色”和RGB三元组、十六进制颜色代码、颜色名称或下表中列出的颜色选项的简短名称。

“颜色”名称-值对参数还确定标记轮廓颜色和标记填充颜色“MarkerEdgeColor”“汽车”(默认),“MarkerFaceColor”“汽车”

对于自定义颜色,指定RGB三元组或十六进制颜色代码。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(),然后是3个或6个十六进制数字,其范围可以是0F.这些值不区分大小写。因此,颜色是代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

“绿色” ‘g’ (0 1 0) “# 00 ff00”

“蓝” “b” (0 0 1) “# 0000 ff”

“青色” “c” (0 1 1) “# 00飞行符”

“红色” “米” (1 0 1) “#就”

“黄色” “y” (1 1 0) “# FFFF00”

“黑” “k” (0 0 0) # 000000的

“白色” ' w ' (1 1 1) “# FFFFFF”

“没有” 不适用 不适用 不适用 没有颜色

这里是RGB三联体和十六进制颜色代码的默认颜色MATLAB®用于许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

(0.8500 0.3250 0.0980) “# D95319”

(0.9290 0.6940 0.1250) “# EDB120”

(0.4940 0.1840 0.5560) “# 7 e2f8e”

(0.4660 0.6740 0.1880) “# 77 ac30”

(0.3010 0.7450 0.9330) “# 4 dbeee”

(0.6350 0.0780 0.1840) “# A2142F”

例子:“颜色”、“蓝”

行宽,指定为逗号分隔对,由“线宽”分数是正的。如果线有标记,那么线的宽度也会影响标记的边缘。

例子:“线宽”,0.75

标记符号,指定为逗号分隔对,由“标记”和这个表中的一个值。

价值 描述
“o”
“+” 加号
‘*’ 星号
“。”
“x” 交叉
“_” 水平线
“|” 垂直的线
“广场”“年代” 广场
“钻石”' d ' 钻石
“^” Upward-pointing三角形
“v” 向下的三角形
“>” 三点三角形
“<” 只左向三角形
五角星形的“p” 五角星(五角星形)
“卦”“h” 六芒星(六)
“没有” 没有标记

例子:“标记”,“+”

标记轮廓颜色,指定为逗号分隔对组成“MarkerEdgeColor”和RGB三元组、十六进制颜色代码、颜色名称或其中一种颜色选项的简短名称颜色名称-值对的论点。

的默认值“汽车”使用由using指定的相同颜色“颜色”

例子:“MarkerEdgeColor”、“蓝”

标记填充颜色,指定为逗号分隔对组成“MarkerFaceColor”和RGB三元组、十六进制颜色代码、颜色名称或其中一种颜色选项的简短名称颜色名称-值对的论点。

“汽车”值使用由using指定的相同颜色“颜色”

例子:“MarkerFaceColor”、“蓝”

标记大小,指定为逗号分隔对,由“MarkerSize”分数是正的。

例子:“MarkerSize”,2

输出参数

全部折叠

与绘图中的线或轮廓相对应的图形对象,作为图形数组返回。使用点表示法查询和设置图形对象的属性。有关详细信息,请参见行属性轮廓属性

可以使用名称-值对参数指定与第一个图形对象对应的诊断数据点的外观h (1).如果plottype“dfbetas”,图中每个系数都有一个直线对象。名称-值对参数指定所有系数的行对象属性。您可以使用相应的图形对象分别修改每个系数的属性。

更多关于

全部折叠

库克的距离

库克距离是拟合值的比例变化,这对识别异常值很有用X值(预测变量的观察值)。库克距离显示了每次观测对拟合响应值的影响。如果库克距离大于平均库克距离的三倍,则可能为异常值。

库克距离中的每一个元素D为由于删除观测值而拟合响应值的归一化变化。库克的观察距离

D j 1 n y j y j 2 p 年代 E ,

在哪里

  • y j j拟合响应值。

  • y j j拟合响应值,其中拟合不包括观测值

  • 均方误差为均方误差。

  • p为回归模型中系数的个数。

库克距离在代数上等价于:

D r 2 p 年代 E h 1 h 2 ,

在哪里rth残余,h2利用价值。

有关详细信息,请参见库克的距离

Delete-1统计

删除-1统计数据对于发现每个观察的影响是有用的。这些统计数据捕捉了将每个观测结果依次排除在适合范围之外所导致的变化。如果delete-1统计数据与使用所有观测值的模型显著不同,则该观测值是有影响的。

看到Delete-1统计关于delete-1统计的定义和用法。

利用

杠杆是对特定观察结果对回归预测的影响的度量,该影响是由该观察结果在输入空间中的位置决定的。

观察的作用价值是多少th对角线项h2帽子矩阵的H.这顶帽子矩阵H是用数据矩阵来定义的X

HXXTX1XT

帽子矩阵也被称为投影矩阵因为它将观测向量投射到预测向量上 y ,这样就给y戴上了“帽子”。

因为杠杆价值的总和是p(回归模型中系数的数目),一个观察如果其杠杆率大幅超过,能否被视为异常值p/n,在那里n为观察次数。

有关详细信息,请参见帽子矩阵和杠杆

提示

  • 数据游标在数据提示(位于数据点旁边的小文本框)中显示所选绘图点的值。数据提示包括x设在和y所选点的-axis值,以及观测名称或数字。

  • 使用传奇(显示)来显示预填充的图例。

选择功能

参考文献

Neter, J., M. H. Kutner, C. J. Nachtsheim, W. Wasserman。应用线性统计模型,第四版。芝加哥:麦格劳-希尔·欧文,1996。

扩展功能

介绍了R2012a