Statistics and Machine Learning Toolbox™为训练线性回归模型提供了几个特性。
通过中维数据集的低维度更高准确,使用Fitlm.
.拟合模型后,您可以使用对象功能来改进,评估和可视化拟合模型。要定期回归,使用套索
或岭
.
为了减少在高维数据集上的计算时间,使用fitrlinear
.此函数为交叉验证,正常化和HyperParameter优化提供了有用的选项。
这个例子显示了使用线性回归分析的典型的工作流Fitlm.
.工作流程包括准备数据集,拟合线性回归模型,评估和改进拟合模型,并预测新的预测器数据的响应值。该示例还介绍了如何适应和评估高阵列的线性回归模型。
加载示例数据集NYCHousing2015
.
加载NYCHousing2015
数据集包括10个变量,其中包括2015年纽约市销售的信息。此示例使用其中一些变量来分析销售价格。
不必加载样本数据集NYCHousing2015
,您可以从数据NYC开放数据网站并如下导入数据。
文件夹='Annualized_Rolling_Sales_Update';ds = spreadsheetDatastore(文件夹,“texttype”那“细绳”那“numheaderlines”4);ds。文件= ds.Files(包含(ds.Files,“2015”));ds.selectedvariablenames = [“自治市镇”那“邻里”那“BuildingClasscategory”那“residentialunits”那......“观众”那“LANDSQUAREFEET”那“GROSSSQUAREFEET”那“YEARBUILT”那“SALEPRICE”那“发售日期”];NYCHousing2015 = readall (ds);
对数据集进行预处理,选择感兴趣的预测变量。首先,为便于阅读,将变量名改为小写。
nychousing2015.properties.variablenames = lower(nychousing2015.properties.variablenames);
接下来,转换发售日期
变量,指定为adatetime
数组,分为两个数字列毫米
(月)和DD.
(日),并删除发售日期
多变的。忽略年份值,因为所有样本都是2015年。
[〜,NYCHousing2015.MM,NYCHousing2015.DD] = YMD(NYCHousing2015.saledate);NYCHousing2015.saledate = [];
中的数值镇
可变指示行政区的名称。变量更改为使用名称的分类变量。
Nychousing2015.Borough =分类(Nychousing2015.Borough,1:5,......[“曼哈顿”那“布朗克斯”那“布鲁克林”那“皇后”那“斯塔滕岛”]);
这邻里
变量具有254级的类别。为简单起见,删除这个变量。
nychousing2015.neighborhood = [];
转换buildingclasscategory
变量到分类变量,并通过使用探索变量WordCloud.
功能。
nychousing2015.buildingclasscategory = patmorical(nychousing2015.buildingclasscategory);wordcloud(nychousing2015.buildingclasscategory);
假设您只在一个,两个和三个家庭住宅中感兴趣。找到这些住宅的示例指数并删除其他样本。然后,更改数据类型buildingclasscategory
变量来双倍的
.
idx = ismember(String(nychousing2015.buildingclasscategory),......[“01一个家庭住宅”那“02双户住宅”那“03三个家庭住宅”]);NYCHousing2015 = NYCHousing2015 (idx:);NYCHousing2015。buildingclasscategory = renamecats (NYCHousing2015.buildingclasscategory,......[“01一个家庭住宅”那“02双户住宅”那“03三个家庭住宅”],......[“1”那“2”那“3”]);NYCHousing2015.buildingclasscategory =双(NYCHousing2015.buildingclasscategory);
这buildingclasscategory
变量现在表示一户居民家的家庭数量。
探索响应变量销售价格
使用概括
功能。
s =总结(NYCHousing2015);s.saleprice
ans =.结构体字段:尺寸:[37881 1]类型:'双'描述:'单位:'''''''''''min:0中位数:352000 MAX:37000000 Nummissing:0
假设一个销售价格
小于或等于$ 1000表示没有现金对价过户。删除这个样本销售价格
.
IDX0 = NYCHousing2015.saleprice <= 1000;NYCHousing2015(IDX0,:) = [];
创建的直方图销售价格
多变的。
直方图(Nychousing2015.saleprice)
最大值销售价格
是
,但大多数值小于
.您可以识别的异常值销售价格
通过使用isoullier.
功能。
IDX = isoutlier(NYCHousing2015.saleprice);
删除已识别的异常值并再次创建直方图。
Nychousing2015(IDX,:) = [];直方图(Nychousing2015.saleprice)
将数据分区设置为培训集和测试集cvpartition
.
RNG('默认')重复性的%c = cvpartition(高度(NYCHousing2015),“坚持”,0.3);trainData = NYCHousing2015(训练(c)中,:);testdata = nychousing2015(测试(c),:);
拟合线性回归模型,利用Fitlm.
功能。
mdl = fitlm(traindata,“PredictorVars”, (“自治市镇”那“grosssquarefeet”那......“landsquarefeet”那“buildingclasscategory”那“yearbuilt”那“毫米”那“DD”],......“ResponseVar”那“销售价格”)
mdl =线性回归模型:销售价格~ 1 +自治区+建筑类别+土地平方英尺+总平方英尺+建成年+ MM + DDEstimate SE tStat pValue ___________ __________ ________ ___________(拦截)2.0345e+05 1.0308e+05 1.9736 0.048441 borough_Bronx -3.0165e+05 56676 -5.3224 1.0378e-07 borough_Brooklyn -41160 56490 -0.72862 0.46624 borough_Queens -91136 56537 -1.612 0.10699 borough_Staten Island -2.2199e+05 56726 -3.9134 9.1385e-05 buildingclasscategory 3165.73510.0.90185 0.36715 landsquarefeet 13.149 0.84534 15.555 3.714e-54 grosssquarefeet 112.9494 38.09 8.0393e-304 yearbuilt 100.07 45.464 2.201 0.02775 MM 3850.5 543.79 7.0808 1.4936e-12 DD -367.19 207.56 -1.7691 0.076896观测数:15848,误差自由度:15837均方根误差:2.32e+05 R-squared:F-statistic vs. constant model: 487, p-value = 0
mdl
是A.linearmodel.
对象。该模型显示包括模型公式,估计系数,和汇总统计。
镇
是一个类别变量,有五个类别:曼哈顿
那布朗克斯
那布鲁克林
那皇后
,斯塔滕岛
.适合的模型mdl
有四个指示器变量。这Fitlm.
函数使用第一类曼哈顿
作为参考水平,因此模型不包含参考水平的指标变量。Fitlm.
对于固定参考电平为零的指示器变量的系数。四个指示器变量的系数的值是相对于曼哈顿
.有关如何函数会将一个明确的预测,多看细节算法的Fitlm.
.
要了解如何解释在模型中显示的数值,请参阅解释线性回归结果.
您可以使用a的属性linearmodel.
对象研究了一个拟合的线性回归模型。对象属性包括有关系数估计,摘要统计,拟合方法和输入数据的信息。例如,您可以找到R形和调整的R线值rsquared.
财产。您可以通过Workspace浏览器或使用点符号访问属性值。
mdl.rsquared.
ans =.结构体字段:普通:0.2352调整:0.2348
模型显示还显示了这些值。R线值表示该模型在响应变量中解释了大约24%的变化。看特性A.linearmodel.
有关其他属性的详细信息。
模型显示屏显示了P.-每个系数的值。这P.-Values表示哪些变量对模型很重要。对于分类预测因子镇
,该模型使用了四个指针变量和显示器4P.- 值。为了检验分类变量作为一组指针变量,使用对象功能方差分析
.该函数返回的模型的方差分析(ANOVA)的统计分析。
方差分析(MDL)
ans =.8×5表SUMSQ DF MeanSq˚Fp值__________ _____ __________ _______ ___________市镇1.123e + 14 4 2.8076e + 13 520.96 0 buildingclasscategory 4.3833e + 10 1 4.3833e + 10 0.81334 0.36715 landsquarefeet 1.3039e + 13 1 1.3039e + 13 241.95 3.714e-54 grosssquarefeet7.8189e + 13 1 7.8189e + 13 1450.8 8.0393e-304 yearbuilt 2.6108e + 11 1 2.6108e + 11 4.8444 0.02775 MM 2.7021e + 12 1 2.7021e + 12 50.138 1.4936e-12 1.6867e DD + 11 1 + 1.6867e11 3.1297 0.076896错误8.535e + 14 15837 5.3893e + 10
这P.- 值对中的指示符变量borough_Brooklyn
和borough_Queens
很大,但是P.价值的镇
变量为一组4个指示变量的几乎为零,这表明镇
变量是统计学上的。
这P.- 值buildingclasscategory
和DD.
大于0.05,表明这些变量在5%的意义水平下不显着。因此,您可以考虑删除这些变量。
你也可以使用Coeffci.
那coeefTest
,DWTest.
进一步评估拟合模型。
一种linearmodel.
对象提供多个绘图函数。
当创建一个模型,使用plotadded.
要了解添加或删除预测变量的效果。
当验证模型时,使用plotdiagnostics.
找到可疑的数据并理解每个观察的效果。此外,使用plotresivs
分析模型的残差。
拟合模型后,使用plotadjustedresponse.
那绘图竞争依赖性
,料理缺点
来了解一个特定预测器的影响。使用plotInteraction
检验两个预测因子之间的相互作用。此外,使用plotslice.
通过预测表面绘制切片。
此外,阴谋
创建用于整个模型的附加变量曲线图,不同之处截距项,如果mdl
包括多个预测变量。
情节(mdl)
这个曲线相当于plotAdded(MDL)
.拟合线表示模型如何作为一组变量,可以解释响应变量。配合线的斜率不接近零,并且置信度绑定不包括水平线,表明模型比仅由恒定术语组成的简并模型更好。模型显示中显示的测试统计值(f统计量与常数模型
)还表明模型比退化模型更好。
创建微不足道的变量的添加变量阴谋buildingclasscategory
和DD.
.这P.这些变量的值大于0.05。首先,找到这些系数的索引MDL.Coeffitynames.
.
MDL.Coeffitynames.
ans =.1×11个细胞{'(拦截)'}{'borough_Bronx'} {'borough_Brooklyn'} {'borough_Queens'} {'borough_Staten Island'} {'buildingclass '} {'landsquarefeet'} {'grosssquarefeet'} {'yearbuilt'} {'MM'} {'DD'}
buildingclasscategory
和DD.
是第6和第11系数。为这两个变量创建一个添加的曲线。
plotAdded(MDL,[6,11])
拟合线的斜率接近于零,这表明从两个变量中的信息不解释不被其他预测解释所述响应的值的一部分。有关增加的可变情节的详细信息,请参阅添加了变量图.
创建模型残差的直方图。plotresivs
使用概率密度函数缩放绘制原始残差的直方图。
plotResiduals (mdl)
直方图表明,几个残留物小于 .识别这些异常值。
查找(mdl.residuals.raw <-1 * 10 ^ 6)
ans =.4×11327 4136 4997 13894
或者,您可以使用使用isoullier.
.指定'grubbs'
选择Grubb测试的选项。此选项适用于常数分布式数据集。
找到(isoutlier(mdl.Residuals.Raw,'grubbs')))
ans =.3×11327 4136 4997
这isoullier.
功能不识别残余的13894
作为一个局外人。这是残留接近-1
10
.显示剩余值。
mdl.Residuals.Raw (13894)
ans = -1.0720 e + 06
您可以使用使用时拟合线性回归模型时排除异常值'排除'名称值对参数。在这种情况下,示例调整拟合模型并检查改进的模型还可以解释异常值。
去除那个DD.
和buildingclasscategory
变量使用removeterms.
.
newmdl1 = removeterms(mdl,“DD + buildingclasscategory”)
newMdl1 =线性回归模型:销售价格~ 1 +自治区+土地平方英尺+总平方英尺+建成年+ MM估算SE tStat pValue ___________ __________ ________ __________(拦截)2.0529e+05 1.0274e+05 1.9981 0.045726 borough_Bronx -3.0038e+05 56675 -5.3 1.1739e-07 borough_Brooklyn -39704 56488 -0.70286 0.48215 borough_Queens -90231 56537 -1.596 0.11052 borough_Staten Island -2.2149e+05 56720 -3.9049 9.4652e-05 landsquarefeet 13.04 0.83912 15.544.6278e-54总平方英尺113.85 2.5078 45.396 0年建成96.649 45.395 2.1291 0.033265 MM 3875.6 543.49 7.131 1.0396e-12观测数:15848,误差自由度:15839均方根误差:2.32e+05 r平方:0.235,调整r平方:0.235 F-statistic vs. constant model: 608, p-value = 0
由于这两个变量在解释响应变量时不显著,r平方和调整的r平方值newMdl1
接近的值mdl
.
通过添加或删除变量来改进模型步
.该模型的默认上限是包含截距项的模型,每个预测器的线性术语以及所有不同预测器对的所有产品(没有平方项),默认下限是包含截距项的模型。下载188bet金宝搏指定要保持30的最大步数。当没有单步改善模型时,函数停止。
newMdl2 =步骤(newMdl1,“n步”, 30)
1.添加自治市镇:GROSSSQUAREFEET,FSTAT = 58.7413,PVALUE = 2.63078E-49 2.添加自治市镇:年结束,FSTAT = 31.5067,PVALUE = 3.50645E-26 3.添加自治市镇:LANDSQUAREFEET,FSTAT = 29.5473,PVALUE = 1.60885E-24 4.添加GROSSSQUAREFEET:年内,FSTAT = 69.312,PVALUE = 9.08599E-17 5.添加LANDSQUAREFEET:GROSSSQUAREFEET,FSTAT = 33.2929,PVALUE = 8.07535E-09 6.添加LANDSQUAREFEET:年结束,FSTAT = 45.2756,PVALUE = 1.7704E-11 7.添加年内:mm,fstat = 18.0785,pvalue = 2.13196e-05 8.添加residentialunits,fstat = 16.0491,pvalue = 6.20026e-05 9.添加residentialunits:landsquarefeet,fstat = 160.2601,pvalue = 1.49309e-3.6.10。一种dding residentialunits:grosssquarefeet, FStat = 27.351, pValue = 1.71835e-07 11. Adding commercialunits, FStat = 14.1503, pValue = 0.000169381 12. Adding commercialunits:grosssquarefeet, FStat = 25.6942, pValue = 4.04549e-07 13. Adding borough:commercialunits, FStat = 6.1327, pValue = 6.3015e-05 14. Adding buildingclasscategory, FStat = 11.1412, pValue = 0.00084624 15. Adding buildingclasscategory:landsquarefeet, FStat = 66.9205, pValue = 3.04003e-16 16. Adding buildingclasscategory:yearbuilt, FStat = 15.0776, pValue = 0.0001036 17. Adding buildingclasscategory:grosssquarefeet, FStat = 18.3304, pValue = 1.86812e-05 18. Adding residentialunits:yearbuilt, FStat = 15.0732, pValue = 0.00010384 19. Adding buildingclasscategory:residentialunits, FStat = 13.5644, pValue = 0.00023129 20. Adding borough:buildingclasscategory, FStat = 2.8214, pValue = 0.023567 21. Adding landsquarefeet:MM, FStat = 4.9185, pValue = 0.026585 22. Removing grosssquarefeet:yearbuilt, FStat = 1.6052, pValue = 0.20519
newMdl2 =线性回归模型:saleprice ~ 1 +区* buildingclasscategory +区* commercialunits +区* landsquarefeet +区* grosssquarefeet +区* yearbuilt + buildingclasscategory * residentialunits + buildingclasscategory * landsquarefeet + buildingclasscategory * grosssquarefeet + buildingclasscategory * yearbuilt + residentialunits * landsquarefeet +住宅单位*总平方英尺+住宅单位*建成年+商业单位*总平方英尺+土地平方英尺*建成年+土地平方英尺*MM +建成年*MM估计系数:估算SE tStat pValue ___________ __________ ________ __________(拦截)2.2152 2e+07 1.318e+07 1.6808 0.092825 borough_Bronx -2.3263e+07 1.3176e+07 -1.7656 0.077486 borough_Brooklyn -1.8935e+07 1.3174e+07 -1.4373 0.15064 borough_Queens -2.1757e+07 1.3173e+07 -1.6516 0.098636 borough_Staten Island -2.3471e+07 1.3177e+07 -1.7813 0.074891建筑类类别-7.2403e+05 1.9374e+05 -3.737 0.00018685住宅单元6.1912e+05 1.2399e+05 4.9932 6.003e-07商业单元4.2016e+05 1.2815e+05 3.2786 0.0010456土地平方英尺-390.54 96.349 -4.0535 5.0709e-05 grosssquare平方英尺189.33 83.723 2.2614 0.023748年建成-11556 6958.7 -1.6606 0.096805 MM 95189borough_Bronx:buildingclasscategory -1.1972e+05 1.0481e+05 -1.1422 0.25338 borough_Brooklyn:buildingclasscategory -1.4154e+05 1.0448e+05 -1.3548 0.17551 borough_Queens:buildingclasscategory -1.1597e+05 1.0454e+05 -1.1093 0.2673 borough_Staten Island:buildingclasscategory -1.1851e+05 1.0513e+05 -1.1273 0.25964 borough_Bronx:commercialunitsborough_Brooklyn:commercialunits - 3.8288 e+05 1.2835e+05 -2.9784 0.0020008 borough_Staten Island:commercialunits -4.9381e+05 1.353e+05 -3.0906 0.0020008 borough_Bronx:landsquarefeet 121.81 77.442 1.573 0.11574borough_Brooklyn: landsquarefeet 113.09 77.413 1.4609 0.14405 borough_Queens: landsquarefeet 99.894 77.374 1.2911 0.1967 borough_Staten岛:landsquarefeet 84.508 77.376 1.0922 0.27477 borough_Bronx: grosssquarefeet -55.417 83.412 -0.66437 0.50646 borough_Brooklyn: grosssquarefeet 6.4033 83.031 0.077119 0.93853 borough_Queens: grosssquarefeet 38.2883.144 0.46041 0.64523 borough_Staten Island:grosssquarefeet 12.539 83.459 0.15024 0.88058 borough_Bronx:yearbuilt 12121 6956.8 1.7422 0.081485 borough_Brooklyn:yearbuilt 9986.5 6955.8 1.4357 0.1511 borough_Queens:yearbuilt 11382 6955.3 1.6364 0.10177 borough_Staten Island:yearbuilt 12237 6957.1 1.7589 0.078613建筑类别:住宅单元21392 5465 3.9143 9.1041e-05建筑类别:土地平方英尺-13.099 2.0014 -6.545 6.1342e-11建筑类别:总平方英尺-30.087 5.2786 -5.6998 1.2209e-08建筑类别:年建462.31 85.912 5.3813 7.5021e-08住宅单元:土地平方英尺-1.0826 0.13896 -7.7911 7.0554e-15 residentialunits:grosssquarefeet -5.1192 1.7923 -2.8563 0.0042917 residentialunits:yearbuilt -326.69 63.556 -5.1403 2.7762e-07 commercialunits:grosssquarefeet -29.839 5.0231 -5.9403 2.9045e-09 landsquarefeet:grosssquarefeet -0.0055199 0.0010364 -5.3262 1.0165e-07 landsquarefeet:yearbuilt 0.1766 0.030902 5.7151 1.1164e-08 landsquarefeet:MM 0.6595 0.30229 2.1817 0.029145 yearbuilt:MM -47.944 16.392 -2.9248 0.0034512 Number of observations: 15848, Error degrees of freedom: 15804 Root Mean Squared Error: 2.25e+05 R-squared: 0.285, Adjusted R-Squared: 0.283 F-statistic vs. constant model: 146, p-value = 0
R形和调整的R线值值newMdl2
比的值越大newMdl1
.
通过使用创建模型残差的直方图plotresivs
.
plotresids(newmdl2)
的残差直方图newMdl2
是对称的,没有异常值。
你也可以使用addTerms
添加特定条款。或者,您可以使用步骤行程
在启动模型中指定术语并继续使用逐步回归来改进模型。
预测对测试数据集的响应测试数据
通过使用拟合模型newMdl2
和对象功能预测
到
ypred =预测(newmdl2,testdata);
绘制测试数据集的残差直方图。
errs = ypred - testData.saleprice;直方图(错)标题(“残留的直方图 - 测试数据”)
残余值有几个异常值。
错(isoutlier(犯错误,'grubbs')))
ans =.6×1107.×0.1788 -0.4688 -1.2981 0.1019 0.1122 0.1331
这Fitlm.
功能支持高存储器数金宝app据,具有一些限制。对于高数据,Fitlm.
返回A.CompactLinearModel.
对象,其中包含多数相同属性作为的linearmodel.
对象。主要的区别是紧凑对象对内存需求很敏感。compact对象没有包含数据或包含与数据大小相同的数组的属性。因此,一些linearmodel.
需要数据的对象功能不使用紧凑的模型。看对象功能获取受支持的对象函数列表。金宝app同时,看到高阵列用于使用说明和限制Fitlm.
适合个子高的数组。
当您对高阵列执行计算时,Matlab®使用并行池(如果您有并行计算工具箱™)或本地MATLAB会话,则使用并行池(默认值)。如果要使用“本地MATLAB会话”会话有并行计算工具箱运行示例,则可以使用“使用本地计算”工具箱更改全局执行环境Mapreducer.
功能。
假设在数据存储的所有数据DS.
不适合记忆。您可以使用高的
代替readall
阅读DS.
.
NYCHousing2015 =高(DS);
对于此示例,请转换内存表NYCHousing2015
把它放在一张高桌子上高的
功能。
NYCHousing2015_t =高(NYCHousing2015);
使用“本地”配置文件启动并行池(Parpool)连接到并行池(工人数:6)。
分区中的数据集分成训练组和测试组。当你使用时cvpartition
使用高阵列,该函数将基于提供为第一个输入参数的变量进行数据集。对于分类问题,您通常使用响应变量(分组变量)并创建一个随机分层分区,以获得所有组的训练和测试集之间的分发。对于回归问题,这种分层并不充分,您可以使用'分层'
名称 - 值对参数关闭选项。
在本例中,指定预测器变量NYCHousing2015_t.borough
作为第一个输入自治电区分发的第一个输入论点,在训练和测试集中大致相同。的再现性,使用设定的随机数发生器的种子tallrng
.结果可以根据工人数量和高大阵列的执行环境而有所不同。有关详细信息,请参阅控制代码运行的位置.
tallrng ('默认')重复性的%C = cvpartition(NYCHousing2015_t.borough,“坚持”,0.3);TrainData_T = Nychousing2015_t(培训(C),:);testdata_t = nychousing2015_t(测试(c),:);
因为Fitlm.
为高数组返回一个紧凑模型对象,因此不能使用步
功能。相反,您可以通过使用对象功能的探索模型参数,然后根据需要调整模型。您也可以收集数据的一个子集到工作区,使用步骤行程
来迭代开发在内存中的模型,然后再扩展到使用高大的阵列。有关详细信息,请参阅的模型开发使用高数组的大数据统计和机器学习.
在本例中,使用的模型公式拟合一个线性回归模型newMdl2
.
mdl_t = fitlm(traindata_t,newmdl2.formula)
评估使用并行池“本地”高表达: - 的1遍1:在7.4秒评价完成在9.2秒完成
mdl_t =紧凑的线性回归模型:saleprice〜1 +市镇* buildingclasscategory +市镇* commercialunits +市镇* landsquarefeet +市镇* grosssquarefeet +市镇* yearbuilt + buildingclasscategory * residentialunits + buildingclasscategory * landsquarefeet + buildingclasscategory * grosssquarefeet + buildingclasscategory * yearbuilt + residentialunits * landsquarefeet+ residentialunits * grosssquarefeet + residentialunits * yearbuilt + commercialunits * grosssquarefeet + landsquarefeet * grosssquarefeet + landsquarefeet * yearbuilt + landsquarefeet * MM + yearbuilt * MM估计系数:估计SE TSTAT p值___________ __________ ________ __________(截距)-1.3301e + 06 5.1815e +05 -2.567 0.010268 borough_Brooklyn 4.2583e + 06 4.1808e + 05 10.185 2.7392e-24 borough_Manhattan 2.2758e + 07 1.3448e + 07 1.6923 0.090614 borough_Queens 1.1395e + 06 4.1868e + 05 2.7216 0.0065035 borough_Staten岛-1.1196e + 05 4.6677e +05 -0.23986 0.81044 buildingclasscategory -8.08e + 05 1.6219e + 05 -4.9817 6.3705e-07řesidentialunits 6.0588e + 05 1.2669e + 05 4.7822 1.7497e-06 commercialunits 80197 53311 1.5043 0.13252 landsquarefeet -279.94 53.913 -5.1925 2.1009e-07 170.02 grosssquarefeet 13.996 12.147 8.3837e-34 yearbuilt 683.49 268.34 2.5471 0.010872 MM 86488 32725 2.6428 0.0082293 borough_Brooklyn:buildingclasscategory-9852.4 12048 -0.81773 0.41352 borough_Manhattan:buildingclasscategory 1.3318e + 05 1.3592e + 05 0.97988 0.32716 borough_Queens:buildingclasscategory 15621 11671 1.3385 0.18076 borough_Staten岛:buildingclasscategory 15132 14893 1.016 0.30964 borough_Brooklyn:commercialunits -22060 43012 -0.51289 0.60804 borough_Manhattan:commercialunits 4.8349e + 052.1757e + 05 2.2222 0.026282 borough_Queens:commercialunits -42023 44736 -0.93936 0.34756 borough_Staten岛:commercialunits -1.3382e + 05 56976 -2.3487 0.018853 borough_Brooklyn:landsquarefeet 9.8263 5.2513 1.8712 0.061335 borough_Manhattan:landsquarefeet -78.962 78.445 -1.0066 0.31415 borough_Queens:landsquarefeet -3.0855 3.9087-0.78939 0。4299 borough_Staten Island:landsquarefeet -17.325 3.5831 -4.8351 1.3433e-06 borough_Brooklyn:grosssquarefeet 37.689 10.573 3.5646 0.00036548 borough_Manhattan:grosssquarefeet 16.107 82.074 0.19625 0.84442 borough_Queens:grosssquarefeet 70.381 10.69 6.5837 4.7343e-11 borough_Staten Island:grosssquarefeet 36.396 12.08 3.0129 0.0025914 borough_Brooklyn:yearbuilt -2110.1 216.32 -9.7546 2.0388e-22 borough_Manhattan:yearbuilt -11884 7023.9 -1.692 0.090667 borough_Queens:yearbuilt -566.44 216.89 -2.6116 0.0090204 borough_Staten Island:yearbuilt 53.714 239.89 0.22391 0.82283 buildingclasscategory:residentialunits 24088 5574 4.3215 1.5595e-05 buildingclasscategory:landsquarefeet 5.7964 5.8438 0.9919 0.32126 buildingclasscategory:grosssquarefeet -47.079 5.2884 -8.9023 6.0556e-19 buildingclasscategory:yearbuilt 430.97 83.593 5.1555 2.56e-07 residentialunits:landsquarefeet -21.756 5.6485 -3.8517 0.00011778 residentialunits:grosssquarefeet 4.584 1.4586 3.1427 0.0016769 residentialunits:yearbuilt -310.09 65.429 -4.7393 2.1632e-06 commercialunits:grosssquarefeet -27.839 11.463 -2.4286 0.015166 landsquarefeet:grosssquarefeet -0.0068613 0.00094607 -7.2524 4.2832e-13 landsquarefeet:yearbuilt 0.17489 0.028195 6.2028 5.6861e-10 landsquarefeet:MM 0.70295 0.2848 2.4682 0.013589 yearbuilt:MM -43.405 16.871 -2.5728 0.010098 Number of observations: 15849, Error degrees of freedom: 15805 Root Mean Squared Error: 2.26e+05 R-squared: 0.277, Adjusted R-Squared: 0.275 F-statistic vs. constant model: 141, p-value = 0
mdl_t.
是A.CompactLinearModel.
对象。mdl_t.
是不是完全一样newMdl2
因为从高表获得的分区训练数据集与来自内存中数据集的划分的数据集不相同。
你不能使用plotresivs
函数创建模型残差的直方图,因为mdl_t.
是一个紧凑的对象。相反,直接从致密天体计算的残差,并使用创建直方图直方图
.
mdl_t_Residual = trainData_t.saleprice - 预测(mdl_t,trainData_t);直方图(mdl_t_Residual)
使用并行池“本地”评估高表达: - PASS 1的2:在2.5秒内完成 - PASS 2的2:0.63秒评估完成3.8秒
标题(“残留 - 火车数据的直方图”)
预测对测试数据集的响应testData_t
通过使用预测
.
ypred_t = predict(mdl_t,testdata_t);
绘制测试数据集的残差直方图。
errs_t = ypred_t - testData_t.saleprice;直方图(errs_t)
使用Parallel Pool 'local'计算tall表达式
- 通过1分:6%完整评估3%完成
- 的2遍1:在0.79秒已完成 - 通行证2 2的:在0.55秒评价完成在2秒完成
标题(“残留的直方图 - 测试数据”)
可以使用。进一步评估拟合模型CompactLinearModel.
对象的功能。有关的示例,请参见评估和调整模型使用高数组的大数据统计和机器学习.
CompactLinearModel.
|Fitlm.
|isoullier.
|linearmodel.