燃油经济性分析
本演示是对历史燃油经济性数据进行数据挖掘的示例。我们有从2000年到2012年生产的各种汽车的数据。
内容
将数据导入表
使用从导入工具中修改的自动生成功能从Excel导入
carData = importYearXLS(2007);
表总结
显示基本统计汇总
总结(carData (:, {“RatedHP”,“英里”,“二氧化碳”}))
变量:RatedHP: 2595x1 double值:min 76中位数236 max 631 MPG: 2595x1 double值:min 9.8中位数24.8 max 66.6 CO2: 2595x1 double值:min 131中位数352 max 878 NaNs 257
可视化
绘制MPG与额定马力
createMPGFigure (carData。RatedHP carData.MPG);
检查分类数据的分组效果
将汽车-卡车和城市-高速公路转换为分类。carData。Car_Truck = categorical(carData.Car_Truck);carData。City_Highway = categorical(carData.City_Highway);%为了提取所有的“cars”:carIDs = carData。Car_Truck = =“汽车”;为了提取“卡车”的“城市”数据:city_truckIDs = (carData.)City_Highway = =“城市”& carData。Car_Truck = =“卡车”);城市vs公路cityIDs = carData。City_Highway = =“城市”;highwayIDs = carData。City_Highway = =“高速公路”;
分布
检查MPG按城市或公路分组的分布情况
mpgDistribution (carData.MPG (cityIDs) carData.MPG (highwayIDs))
分组的可视化
分组散点图。
图gscatter (carData。RatedHP carData。英里/加仑,...{carData。Car_Truck carData。City_Highway},...”,“。”10“上”,的额定功率,“英里”)
看看其他数据:引擎压缩和二氧化碳。
然后按组显示散点图矩阵
图gplotmatrix ([carData。RatedHP carData。Comp]、[carData。英里/加仑,carData。二氧化碳),...{carData。Car_Truck carData。City_Highway},...”,“。”10“上”,”, {的额定功率,“压缩”}, {“英里”,“二氧化碳”})
分组统计
根据指定分组变量进行分组统计。
varfun (@mean carData,“数据源”, {“RatedHP”,“英里”},...“GroupingVariables”, {“City_Highway”,“Car_Truck”})
ans = City_Highway Car_Truck GroupCount mean_RatedHP mean_MPG ____________ _________ __________ ____________ ________ city_car city car 672 253.17 22.693 city_truck city truck 627 246.28 18.501 highway_car highway car 671 251.09 35.542 highway_truck highway truck 625 246.76 27.459
方差分析(ANOVA)
单向、2向和n向方差分析可用。
anovan (carData。{carData MPG。Car_Truck carData。City_Highway},...“varnames”, {”阿明费。类型的,“MPG类型”},...“模型”,“互动”);
箱线图
箱线图是分组统计的重要组成部分。它为分组效果提供了有用的可视化效果。
图箱线图(carData。{carData MPG。Car_Truck carData。City_Highway},“缺口”,“上”)
提取数据进行曲线拟合
为曲线拟合App创建这些变量
RatedHPCity = carData.RatedHP(cityIDs);MPGCity = carData.MPG(cityIDs);使用App开发曲线拟合。
曲线拟合
方程:
MPG = b1 + b2 * 1/额定hp
我们可以用曲线拟合工具来解决这个问题
cftool (carData。RatedHP carData.MPG)
下面是自动生成的m文件的修改版本cftool.
cf = createMPGFit(carData. cf = createMPGFit。RatedHP carData.MPG);
地块数据与模型
从曲线拟合工具箱的结果有一个情节以图形方式显示结果的方法。我们可以选择显示适合度的预测边界。
图hh = plot(cf,“r”, carData。RatedHP carData。英里/加仑,“predobs”, 0.95);hh(2)。LineWidth = 2;为Ii = [3 4] hh(Ii)。线型=“- - -”;hh (ii)。Color = [0 0.5 0];结束
数据与模型图(不同组)
我们将对不同组合组(汽车-卡车和城市-高速公路)的数据应用类似的建模技术
%建模不同的组合modelMPG (carData“汽车”,“城市”) modelMPG (carData“汽车”,“高速公路”) modelMPG (carData“卡车”,“城市”) modelMPG (carData“卡车”,“高速公路”)
ans =线性模型:ans (x) = a + b * 1 / x系数(95%置信界限):a = 10.12(9.528, 10.72) = 2663(2546、2779)ans =线性模型:ans (x) = a + b * 1 / x系数(95%置信界限):a = 21.33(20.58, 22.09) = 3005(2857、3153)ans =线性模型:ans (x) = a + b * 1 / x系数(95%置信界限):a = 8.473(7.579, 9.368) = 2314(2115、2514)ans =线性模型:ans (x) = a + b * 1 / x系数(95%置信范围):A = 16.26 (15.11, 17.42) b = 2589 (2332,2846)