主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

LinearModel

선형회귀모델

설명

LinearModel은피팅된선형회귀모델객체입니다。회귀모델은응답변수와예측변수사이의관계를설명합니다。선형회귀모델의선형성은예측변수계수의선형성을가리킵니다。

LinearModel객체의속성을사용하여피팅된선형회귀모델을조사하십시오。객체속성에는계수추정값,요약통계량,피팅방법및입력데이터에대한정보가포함됩니다。객체함수를사용하여응답변수를예측하고선형회귀모델을수정,평가및시각화하십시오。

생성

LinearModel객체는fitlm또는stepwiselm을사용하여생성할수있습니다。

fitlm은고정된모델사양을사용하여선형회귀모델을데이터에피팅합니다。모델에서항을추가하거나제거하려면addTermsremoveTerms또는一步을사용하십시오。또는단계적선형회귀를사용하여모델을피팅하려면stepwiselm을사용하십시오。

속성

모두확장

계수추정값

이속성은읽기전용입니다。

계수추정값으로구성된공분산행렬로,숫자형값으로구성된p×행렬로지정됩니다。p는피팅된모델에포함된계수의개수입니다。

자세한내용은标准误差和置信区间항목을참조하십시오。

데이터형:|

이속성은읽기전용입니다。

계수이름으로,각각대응되는항의이름을포함하는문자형벡터로구성된셀형배열로지정됩니다。

데이터형:细胞

이속성은읽기전용입니다。

계수값으로,테이블로지정됩니다。系数는각계수에대해하나의행과다음과같은열을포함합니다。

  • 估计——추정된계수값

  • SE——추정값의표준오차

  • tStat0 -계수가인지를확인하는검정에대한t -통계량

  • pValue——t -통계량에대한p -값

계수에대해다른검정을수행하려면方差分析(선형회귀모델만해당)또는coefTest를사용하십시오。계수추정값의신뢰구간을구하려면coefCI를사용하십시오。

이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl에서추정된계수벡터를얻습니다。

β= mdl.Coefficients.Estimate

데이터형:表格

이속성은읽기전용입니다。

모델계수의개수로,양의정수로지정됩니다。NumCoefficients는모델항이랭크부족인경우0으로설정되는계수를포함합니다。

데이터형:

이속성은읽기전용입니다。

모델에서추정된계수의개수로,양의정수로지정됩니다。NumEstimatedCoefficients는모델항이랭크부족인경우0으로설정되는계수를포함하지않습니다。NumEstimatedCoefficients는회귀에대한자유도입니다。

데이터형:

요약통계량

이속성은읽기전용입니다。

오차(잔차)에대한자유도로,관측값개수에서추정된계수개수를뺀값과같으며,양의정수로지정됩니다。

데이터형:

이속성은읽기전용입니다。

관측값진단으로,각관측값에대해하나의행과다음표에설명된열을포함하는테이블로지정됩니다。

의미 설명
利用 HatMatrix의대각선요소 각관측값에대한利用는관측된예측변수값에의해피팅이결정되는정도를나타냅니다。값이1에가까우면피팅이다른관측값의영향을거의받지않고주로해당관측값에의해결정됨을나타냅니다。값이0에가까우면피팅이주로다른관측값에의해결정됨을나타냅니다。P개의계수와N개의관측값이있는모델의경우,利用의평균값은P / N입니다。2 * P / N보다큰利用값은높은지렛대값을나타냅니다。
CooksDistance 쿡의거리 CooksDistance는피팅된값의스케일링된변화량에대한측정값입니다。CooksDistance가평균쿡의거리(库克的距离)의세배보다큰관측값은이상값일수있습니다。
Dffits 피팅된값의Delete-1스케일링된차분 Dffits는각관측값에대해피팅된값의스케일링된변화량으로,피팅에서해당관측값을제외시키면얻게됩니다。절댓값이2 *倍根号(P / N)보다큰값은영향점으로간주될수있습니다。
S2_i Delete-1분산 S2_i는각관측값을차례로삭제하여구한잔차분산추정값집합입니다。이러한추정값을均方误差속성에저장된평균제곱오차(MSE)값과비교할수있습니다。
CovRatio 공분산행렬식의Delete-1비율 CovRatio는전체모델에대한공분산행렬의행렬식에대해각관측값을차례로삭제한계수공분산행렬의행렬식비율입니다。1 + 3 * P / N보다크거나1 - 3 * P / N보다작은값은영향점을나타냅니다。
Dfbetas 계수추정값의Delete-1스케일링된차분 Dfbetas는계수추정값의스케일링된변화량으로구성된N×P행렬로,각관측값을차례로제외시켜얻을수있습니다。절댓값이3 /√(N)보다큰값은관측값이해당계수에미치는영향이크다는것을나타냅니다。
HatMatrix 관측된응답변수에서安装를계산하기위한투영행렬 HatMatrix安装= HatMatrix * Y를충족하는N×N행렬이며,여기서Y는응답변수벡터이고安装는피팅된응답변수값으로구성된벡터입니다。

诊断는이상값및영향관측값을구하는데도움이되는정보를포함합니다。Delete-1진단은피팅에서각관측값을차례로제외시켜얻은변화량을캡처합니다。자세한내용은帽子矩阵和杠杆库克的距离Delete-1统计항목을참조하십시오。

관측값진단을플로팅하려면plotDiagnostics를사용하십시오。

누락값(ObservationInfo。失踪에있음)또는제외된값(ObservationInfo。被排除在外)에있음으로인해피팅에사용되지않은행에는CooksDistanceDffitsS2_iCovRatio열에값이포함되고利用DfbetasHatMatrix열0에이포함됩니다。

이러한열중하나를배열로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl에서Delete-1분산벡터를구합니다。

S2i = mdl.Diagnostics.S2_i;

데이터형:表格

이속성은읽기전용입니다。

입력데이터를기준으로피팅된(예측된)응답변수값으로,n×1숫자형벡터로지정됩니다。n은입력데이터에포함된관측값개수입니다。预测를사용하여다른예측변수값에대한예측값을계산하거나安装에대한신뢰한계를계산할수있습니다。

데이터형:|

이속성은읽기전용입니다。

응답변수값의로그가능도로,각응답변수값이정규분포를따른다는가정에기반하여숫자형값으로지정됩니다。정규분포의평균은피팅된(예측된)응답변수값이고,분산은均方误差입니다。

데이터형:|

이속성은읽기전용입니다。

모델비교기준으로,다음필드를가진구조체로지정됩니다。

  • 另类投资会议-아카이케정보기준(AIC: Akaike信息准则)으로AIC = -2 *logL + 2*m입니다。여기서logL은로그가능도이며은추정된모수의개수입니다。

  • AICc——표본크기에대해수정된아카이케정보기준으로AIC = AIC + (2*m*(m + 1))/(n - m - 1)입니다。여기서n은관측값개수입니다。

  • BIC——베이즈정보기준(BIC:贝叶斯信息准则)으로BIC = -2 *logL + m*log(n)입니다。

  • 中安集团经贸——일관된아카이케정보기준으로CAIC = -2 *logL + m*(log(n) + 1)입니다。

정보기준은동일한데이터에대한여러모델피팅을비교하는데사용할수있는모델선택도구입니다。이기준은복잡도(특히모수개수)에대한벌점을포함하는모델피팅에대한가능도기반측정값입니다。각기다른정보기준은벌점형식으로구분됩니다。

여러모델을비교할때는정보기준값이가장낮은모델이가장적합한피팅모델입니다。최적의피팅모델은모델비교에사용된기준에따라다를수있습니다。

기준값중하나를스칼라로구하려면점표기법을사용하여속성을참조하십시오。예를들어,다음과같이모델mdl에서AIC값另类投资会议를구합니다。

aic = mdl.ModelCriterion.AIC

데이터형:结构体

이속성은읽기전용입니다。

평균제곱오차(잔차)로,숫자형값으로지정됩니다。

Mse = sse / dfe,

여기서MSE는평균제곱오차이고,上交所는제곱오차의합이며,教育部는자유도입니다。

데이터형:|

이속성은읽기전용입니다。

피팅된모델의잔차로,각관측값에대해하나의행과다음표에설명된열을포함하는테이블로지정됩니다。

설명
관측값에서피팅값을뺀값입니다。
皮尔森 원시잔차를평균제곱오차의제곱근(RMSE)으로나눈값입니다。
标准化 원시잔차를잔차의추정된표준편차로나눈값입니다。
Studentized 원시잔차를잔차표준편차에대한독립적인추정값으로나눈값입니다。관측값我에대한잔차를관측값我를제외한모든관측값을기반으로하는오차표준편차의추정값으로나누어얻습니다。

잔차에대한플롯을생성하려면plotResiduals를사용하십시오。자세한내용은残差항목을참조하십시오。

누락값(ObservationInfo。失踪에있음)또는제외된값(ObservationInfo。被排除在外)에있음으로인해피팅에사용되지않은행에는값이포함됩니다。

이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl에서원시잔차벡터r을구합니다。

r = mdl.Residuals.Raw

데이터형:表格

이속성은읽기전용입니다。

평균제곱오차(잔차)의제곱근으로,숫자형값으로지정됩니다。

RMSE = sqrt (MSE),

여기서RMSE는평균제곱오차의제곱근이고MSE는평균제곱오차입니다。

데이터형:|

이속성은읽기전용입니다。

모델에대한결정계수값으로,다음두필드를가지는구조체로지정됩니다。

  • 普通的——일반(수정되지않은)결정계수

  • 调整——계수개수에대해수정된결정계수

결정계수값은모델로설명되는총제곱합의비율입니다。일반결정계수값은苏维埃社会主义共和国속성및风场속성과관련이있습니다。

Rsquared = SSR /风场

여기서风场는총제곱합이고,苏维埃社会主义共和国은제곱의회귀합입니다。

자세한내용은결정계수(R제곱)항목을참조하십시오。

이러한값중하나를스칼라로얻으려면점표기법을사용하여속성을참조하십시오。예를들어,다음과같이모델mdl에서수정된결정계수값을구합니다。

r2 = mdl.Rsquared.Adjusted

데이터형:结构体

이속성은읽기전용입니다。

제곱오차(잔차)의합으로,숫자형값으로지정됩니다。

피타고라스정리는다음을의미합니다。

SST = sse + SSR

여기서风场는총제곱합이고,上交所는제곱오차의합이고,苏维埃社会主义共和国은제곱의회귀합입니다。

데이터형:|

이속성은읽기전용입니다。

회귀제곱합으로,숫자형값으로지정됩니다。제곱의회귀합은평균과피팅된값간의편차에대한제곱합과같습니다。

피타고라스정리는다음을의미합니다。

SST = sse + SSR

여기서风场는총제곱합이고,上交所는제곱오차의합이고,苏维埃社会主义共和国은제곱의회귀합입니다。

데이터형:|

이속성은읽기전용입니다。

총제곱합으로,숫자형값으로지정됩니다。총제곱합은意思是(y)와응답변수벡터y간의편차에대한제곱합과같습니다。

피타고라스정리는다음을의미합니다。

SST = sse + SSR

여기서风场는총제곱합이고,上交所는제곱오차의합이고,苏维埃社会主义共和国은제곱의회귀합입니다。

데이터형:|

피팅방법

이속성은읽기전용입니다。

로버스트피팅정보로,다음표에설명된필드를가지는구조체로지정됩니다。

필드 설명
WgtFun 로버스트가중치함수。“bisquare”를예로들수있습니다(“RobustOpts”참조)。
调优 조율상수。WgtFun“ols”이거나WgtFun1이디폴트조율상수가인사용자지정가중치함수에대한함수핸들인경우이필드는비어있습니다([]).
权重 로버스트피팅의최종반복에사용되는가중치로구성된벡터。CompactLinearModel객체의경우이필드는비어있습니다。

로버스트회귀를사용하여모델을생성하지않으면이구조체는비어있습니다。

데이터형:结构体

이속성은읽기전용입니다。

단계적피팅정보로,다음표에설명된필드를갖는구조체로지정됩니다。

필드 설명
开始 시작모델을나타내는식
较低的 하한모델을나타내는식。较低的의항들은모델에서유지되어야합니다。
상한모델을나타내는식。모델은보다더많은항을포함할수없습니다。
标准 단계별알고리즘에사용되는기준(예:上交所的
被关闭的 标准이항을추가할분계점
PRemove 标准이항을제거할분계점
历史 피팅에서수행하는단계를나타내는테이블

历史테이블은초기피팅을포함하여각단계에대해하나의행과다음표에설명된열을포함합니다。

설명
行动

해당단계에서수행되는동작:

  • “开始”——첫번째단계

  • “添加”——항이추가됨

  • “删除”——항이제거됨

TermName
  • 行动“开始”이면TermName은시작모델사양을지정합니다。

  • 行动“添加”또는“删除”이면TermName은해당단계에서추가되거나제거되는항을지정합니다。

条款 항행렬의모델사양
DF 해당단계이후의회귀자유도
delDF 이전단계에비해달라진회귀자유도의변화량(항을제거하는단계의경우음수임)
异常 해당단계에서의이탈도,즉잔차제곱합(일반화선형회귀모델만해당)
函数 해당단계로이어지는F——통계량
PValue F——통계량의p——값

단계적회귀를사용하여모델을피팅하지않는한,구조체는비어있습니다。

데이터형:结构体

입력데이터

이속성은읽기전용입니다。

모델정보로,LinearFormula객체로지정됩니다。

다음과같이점표기법을사용하여피팅된모델mdl의수식을표시합니다。

mdl。Formula

이속성은읽기전용입니다。

피팅함수가피팅에사용하는관측값개수로,양의정수로지정됩니다。NumObservations는원래테이블,데이터셋또는행렬에제공된관측값개수에서제외된행(“排除”이름——값쌍의인수로설정됨)또는누락값이있는행을뺀값입니다。

데이터형:

이속성은읽기전용입니다。

모델을피팅하는데사용되는예측변수의개수로,양의정수로지정됩니다。

데이터형:

이속성은읽기전용입니다。

입력데이터에포함되는변수의개수로,양의정수로지정됩니다。NumVariables는원래테이블또는데이터셋에포함된변수의개수이거나예측변수행렬및응답변수벡터에포함된열의총개수입니다。

NumVariables는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。

데이터형:

이속성은읽기전용입니다。

관측값정보로,n×4테이블로지정됩니다。여기서n은입력데이터의행개수와같습니다。ObservationInfo는다음표에설명된열을포함합니다。

설명
权重 관측값가중치로,숫자형값으로지정됩니다。디폴트값은1입니다。
被排除在外 제외된관측값에대한표시자로,논리값으로지정됩니다。“排除”이름——값쌍의인수를사용하여피팅에서관측값을제외한경우값은真正的입니다。
失踪 누락관측값에대한표시자로,논리값으로지정됩니다。관측값이누락된경우값은真正的입니다。
子集 피팅함수가관측값을사용하는지여부를나타내는표시자로,논리값으로지정됩니다。관측값이제외되지않거나누락값이아닌경우,즉피팅함수가해당관측값을사용하는경우값은真正的입니다。

이러한열중하나를벡터로얻으려면점표기법을사용하여속성의요소를참조하십시오。예를들어,다음과같이모델mdl의가중벡터w를구합니다。

w = mdl.ObservationInfo.Weights

데이터형:表格

이속성은읽기전용입니다。

관측값이름으로,피팅에사용되는관측값의이름을포함하는문자형벡터로구성된셀형배열로지정됩니다。

  • 피팅이관측값이름을포함하는테이블또는데이터셋을기반으로하는경우ObservationNames는이이름을사용합니다。

  • 그렇지않은경우ObservationNames는빈셀형배열입니다。

데이터형:细胞

이속성은읽기전용입니다。

모델을피팅하는데사용되는예측변수의이름으로,문자형벡터로구성된셀형배열로지정됩니다。

데이터형:细胞

이속성은읽기전용입니다。

응답변수이름으로,문자형벡터로지정됩니다。

데이터형:字符

이속성은읽기전용입니다。

变量에포함된변수에대한정보로,각변수에대해하나의행과다음표에설명된열을갖는테이블로지정됩니다。

설명
변수클래스로,문자형벡터로구성된셀형배열로지정됩니다(예:“双”“分类”).
范围

변수범위로,벡터로구성된셀형배열로지정됩니다。

  • 연속형변수(최솟값과최댓값으로구성된,요소를2개가진벡터最小值马克斯

  • 범주형변수-고유한변수값으로구성된벡터

InModel 피팅된모델에어느변수가포함되었는지에대한표시자로,논리형벡터로지정됩니다。모델이변수를포함하는경우값은真正的입니다。
IsCategorical 범주형변수에대한표시자로,논리형벡터로지정됩니다。변수가범주형인경우값은真正的입니다。

VariableInfo는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。

데이터형:表格

이속성은읽기전용입니다。

변수의이름으로,문자형벡터로구성된셀형배열로지정됩니다。

  • 피팅이테이블또는데이터셋을기반으로하는경우이속성은해당테이블또는데이터셋의변수의이름을제공합니다。

  • 피팅이예측변수행렬과응답변수벡터를기반으로하는경우VariableNames는피팅방법의“VarNames”이름——값쌍의인수로지정된값을포함합니다。“VarNames”의디폴트값은{x1, x2,…,‘xn’,‘y’}입니다。

VariableNames는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。

데이터형:细胞

이속성은읽기전용입니다。

입력데이터로,테이블로지정됩니다。变量는예측변수값과응답변수값을모두포함합니다。피팅이테이블또는数据集형배열을기반으로하는경우变量는해당테이블또는数据集형배열의모든데이터를포함합니다。그렇지않은경우变量는입력데이터행렬X와응답변수벡터y에서생성되는테이블입니다。

变量는예측변수또는응답변수로모델을피팅하는데사용되지않은변수도포함합니다。

데이터형:表格

객체함수

모두확장

紧凑的 紧线性回归模型
addTerms 向线性回归模型中添加项
removeTerms 从线性回归模型中移除术语
一步 通过添加或删除项来改进线性回归模型
函数宏指令 预测线性回归模型的反应使用一个输入为每个预测器
预测 预测线性回归模型的响应
随机 用线性回归模型模拟随机噪声下的响应
方差分析 线性回归模型的方差分析
coefCI 线性回归模型系数估计的置信区间
coefTest 线性回归模型系数的线性假设检验
dwt 线性回归模型对象的德宾-沃森检验
partialDependence 计算部分依赖
情节 线性回归模型的散点图或添加变量图
plotAdded 增加了线性回归模型的变量图
plotAdjustedResponse 线性回归模型调整后的响应图
plotDiagnostics 绘制线性回归模型的观察诊断图
plotEffects 在线性回归模型中绘制预测因子的主要作用
plotInteraction 在线性回归模型中绘制两个预测因子的交互作用
plotPartialDependence 创建部分依赖图(PDP)和个人条件期望图(ICE)
plotResiduals 绘制线性回归模型的残差
plotSlice 通过拟合的线性回归曲面绘制切片图
收集 收集的属性统计和机器学习工具箱对象从GPU

예제

모두축소

행렬입력데이터세트를사용하여선형회귀모델을피팅합니다。

행렬입력데이터세트인carsmall데이터세트를불러옵니다。

负载carsmallX =(重量、马力、加速度);

fitlm을사용하여선형회귀모델을피팅합니다。

mdl = fitlm (X,英里/加仑)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93、误差自由度:89均方根误差:4.09 r平方:0.752,校正r平方:0.744 f统计量与常数模型:90,p-value = 7.38e-27

모델표시화면에모델식,추정된계수및모델요약통계량이포함됩니다。

표시된모델식Y ~ 1 + x1 + x2 + x3 y β 0 + β 1 X 1 + β 2 X 2 + β 3. X 3. + ϵ 에해당합니다。

모델표시화면에系数속성에저장된,추정된계수정보도표시됩니다。系数속성을표시합니다。

mdl。系数
ans =4×4表e- x x x x x x x x x x x x x x x x x

系数속성은다음과같은열을포함합니다。

  • 估计——모델에서각각의대응되는항에대한계수추정값입니다。예를들어,상수항(拦截47.977)에대한추정값은입니다。

  • SE——계수의표준오차입니다。

  • tStat——모델에주어진다른예측변수를상정한경우,'대응하는계수0이가아니다’는대립가설에대해”계수가0이다’는귀무가설을검정하는데사용된각계수에대한t——통계량입니다。참고로,tStat =估计/ SE입니다。예를들어,절편에대한t——통계량은47.977/3.8785 = 12.37입니다。

  • pValue0 -대응하는계수가인지아니면0이아닌지를검정하는가설에대한t——통계량의p——값입니다。예를들어,x2에대한t——통계량의p0.05 -값은보다크므로모델의다른항을고려할때이항은5%유의수준에서유의미하지않습니다。

모델의요약통계량은다음과같습니다。

  • 数量的观察- - - - - -값을포함하지않는행개수입니다。예를들어,X英里/加仑100개의행개수는인데英里/加仑데이터벡터에6개값이있고马力데이터벡터에다른관측값에대한1개값이있기때문에数量的观察93年는입니다。

  • 误差自由度- - - - - -n- - - - - -p이며,여기서n은관측값의개수이고p는절편을포함하여모델에포함된계수의개수입니다。예를들어,이모델은4개의예측변수를가지므로误差自由度은93 - 4 = 89입니다。

  • 均方根误差——평균제곱오차의제곱근으로,오차분포의표준편차를추정합니다。

  • 平方调整后的平方- - - - - -각각결정계수와수정된결정계수를나타냅니다。예를들어,平方값은모델이응답변수英里/加仑의변동성의약75%를설명한다는것을나타냅니다。

  • f统计量与常数模型——회귀모델에대한F——검정의검정통계량으로,이모델이상수항만으로구성된퇴화모델보다훨씬더잘피팅되는지여부를검정합니다。

  • 假定值——모델에대한F——검정의p——값입니다。예를들어,이모델은p7.3816 -값이e-27인경우유의미합니다。

모델속성(NumObservations教育部RMSERsquared)에서,그리고方差分析함수를사용하여이러한통계량을확인할수있습니다。

方差分析(mdl“摘要”
ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728

범주형예측변수를포함하는선형회귀모델을피팅합니다。모델에서기준레벨을제어하기위해범주형예측변수의범주를다시정렬합니다。그런다음方差分析를사용하여범주형변수의유의성을검정합니다。

범주형예측변수를갖는모델

carsmall데이터세트를불러오고,英里/加仑의선형회귀모델을Model_Year의함수로생성합니다。숫자형벡터Model_Year를범주형변수로처리하기위해“CategoricalVars”이름——값쌍의인수를사용하여예측변수를식별합니다。

负载carsmallmdl = fitlm (Model_Year MPG,“CategoricalVars”,1,“VarNames”,{“Model_Year”“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ ______ ______ __________ (Intercept) 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 R-squared: 0.531, Adjusted R-squared: 0.521 F-statistic vs. constant model: 51.6, p-value = 1.07e-15

표시된모델식MPG ~ 1 + Model_Year는다음에해당합니다。

英里/加仑 β 0 + β 1 Ι 一年 76 + β 2 Ι 一年 82 + ϵ

여기서 Ι 一年 76 Ι 一年 82 Model_Year의값이각각76및82일때값1인이표시변수입니다。Model_Year변수는3개의고유한값을포함하고있으며,이는独特的함수를사용해서확인할수있습니다。

独特的(Model_Year)
ans =3×170 76 82

fitlmModel_Year에서가장작은값을기준레벨(“70”)로선택하고두개의표시변수 Ι 一年 76 Ι 一年 82 를생성합니다。모델이3개의표시변수(각레벨당1개)와1개의절편항을포함하는경우설계행렬이랭크부족이되므로모델은2개의표시변수만포함합니다。

전체표시변수를갖는모델

mdl의모델식을절편항이없고3개의표시변수를갖는모델로해석할수있습니다。

y β 0 Ι x 1 70 + β 0 + β 1 Ι x 1 76 + β 0 + β 2 Ι x 2 82 + ϵ

또는표시변수를수동으로생성하고모델식을지정하여절편항이없고3개의표시변수를갖는모델을생성할수도있습니다。

temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,'MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1'
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51观测值:94、误差自由度:91均方根误差:5.56

모델에서기준레벨선택하기

범주형변수에서범주순서를수정하여기준레벨을선택할수있습니다。먼저범주형변수一年를만듭니다。

年=分类(Model_Year);

类别함수를사용하여범주의순서를확인합니다。

类别(年)
ans =3 x1细胞””{70}{76}{82 '}

一年를예측변수로사용할경우fitlm은첫번째범주“70”을기준레벨로선택합니다。reordercats함수를사용하여一年를다시정렬합니다。

Year_reordered = reordercats(一年,{“76”“70”“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}

Year_reordered의첫번째범주는“76”입니다。英里/加仑의선형회귀모델을Year_reordered의함수로생성합니다。

mdl2 = fitlm (Year_reordered MPG,“VarNames”,{“Model_Year”“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ _______ _______ __________ (Intercept) 21.574 0.95387 22.617 4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11观测数:94,误差自由度:F-statistic vs. constant model: 51.6, p-value = 1.07e-15

mdl2“76”을기준레벨로사용하고두개의표시변수 Ι 一年 70 Ι 一年 82 를포함합니다。

범주형예측변수평가하기

mdl2의모델표시화면은대응되는계수가0인지여부를검정하기위해각항의p——값을포함합니다。각p——값은각표시변수를조사합니다。범주형변수Model_Year를표시변수의그룹으로조사하려면方差分析를사용하십시오。모델의상수항을제외한각변수에대해분산분석통계량을포함하는성분분산분석표를반환하도록“组件”(디폴트값)옵션을사용합니다。

方差分析(mdl2“组件”
ans =2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936

성분분산분석표는표시변수의p——값보다작은Model_Year변수의p——값을포함합니다。

시멘트조성물이해당시멘트의경화열에미치는영향을측정하는哈尔德데이터세트를불러옵니다。

负载哈尔德

이데이터세트는변수成分를포함합니다。행렬成分는시멘트에존재하는네가지화학성분의조성비율을포함합니다。벡터는각시멘트표본에대해180일이지난후의경화열값을포함합니다。

데이터에로버스트선형회귀모델을피팅합니다。

mdl = fitlm(成分、热、“RobustOpts”“上”
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整后的R-Squared: 0.969 F-statistic vs. constant model: 94.6, p-value = 9.03 -07

자세한내용은로버스트피팅의결과와표준최소제곱피팅의결과를비교하는使用稳健回归降低离群值影响항목을참조하십시오。

시멘트조성물이해당시멘트의경화열에미치는영향을측정하는哈尔德데이터세트를불러옵니다。

负载哈尔德

이데이터세트는변수成分를포함합니다。행렬成分는시멘트에존재하는네가지화학성분의조성비율을포함합니다。벡터는각시멘트표본에대해180일이지난후의경화열값을포함합니다。

데이터에단계적선형회귀모델을피팅합니다。모델에항을추가하는기준에해당하는분계점으로0.06을지정합니다。

mdl = stepwiselm(成分、热、“囚禁”, 0.06)
1.添加x4, FStat = 22.7985, pValue = 0.000576232添加x1, FStat = 108.2239, pValue = 1.105281e-063 .添加x2, FStat = 5.0259, pValue = 0.051687移除x4, FStat = 1.8633, pValue = 0.2054
mdl =线性回归模型:y ~ 1 + x1 + x2估计系数:估计SE tStat pValue  ________ ________ ______ __________ ( 拦截)52.577 2.2862 22.998 5.4566平台以及x1 e-07 x2 0.66225 0.045855 14.442 2.6922 1.4683 0.1213 12.105 5.029 e-08数量的观察:13日误差自由度:10根均方误差:2.41平方:0.979,调整后的R-Squared: 0.974 F-statistic vs. constant model: 230, p-value = 4.41e-09

기본적으로,시작모델은상수모델입니다。stepwiselm은순방향선택을사용하며,대응되는p——값이被关闭的0.06값보다작기때문에x4x1x2항을이순서대로추가합니다。stepwiselm은그런다음역방향제거를사용하며,x2가모델에포함되면x4p——값이PRemove의디폴트값인0.1보다커지기때문에모델에서x4를제거합니다。

세부정보

모두확장

대체기능

  • 고차원데이터세트에대한계산시간을단축시키려면fitrlinear함수를사용하여선형회귀모델을피팅하십시오。

  • 회귀를정규화하려면fitrlinear套索또는plsregress를사용하십시오。

    • fitrlinear는고차원데이터세트에대한회귀를套索또는능형회귀를사용하여정규화합니다。

    • 套索는套索또는신축망을사용하여선형회귀에서중복된예측변수를제거합니다。

    • 는상관관계를갖는항이있는회귀를능형회귀를사용하여정규화합니다。

    • plsregress는상관관계를갖는항이있는회귀를부분최소제곱을사용하여정규화합니다。

확장기능

R2012a에개발됨