bootstrap程序包括从数据集中随机选择有替换的样本,并以相同的方式分析每个样本。置换抽样是指从原始数据集中随机选择每个观测数据。因此,原始数据集中的某个特定数据点可能会在给定的引导样本中出现多次。每个引导样本中的元素数等于原始数据集中的元素数。你所获得的样本估计范围使你能够确定你所估计的数量的不确定性。
这个来自Efron和Tibshirani的例子比较了15所法学院的法学院入学考试(LSAT)分数和随后的法学院平均绩点(GPA)。
负载lawdata情节(考试成绩,“+”) lsline
最小二乘拟合线表明LSAT分数越高,法学院的gpa越高。但是这个结论有多确定呢?这个图表提供了一些直觉,但不是定量的。
可以使用|corr|函数计算变量的相关系数。
rhohat = corr(考试,gpa)
rhohat = 0.7764
现在你有一个数字来描述LSAT和GPA之间的积极联系;虽然它看起来可能很大,但你仍然不知道它是否具有统计学意义。
使用bootstrp
函数,可以重新取样考试
和平均绩点
任意次数的向量,并考虑结果相关系数的变化。
rng默认的%的再现性rhos1000 = bootstrp (1000“相关系数”考试,gpa);
这重新取样考试
和平均绩点
向量1000次,然后计算相关系数
函数对每个样本。然后可以将结果绘制成直方图。
30岁的直方图(rhos1000“FaceColor”,(。8。8 1])
几乎所有的估计都在区间[0.4 1.0]上。
在统计推断中,为参数估计构造置信区间常常是可取的。使用bootci
函数的置信区间,可以使用引导来获取考试
和平均绩点
数据。
@corr ci = bootci(5000年,考试,gpa)
ci =2×10.3319 - 0.9427
因此,LSAT与GPA相关系数的95%置信区间为[0.33 0.94]。这是强有力的定量证据,LSAT和随后的GPA是正相关的。此外,这一证据不需要对相关系数的概率分布作出任何强有力的假设。
虽然bootci
函数计算Bias Corrected and accelerated (BCa) interval作为默认类型,它还能够计算各种其他类型的bootstrap置信区间,如已学习的bootstrap置信区间。
与bootstrap类似的是jackknife,它使用重采样来估计一个样本统计量的偏差。有时也用来估计样本统计量的标准误差。折叠刀是由统计和机器学习工具箱™功能实现的重叠
.
叠刀系统会重新取样,而不是像自助系统那样随机取样。对于带有n
点,折刀计算样本统计上n
大小不同的样本n
-1.每个样本都是原始数据,只省去了一个观测。
在bootstrap示例中,您测量了估计相关系数的不确定性。你可以使用折叠刀来估计偏差,即样本相关性高估或低估真实的未知相关性的趋势。首先计算数据的样本相关性。
负载lawdatarhohat = corr(考试,gpa)
rhohat = 0.7764
接下来计算折刀样本的相关性,并计算它们的均值。
rng默认的;%的再现性jackrho =重叠(@corr,考试,gpa);meanrho =意味着(jackrho)
meanrho = 0.7759
现在计算偏差的估计。
n =长度(考试);Biasrho = (n-1) * (meanrhohat -rhohat)
biasrho = -0.0065
样本相关性可能低估了真实相关性大约这个量。
有关并行计算重采样统计信息,请参阅并行计算工具箱™。