主要内容

重采样数据

引导重采样

bootstrap程序包括从数据集中随机选择有替换的样本,并以相同的方式分析每个样本。置换抽样是指从原始数据集中随机选择每个观测数据。因此,原始数据集中的某个特定数据点可能会在给定的引导样本中出现多次。每个引导样本中的元素数等于原始数据集中的元素数。你所获得的样本估计范围使你能够确定你所估计的数量的不确定性。

这个来自Efron和Tibshirani的例子比较了15所法学院的法学院入学考试(LSAT)分数和随后的法学院平均绩点(GPA)。

负载lawdata情节(考试成绩,“+”) lsline

图中包含一个轴对象。轴对象包含两个类型为line的对象。

最小二乘拟合线表明LSAT分数越高,法学院的gpa越高。但是这个结论有多确定呢?这个图表提供了一些直觉,但不是定量的。

可以使用|corr|函数计算变量的相关系数。

rhohat = corr(考试,gpa)
rhohat = 0.7764

现在你有一个数字来描述LSAT和GPA之间的积极联系;虽然它看起来可能很大,但你仍然不知道它是否具有统计学意义。

使用bootstrp函数,可以重新取样考试平均绩点任意次数的向量,并考虑结果相关系数的变化。

rng默认的%的再现性rhos1000 = bootstrp (1000“相关系数”考试,gpa);

这重新取样考试平均绩点向量1000次,然后计算相关系数函数对每个样本。然后可以将结果绘制成直方图。

30岁的直方图(rhos1000“FaceColor”,(。8。8 1])

图中包含一个轴对象。坐标轴对象包含一个直方图类型的对象。

几乎所有的估计都在区间[0.4 1.0]上。

在统计推断中,为参数估计构造置信区间常常是可取的。使用bootci函数的置信区间,可以使用引导来获取考试平均绩点数据。

@corr ci = bootci(5000年,考试,gpa)
ci =2×10.3319 - 0.9427

因此,LSAT与GPA相关系数的95%置信区间为[0.33 0.94]。这是强有力的定量证据,LSAT和随后的GPA是正相关的。此外,这一证据不需要对相关系数的概率分布作出任何强有力的假设。

虽然bootci函数计算Bias Corrected and accelerated (BCa) interval作为默认类型,它还能够计算各种其他类型的bootstrap置信区间,如已学习的bootstrap置信区间。

重叠重采样

与bootstrap类似的是jackknife,它使用重采样来估计一个样本统计量的偏差。有时也用来估计样本统计量的标准误差。折叠刀是由统计和机器学习工具箱™功能实现的重叠

叠刀系统会重新取样,而不是像自助系统那样随机取样。对于带有n点,折刀计算样本统计上n大小不同的样本n-1.每个样本都是原始数据,只省去了一个观测。

在bootstrap示例中,您测量了估计相关系数的不确定性。你可以使用折叠刀来估计偏差,即样本相关性高估或低估真实的未知相关性的趋势。首先计算数据的样本相关性。

负载lawdatarhohat = corr(考试,gpa)
rhohat = 0.7764

接下来计算折刀样本的相关性,并计算它们的均值。

rng默认的%的再现性jackrho =重叠(@corr,考试,gpa);meanrho =意味着(jackrho)
meanrho = 0.7759

现在计算偏差的估计。

n =长度(考试);Biasrho = (n-1) * (meanrhohat -rhohat)
biasrho = -0.0065

样本相关性可能低估了真实相关性大约这个量。

支持重采样方法的并行计算金宝app

有关并行计算重采样统计信息,请参阅并行计算工具箱™。