重采样数据
引导重采样
引导程序包括与替代选择随机抽样从一个数据集和分析每个样本相同的方式。放回抽样选择意味着每个观察随机分别从原始数据集。所以一个特定的数据点从原始数据集可以在给定的引导样品出现多次。每个引导样品中的元素数量等于原始数据集的元素数量。样本的范围估计你获得允许您建立数量你估计的不确定性。
这个例子来自·埃夫隆和Tibshirani比较法学院入学考试(考试)成绩和随后的法学院平均成绩(GPA)样品15法学院。
负载lawdata情节(考试成绩,“+”)lsline
最小二乘拟合线表明,更高的考试分数和法学院的平均成绩。但肯定的是这个结论的?情节提供了一些直觉,但没有量化。
你可以计算变量的相关系数使用| | corr函数。
rhohat = corr(考试,gpa)
rhohat = 0.7764
现在你有许多描述积极考试和成绩之间的联系;尽管看起来大,你还不知道它是否具有统计学意义。
使用bootstrp
函数可以重新取样考试
和平均绩点
向量很多次你喜欢和考虑由此产生的相关系数的变化。
rng默认的%的再现性rhos1000 = bootstrp (1000“相关系数”考试,gpa);
这重新取样考试
和平均绩点
向量和计算的1000倍相关系数
函数在每个样本。你可以画出直方图。
30岁的直方图(rhos1000“FaceColor”,(。8。8 1])
几乎所有的估计躺在区间[0.4 - 1.0]。
通常需要构造一个参数估计的置信区间统计推断。使用bootci
功能,您可以使用引导获得的置信区间考试
和平均绩点
数据。
@corr ci = bootci(5000年,考试,gpa)
ci =2×10.3319 - 0.9427
因此,95%置信区间为考试和成绩之间的相关系数(0.33 - 0.94)。这是强大的定量证据表明考试和随后的GPA是呈正相关的。此外,这些证据不需要任何强烈的关于相关系数的概率分布假设。
虽然bootci
函数计算偏差纠正和加速(BCa)间隔设为默认类型,它也能计算出各种其他类型的引导置信区间,如studentized引导置信区间。
重叠重采样
类似于引导重叠,利用重采样估计样本统计量的偏差。有时它还可以用于估计样本统计量的标准误差。统计和机器学习的实现重叠工具箱™函数重叠
。
重叠重新取样系统,而不是随机的引导。的一个示例n
点,重叠计算样本统计数据n
单独的样本大小n
1。每个样本的原始数据一个观察省略。
在自举的例子中,你测量了相关系数估计的不确定性。您可以使用重叠估计偏差,这是样本相关性高估或低估的倾向真正的,未知的相关性。首先计算样本相关的数据。
负载lawdatarhohat = corr(考试,gpa)
rhohat = 0.7764
下一个计算重叠样本的相关性,计算他们的意思。
rng默认的;%的再现性jackrho =重叠(@corr,考试,gpa);meanrho =意味着(jackrho)
meanrho = 0.7759
现在计算估计的偏差。
n =长度(考试);biasrho = (n - 1) * (meanrho-rhohat)
biasrho = -0.0065
样本相关性可能低估了真正的相关金额。
并行计算支持重采样方法金宝app
并行计算重采样数据的信息,请参阅并行计算工具箱™。