重新采样统计数据

Bootstrap重新采样

Bootstrap程序涉及选择随机样本,从数据集中替换并以相同的方式分析每个样本。使用替换采样意味着从原始数据集随机分开选择每个观察。因此,来自原始数据集的特定数据点可以在给定的引导样本中多次出现多次。每个引导样本中的元素数等于原始数据集中的元素数。您获得的样本估计范围使您能够建立您估计数量的不确定性。

来自EFRON和TIBSHIRANI的这个例子将法学院入学考试(LSAT)分数和随后的法学学校成绩点(GPA)进行了比较了15所法学院的样本。

加载Lawdata.情节(LSAT,GPA,'+')LSLine.

最小二乘拟合线表示较高的LSAT分数与更高的法学学校GPA一起进行。但结论是多么结论?情节提供了一些直觉,但没有任何定量。

您可以使用| erc |计算变量的相关系数。

Rhohat = Corr(LSAT,GPA)
Rhohat = 0.7764

现在您有一个数字描述LSAT和GPA之间的正连接;虽然它似乎很大,但你仍然不知道它是否存在统计学意义。

使用Bootstrp.功能您可以重新斥护LSAT.GPA.根据您的喜好和考​​虑所产生的相关系数的变化等待。

RNG.默认重复性的%RHOS1000 = BOOTSTRP(1000,'corr',LSAT,GPA);

这是一个重建的LSAT.GPA.矢量1000次并计算corr每个样本上的功能。然后,您可以在直方图中绘制结果。

直方图(RHOS1000,30,'facecholor',[。8 .8 1])

几乎所有估算都在间隔[0.4 1.0]上。

通常希望构建统计推论中的参数估计的置信区间。使用Bootci.函数,您可以使用自动启动以获得置信区间LSAT.GPA.数据。

ci = bootci(5000,@ corr,lsat,gpa)
ci =2×10.3319 0.9427

因此,LSAT和GPA之间的相关系数的95%置信区间是[0.33 0.94]。这是强烈的定量证据,即LSAT和随后的GPA是正相关的。此外,该证据不需要对相关系数的概率分布的任何强烈假设。

虽然Bootci.功能计算偏置校正和加速(BCA)间隔作为默认类型,它还能够计算各种其他类型的引导置信间隔,例如学生化的引导置信区间。

jackknife ruspling.

类似于引导者是jackknife,它使用重采样来估计样本统计的偏差。有时它还用于估计样本统计的标准误差。jackknife由统计和机器学习工具箱™功能实现钉书匠

杰克克奈之队系统地斥排,而不是随机才随机随机。适用于样本N点,jackknife计算样本统计数据N单独的大小样本N-1。每个样本是省略单个观察的原始数据。

在引导示例中,您测量了估计相关系数的不确定性。您可以使用jackknife来估计偏差,这是对样本相关与过度估计或估计真实,未知的相关性的趋势。首先计算数据上的样本相关性。

加载Lawdata.Rhohat = Corr(LSAT,GPA)
Rhohat = 0.7764

接下来计算Jackknife样本的相关性,并计算其平均值。

RNG.默认;重复性的%jackrho = jackknife(@ cor,lsat,gpa);VISHRHO =平均(Jackrho)
Milithro = 0.7759

现在计算偏差的估计。

n =长度(LSAT);biasrho =(n-1)*(Meanrho-Rhohat)
biasrho = -0.0065.

样本相关可能低估了大约达到此数量的真实相关性。

用于重采样方法的并行计算支持金宝app

有关并行计算重采样统计信息的信息,请参阅并行计算工具箱™。