主要内容

plotVarianceLink

情节的估算样本方差与condition-dependent的意思

描述

例子

plotVarianceLink (测试)显示一个散点图对于每个实验条件与普通规模的样本方差的估计与condition-dependent的意思。

测试的输出nbintest函数,是一个NegativeBinomialTest对象,包含一个未配对的结果为两个独立样本假设检验。

如果“PooledVariance”名称-值对参数设置为真正的当你跑nbintest,然后plotVarianceLink块只有一个散点图。函数也块方差回归根据指定的模式“VarianceLink”名称-值对的观点nbintest

plotVarianceLink(测试,名称,值)使用一个或多个名称-值对参数。

H= plotVarianceLink (___)返回句柄轴。

例子

全部折叠

这个例子展示了如何执行合成短内容未配对假设检验的统计数据从两个不同的生物条件。

这个示例中的数据包含5000个基因的合成基因计数数据,代表两种不同的生物条件,如病变和正常细胞。对于每一个条件,有五个样品。只有10%的基因差异表达基因(500)。具体来说,其中一半(250个基因)是三倍过表达。三倍underexpressed其他250个基因。其余的基因表达数据生成相同的负二项分布的条件。每个样本也有不同大小的因素(即覆盖或采样深度)。

加载数据。

负载(“nbintest_data.mat”,“K”,“H0”);

的变量K包含基因计数数据。行代表基因,列代表样本。在这种情况下,前五列代表样本的第一条件。其他五个列代表第二个条件的样本。显示前几排的K

:K (1:5)
ans =5×1013683 14140 8281 14309 12208 8045 9446 11317 14597 14592 16028 16805 9813 16486 14076 9901 10927 13348 16999 17036 814 862 492 910 758 521 573 753 870 936 15870 16453 9857 16454 14267 9671 10997 13624 17151 17205 9422 9393 5734 9598 8174 5381 6315 7752 9869 9795

在这个例子中,零假设是正确时,基因差异表达。的变量H0包含布尔指标表明基因的零假设是真实的(标记为1)。换句话说,H0包含已知的标签,您将使用后与预测结果比较。

总和(H0)
ans = 4500

5000个基因,4500没有差异表达在这合成数据。

运行一个未配对样本两个条件使用假设检验nbintest。假设数据来自一个负二项分布的方差与均值通过locally-regressed光滑函数的意思是[1]中描述的设置“VarianceLink”“LocalRegression”

tLocal = nbintest (K (: 1:5)、K (:, 6:10)“VarianceLink”,“LocalRegression”);

使用plotVarianceLink绘制散点图对于每个实验条件(X和Y条件),与普通规模的样本方差的估计与condition-dependent的意思。使用轴的线性范围。包括所有其他连杆曲线通过设置选项“比较”真正的

plotVarianceLink (tLocal“规模”,“线性”,“比较”,真正的)

图包含一个轴。坐标轴标题方差链接在X包含4线类型的对象。这些对象代表观察到的,当地的回归常数,身份。

图包含一个轴。Y轴与标题方差链接包含4线类型的对象。这些对象代表观察到的,当地的回归常数,身份。

身份线代表了泊松模型,均值方差相同[3]中描述。观察到的数据似乎overdispersed(也就是说,最上面点身份线)。的常数线代表负二项模型,方差是散粒噪声项的总和(意味着)和一个常数乘以平方均值如[2]所述。的当地的回归常数链接选项似乎适合更好的与overdispersed数据。

使用plotChiSquaredFit评估方差回归的拟合优度。它情节实证CDF (ecdf)卡方的概率。概率是观察之间的比例和估计方差分层短内容计数水平到五个大小相同的垃圾箱。

plotChiSquaredFit (tLocal)

图包含一个轴。X轴与标题残差ECDF情节包含6行类型的对象。这些对象代表0 - 1472,1473 - 3766,3767 - 6636,6637 - 10952 > 10952。

图包含一个轴。Y轴与标题残差ECDF情节包含6行类型的对象。这些对象代表0 - 1264,1265 - 4022,4023 - 7453,7454 - 11438 > 11438。

每个图中显示五ecdf曲线。每个曲线代表的五短内容计算水平。例如,蓝线代表ecdf曲线低短内容数在0到1264之间。红色的线条代表的高数(超过11438)。

解释曲线的一种方法是检查如果ecdf对角线上方曲线。如果上面,那么方差是高估了。如果低于这条线,那么方差是低估了。在这两个数据,方差似乎正确估计更高的数量(即红线沿着对角线),但稍微高估了计数水平较低。

评估假设检验的性能,构造一个混淆矩阵使用已知的标签和预测假定值。

confusionmat (H0 (tLocal。pValue >措施)
ans =2×2493 4495 5

493年的500个差异表达基因,正确预测(真阳性)和7都错误地预测not-differentially表达基因(假阴性)。4500不是差异表达的基因,4495人正确地预测(真底片)和5都错误地预测(假阳性)的差异表达基因。

比较,再次运行假设检验假设计算泊松分布的建模,方差是一样的意思。

tPoisson = nbintest (K (: 1:5)、K (:, 6:10)“VarianceLink”,“身份”);

画出ecdf曲线。观察到所有的曲线都是对角线以下,这意味着方差被低估了。因此,负二项模型与数据的吻合程度好。

plotChiSquaredFit (tPoisson)

图包含一个轴。X轴与标题残差ECDF情节包含6行类型的对象。这些对象代表0 - 1472,1473 - 3766,3767 - 6636,6637 - 10952 > 10952。

图包含一个轴。Y轴与标题残差ECDF情节包含6行类型的对象。这些对象代表0 - 1264,1265 - 4022,4023 - 7453,7454 - 11438 > 11438。

输入参数

全部折叠

指定为一个未配对的假设检验的结果NegativeBinomialTest对象。返回的测试nbintest函数。

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“比较”,的确,“规模”、“线性”

逻辑标记添加一个曲线与方差链接其他模型,指定为逗号分隔两人组成的“比较”真正的。当它被设置为真正的,情节展示了所有可用的连杆曲线的选项,也就是说,“LocalRegression”,“不变”,“身份”

例子:“比较”,真的

规模为轴,指定为逗号分隔两人组成的“规模”“日志”“线性”

例子:“规模”、“线性”

输出参数

全部折叠

句柄轴,指定为一个向量的处理。

介绍了R2014b