这个例子展示了如何执行合成短内容未配对假设检验的统计数据从两个不同的生物条件。
这个示例中的数据包含5000个基因的合成基因计数数据,代表两种不同的生物条件,如病变和正常细胞。对于每一个条件,有五个样品。只有10%的基因差异表达基因(500)。具体来说,其中一半(250个基因)是三倍过表达。三倍underexpressed其他250个基因。其余的基因表达数据生成相同的负二项分布的条件。每个样本也有不同大小的因素(即覆盖或采样深度)。
加载数据。
的变量K
包含基因计数数据。行代表基因,列代表样本。在这种情况下,前五列代表样本的第一条件。其他五个列代表第二个条件的样本。显示前几排的K
。
ans =5×1013683 14140 8281 14309 12208 8045 9446 11317 14597 14592 16028 16805 9813 16486 14076 9901 10927 13348 16999 17036 814 862 492 910 758 521 573 753 870 936 15870 16453 9857 16454 14267 9671 10997 13624 17151 17205 9422 9393 5734 9598 8174 5381 6315 7752 9869 9795
在这个例子中,零假设是正确时,基因差异表达。的变量H0
包含布尔指标表明基因的零假设是真实的(标记为1)。换句话说,H0包含已知的标签,您将使用后与预测结果比较。
5000个基因,4500没有差异表达在这合成数据。
运行一个未配对样本两个条件使用假设检验nbintest
。假设数据来自一个负二项分布的方差与均值通过locally-regressed光滑函数的意思是[1]中描述的设置“VarianceLink”
来“LocalRegression”
。
使用plotVarianceLink
绘制散点图对于每个实验条件(X和Y条件),与普通规模的样本方差的估计与condition-dependent的意思。使用轴的线性范围。包括所有其他连杆曲线通过设置选项“比较”
来真正的
。
的身份
线代表了泊松模型,均值方差相同[3]中描述。观察到的数据似乎overdispersed(也就是说,最上面点身份
线)。的常数
线代表负二项模型,方差是散粒噪声项的总和(意味着)和一个常数乘以平方均值如[2]所述。的当地的回归
和常数
链接选项似乎适合更好的与overdispersed数据。
使用plotChiSquaredFit
评估方差回归的拟合优度。它情节实证CDF (ecdf)卡方的概率。概率是观察之间的比例和估计方差分层短内容计数水平到五个大小相同的垃圾箱。
每个图中显示五ecdf曲线。每个曲线代表的五短内容计算水平。例如,蓝线代表ecdf曲线低短内容数在0到1264之间。红色的线条代表的高数(超过11438)。
解释曲线的一种方法是检查如果ecdf对角线上方曲线。如果上面,那么方差是高估了。如果低于这条线,那么方差是低估了。在这两个数据,方差似乎正确估计更高的数量(即红线沿着对角线),但稍微高估了计数水平较低。
评估假设检验的性能,构造一个混淆矩阵使用已知的标签和预测假定值。
493年的500个差异表达基因,正确预测(真阳性)和7都错误地预测not-differentially表达基因(假阴性)。4500不是差异表达的基因,4495人正确地预测(真底片)和5都错误地预测(假阳性)的差异表达基因。
比较,再次运行假设检验假设计算泊松分布的建模,方差是一样的意思。
画出ecdf曲线。观察到所有的曲线都是对角线以下,这意味着方差被低估了。因此,负二项模型与数据的吻合程度好。