主要内容

cuffquant

量化基因和转录表达谱

描述

例子

cxbFile= cuffquant (transcriptsAnnot,alignmentFiles)生成丰富的样本估计alignmentFiles使用参考注释文件transcriptsAnnot[1]。您可以使用生成的CXB-format丰富(* .CXB)作为输入cuffdiff执行下游微分表达式分析。

cuffquant要求生物信息学工具箱™袖金宝app扣支持包。如果支持包没有金宝app安装,那么该函数提供了一个下载链接。有关详细信息,请参见生物信息工具箱软件支持包金宝app

cxbFile= cuffquant (transcriptsAnnot,alignmentFiles,选择)使用指定的附加选项选择

cxbFile= cuffquant (transcriptsAnnot,alignmentFiles,名称,值)使用附加选项指定一个或多个参数名称-值对。例如,cuffquant”(“gyrAB.gtf”, [Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)指定使用5个并行线程。

例子

全部折叠

创建一个CufflinksOptions对象定义袖扣的选项,如并行线程的数量和输出目录来存储结果。

cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”;

山姆文件提供了对于这个示例包含一致读肺炎支原体从两个样品三个复制。两个基因的读取模拟100 bp-reads (gyrAgyrB)位于相邻的基因组。所有的阅读都是按参考位置,根据袖扣

地空导弹= [“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”,“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”];

组装的转录组对齐。

[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);

gtfsGTF文件的列表,包含组装亚型。

比较亚型组装使用cuffcompare

统计= cuffcompare (gtfs);

合并组装记录使用cuffmerge

mergedGTF = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput ');

mergedGTF报告只有一个成绩单。这是因为感兴趣的两个基因位于相邻cuffmerge无法区分两种不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf这两个基因)包含的信息。如果文件不是位于同一个目录中运行的cuffmerge,您还必须指定文件路径。

gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput2 ',“ReferenceGTF”,gyrAB);

计算丰度(表达水平)读取每个样本保持一致。

abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),“OutputDirectory”,”。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”),“OutputDirectory”,”。/ cuffquantOutput2 ');

评估的意义变化之间的基因和转录表达条件进行微分测试使用cuffdiff。的cuffdiff函数在两个不同的步骤:读取函数首先估计丰度的结合,然后执行统计分析。在某些情况下(例如,分配计算负载在多个工人),执行两个步骤分别是可取的。后执行的第一步cuffquant,你可以使用二进制CXB输出文件作为输入cuffdiff执行统计分析。因为cuffdiff返回几个文件,建议指定输出目录。

isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),“OutputDirectory”,”。/ cuffdiffOutput ');

显示一个表包含两个基因的微分表达式测试结果gyrBgyrA

readtable (isoformDiff“文件类型”,“文本”)
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value重要___________ _________________ ______ _______________________说______ __________ __________ _________________ ____ ____ ____ ___________的TCONS_00000001 XLOC_000001的‘gyrB’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05‘是的’‘TCONS_00000002’‘XLOC_000001’‘gyrA’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”3.5158 1.1546 e + e + 05年05年-1.6064 - -7.3811 5 e-05 5 e-05 '是的'

您可以使用cuffnorm生成规范化表达表进行进一步的分析。cuffnorm结果是有用的,当你有很多样品和你想集群或情节的基因表达水平在你的研究很重要。请注意,您不能执行微分表达式分析使用cuffnorm

指定一个单元阵列,其中每个元素是一个字符串向量包含文件名与复制单个样本。

alignmentFiles = {(“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),(“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”]}isoformNorm = cuffnorm (mergedGTF2 alignmentFiles,“OutputDirectory”,”。/ cuffnormOutput ');

显示一个表包含每个记录的规范化表达水平。

readtable (isoformNorm“文件类型”,“文本”)
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ___________ __________ __________ __________, __________ __________ __________的TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05年的TCONS_00000002 3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

列名开始格式:conditionX_N,显示的列值复制N方便

输入参数

全部折叠

的名字记录注释文件,指定为字符串或字符向量。文件可以是一个GTF或人造石铺地面产生的文件袖扣,cuffcompare或GTF注释的另一个来源。

例子:“gyrAB.gtf”

数据类型:字符|字符串

山姆的名字,BAM,或CXB文件包含校准记录为每个示例中,指定为一个字符串向量或细胞数组。如果你使用一个细胞数组,每个元素必须是一个字符串向量或单元阵列特征向量指定对齐文件为每个复制相同的样本。

例子:[" Myco_1_1。山姆”、“Myco_2_1.sam”)

数据类型:字符|字符串|细胞

cuffquant选项,指定为一个CuffQuantOptions对象、字符串或字符向量。字符串或字符必须在原来的向量cuffquant选项的语法(由一个或两个破折号前缀)[1]

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:cuffquant(成绩单、alignmentFiles NumThreads”4、“种子”,1)

国旗规范化每百万映射读取片段数每千碱基片段(FPKM),指定为真正的

例子:“EffectiveLengthCorrection”,假的

数据类型:逻辑

必须在本机的命令语法(由一个或两个破折号前缀)。使用这个选项没有相应的MATLAB应用无证旗帜和标志®属性。

例子:“ExtraCommand”、“——库类型fr-secondstrand”

数据类型:字符|字符串

FASTA文件名称与参考转录片段计数检测偏差,指定为字符串或字符向量。图书馆可以导致RNA-Seq sequence-specific偏差实验做准备。提供参考记录提高了转录丰度估计的准确性。

例子:“FragmentBiasCorrection”、“bias.fasta”

数据类型:字符|字符串

预期意味着片段长度,指定为一个正整数。默认值是200年碱基对。函数可以学习每个山姆的片段长度的意思是文件。不推荐使用此选项paired-end读取。

例子:“FragmentLengthMean”, 100年

数据类型:

预期片段长度分布的标准差,指定为一个积极的标量。默认值是80年碱基对。函数可以学习每个山姆的片段长度标准偏差文件。不推荐使用此选项paired-end读取。

例子:“FragmentLengthSD”, 70年

数据类型:

原始(本机)语法是由一个或两个破折号前缀。默认情况下,该函数将只有指定的选项。如果该值为真正的软件将所有可用的选项,默认值为未指定的选项,原来的语法。

请注意

如果你设置IncludeAll真正的,软件将所有可用的属性,与未指定的属性的默认值。唯一的例外是当属性的默认值,,[],,或”“,那么软件不会翻译相应的属性。

例子:“IncludeAll”,真的

数据类型:逻辑

国旗的正确记录长度指定为真正的。将这个值设置为只有当片段统计独立的特征尺寸,比如小RNA图书馆没有碎片和3 '末端测序,所有片段长度相同。

例子:“LengthCorrection”,假的

数据类型:逻辑

GTF的名称或人造石铺地面文件包含成绩单忽视分析期间,指定为字符串或字符向量。成绩单忽略的一些例子包括注释rRNA成绩单、线粒体成绩单和其他丰富的成绩单。忽视这些记录提高了丰度估计的鲁棒性。

例子:“MaskFile”、“excludes.gtf”

数据类型:字符|字符串

最大数量每个位点的片段包括跳过新片段之前,指定为一个正整数。跳过碎片状态HIDATA在文件中skipped.gtf

例子:“MaxBundleFrags”, 400000年

数据类型:

最大数量的一致读包括对于每个片段跳过新读之前,指定为一个正整数。默认值,集对齐读取的最大数量上没有限制。

例子:“MaxFragAlignments”, 1000年

数据类型:

最大数量的迭代最大似然估计的丰度,指定为一个正整数。

例子:“MaxMLEIterations”, 4000年

数据类型:

最小数量的校准要求的轨迹进行意义测试样本之间的差异,指定为一个正整数。

例子:“MinAlignmentCount”, 8

数据类型:

国旗改进读取映射到多个基因丰度估计的位置使用救援方法,指定为真正的。如果该值为,该函数将多重映射读取所有映射位置一致。如果该值为真正的,函数使用额外的信息,包括基因丰度估计,推断片段长度,和片段偏见,改善转录丰度估计。

救援方法中描述[2]

例子:“MultiReadCorrection”,真的

数据类型:逻辑

使用并行线程的数量,指定为一个正整数。线程运行在不同的处理器或核心。增加线程的数量通常显著提高了运行时,但增加了内存占用。

例子:“NumThreads”4

数据类型:

目录存储分析结果,指定为字符串或字符向量。

例子:”。/ AnalysisResults /”

数据类型:字符|字符串

随机数生成器的种子,指定为一个非负整数。设置一个种子值确保分析结果的再现性。

例子:10

数据类型:

输出参数

全部折叠

的丰度文件,作为字符串返回。

输出字符串还包括定义的目录信息OutputDirectory。默认是当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出了“/地方/ tmp / abundances.cxb”

引用

[1]杰尔科尔,布莱恩·威廉姆斯,地理Pertea阿里Mortazavi关荣乐Marijke J货车压印垫板,芭芭拉·J的山地,史蒂文•L扎尔茨贝格Lior帕特。“记录装配和量化RNA-Seq揭示未经成绩单和同种型开关在细胞分化。”自然生物技术28日,没有。5(2010年5月):511 - 15所示。https://doi.org/10.1038/nbt.1621

[2]Mortazavi,阿里,布莱恩·威廉姆斯,肯尼思•麦丘洛谢弗和芭芭拉的山地。“哺乳动物映射和量化转录组RNA-Seq。”自然方法5,不。7(2008年7月):621 - 28。https://doi.org/10.1038/nmeth.1226

版本历史

介绍了R2019a