主要内容

cuffcompare

跨多个实验比较组装成绩单

描述

例子

statsFile= cuffcompare (gtfFiles)比较了组装的成绩单gtfFiles在输出文件中,并返回摘要统计信息statsFile[1]

cuffcompare要求生物信息学工具箱™袖金宝app扣支持包。如果支持包没有金宝app安装,那么该函数提供了一个下载链接。有关详细信息,请参见生物信息工具箱软件支持包金宝app

statsFile= cuffcompare (gtfFiles,compareOptions)使用指定的附加选项compareOptions

statsFile= cuffcompare (gtfFiles,名称,值)使用附加选项指定一个或多个参数名称-值对。例如,statsFile = cuffcompare (gtfFile“OutputPrefix”、“cuffComp”)附加前缀“cuffComp”输出文件的名字。

(statsFile,combinedGTF,lociFile,trackingFile)= cuffcompare (___)返回输出文件的名称使用任何输入参数组合在前面的语法。默认情况下,函数保存所有文件到当前目录中。

例子

全部折叠

创建一个CufflinksOptions对象定义袖扣的选项,如并行线程的数量和输出目录来存储结果。

cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”;

山姆文件提供了对于这个示例包含一致读肺炎支原体从两个样品三个复制。两个基因的读取模拟100 bp-reads (gyrAgyrB)位于相邻的基因组。所有的阅读都是按参考位置,根据袖扣

地空导弹= [“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”,“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”];

组装的转录组对齐。

[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);

gtfsGTF文件的列表,包含组装亚型。

比较亚型组装使用cuffcompare

统计= cuffcompare (gtfs);

合并组装记录使用cuffmerge

mergedGTF = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput ');

mergedGTF报告只有一个成绩单。这是因为感兴趣的两个基因位于相邻cuffmerge无法区分两种不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf这两个基因)包含的信息。如果文件不是位于同一个目录中运行的cuffmerge,您还必须指定文件路径。

gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput2 ',“ReferenceGTF”,gyrAB);

计算丰度(表达水平)读取每个样本保持一致。

abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),“OutputDirectory”,”。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”),“OutputDirectory”,”。/ cuffquantOutput2 ');

评估的意义变化之间的基因和转录表达条件进行微分测试使用cuffdiff。的cuffdiff函数在两个不同的步骤:读取函数首先估计丰度的结合,然后执行统计分析。在某些情况下(例如,分配计算负载在多个工人),执行两个步骤分别是可取的。后执行的第一步cuffquant,你可以使用二进制CXB输出文件作为输入cuffdiff执行统计分析。因为cuffdiff返回几个文件,建议指定输出目录。

isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),“OutputDirectory”,”。/ cuffdiffOutput ');

显示一个表包含两个基因的微分表达式测试结果gyrBgyrA

readtable (isoformDiff“文件类型”,“文本”)
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value重要___________ _________________ ______ _______________________说______ __________ __________ _________________ ____ ____ ____ ___________的TCONS_00000001 XLOC_000001的‘gyrB’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05‘是的’‘TCONS_00000002’‘XLOC_000001’‘gyrA’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”3.5158 1.1546 e + e + 05年05年-1.6064 - -7.3811 5 e-05 5 e-05 '是的'

您可以使用cuffnorm生成规范化表达表进行进一步的分析。cuffnorm结果是有用的,当你有很多样品和你想集群或情节的基因表达水平在你的研究很重要。请注意,您不能执行微分表达式分析使用cuffnorm

指定一个单元阵列,其中每个元素是一个字符串向量包含文件名与复制单个样本。

alignmentFiles = {(“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),(“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”]}isoformNorm = cuffnorm (mergedGTF2 alignmentFiles,“OutputDirectory”,”。/ cuffnormOutput ');

显示一个表包含每个记录的规范化表达水平。

readtable (isoformNorm“文件类型”,“文本”)
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ___________ __________ __________ __________, __________ __________ __________的TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05年的TCONS_00000002 3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

列名开始格式:conditionX_N,显示的列值复制N方便

输入参数

全部折叠

GTF文件的名称,指定为字符串向量或单元阵列的特征向量。每个GTF文件对应一个样本产生的袖扣

例子:[" Myco_1_1.transcripts.gtf”、“Myco_2_1.transcripts.gtf”)

数据类型:字符串|细胞

cuffcompare选项,指定为一个CuffCompareOptions对象,特征向量,或字符串。特征向量或字符串必须在原始的cuffcompare选项语法(由一个或两个破折号前缀),等“- d 100 - e 80”[1]

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:statsFile = cuffcompare (gtfFile OutputPrefix,“cuffComp”、“MaxGroupingRange”, 90年)

前缀的共识记录名称输出combined.gtf矢量文件,指定为字符串或字符。这个选项必须是一个向量和一个非零长度字符串或字符。

例子:“ConsensusPrefix”、“consensusTs”

数据类型:字符|字符串

国旗忽略intron-redundant transfrags如果它们有相同的5 '末端但是不同的3 '结束,指定为真正的

例子:“DiscardIntronRedundant”,真的

数据类型:逻辑

国旗抛弃single-exon transfrags和参考成绩单、指定为真正的

例子:“DiscardSingleExonAll”,真的

数据类型:逻辑

国旗抛弃single-exon参考记录,指定为真正的

例子:“DiscardSingleExonReference”,真的

数据类型:逻辑

必须在本机的命令语法(由一个或两个破折号前缀)。使用这个选项没有相应的MATLAB应用无证旗帜和标志®属性。

例子:‘ExtraCommand’,”——库类型fr-secondstrand”

数据类型:字符|字符串

文本文件的名称包含GTF的列表文件过程中,指定为字符串或字符向量。该文件必须包含一个每行GTF文件路径。您可以使用这个选项来代替通过文件名称的数组cuffcompare

例子:“GTFManifest”、“gtfManifestFile.txt”

数据类型:字符|字符串

国旗治疗以人造石铺地面文件输入GTF文件,指定为真正的。使用这个选项,当输入人造石铺地面或GTF文件就不会产生袖扣

例子:“GenericGFF”,真的

数据类型:逻辑

原始(本机)语法是由一个或两个破折号前缀。默认情况下,该函数将只有指定的选项。如果该值为真正的软件将所有可用的选项,默认值为未指定的选项,原来的语法。

请注意

如果你设置IncludeAll真正的,软件将所有可用的属性,与未指定的属性的默认值。唯一的例外是当属性的默认值,,[],,或”“,那么软件不会翻译相应的属性。

例子:“IncludeAll”,真的

数据类型:逻辑

标志包括transfrags由其他transfrags包含在输出相同的轨迹combined.gtf,指定为真正的。默认情况下,cuffcompare不包括这些包含transfrags。如果该值为真正的,包含transfrags包括contained_in属性指示第一个容器transfrag发现。

例子:“IncludeContained”,真的

数据类型:逻辑

基地数量从终端外显子的自由结束评估时使用外显子的准确性,指定为一个正整数。

例子:“MaxAccuracyRange”, 80年

数据类型:

用于分组的基地数量记录网站开始,指定为一个正整数。

例子:“MaxGroupingRange”, 90年

数据类型:

前缀cuffcompare输出文件,指定为字符串或字符向量。这个选项必须是一个向量和一个非零长度字符串或字符。

例子:“OutputPrefix”、“cuffcompareOut”

数据类型:字符|字符串

GTF的名称或人造石铺地面文件包含引用记录每个样本比较,指定为字符串或字符向量。如果您提供一个文件,函数比较每个样本中的引用文件,标志着亚型重叠,匹配,或小说。函数将这些标签存储在输出文件.refmap.tmap文件。

例子:“ReferenceGTF”、“references.gtf”

数据类型:字符|字符串

包含FASTA序列分类目录的名称输入记录重复,指定为字符串或字符向量。目录必须包含FASTA-format文件与底层基因组序列和包含一个FASTA文件/参考。名字每个FASTA文件后染色体与扩展.fa.fasta

例子:‘SequenceDirectory’,”。/ SequenceDirectory /”

数据类型:字符|字符串

国旗只考虑参考记录与任何输入transfrags重叠,指定为真正的。如果该值为真正的:

  • 函数忽略了任何参考成绩单不与任何输入transfrags重叠。

  • 您还必须指定ReferenceGTF选择。

例子:“SnCorrection”,真的

数据类型:逻辑

国旗只考虑输入记录,与任何参考成绩单的重叠,指定为真正的。如果该值为真正的:

  • 函数忽略了任何输入记录不重叠的任何引用记录和报告没有小说位点。

  • 您还必须指定ReferenceGTF选择。

例子:“SpCorrection”,真的

数据类型:逻辑

标志以防止创建.tmap.refmap文件,指定为真正的。将值设置为真正的防止函数生成的文件。

例子:“SuppressMapFiles”,真的

数据类型:逻辑

输出参数

全部折叠

文本文件的名称包含相关统计数据记录的准确性在每个样本,作为字符串返回。函数执行测试的敏感性(Sn)和特异性各级(Sp),包括核苷酸,外显子和内含子水平和报告结果在这个文件中。

默认的文件名“cuffcmp.stats”。如果您指定OutputPrefix,函数使用它代替“cuffcmp”

文件名包含每个样本中所有transfrags的联盟,作为字符串返回。

默认的文件名“cuffcmp.combined.gtf”。如果您指定OutputPrefix,函数使用它代替“cuffcmp”

文件的名称与所有加工位点在所有记录,作为字符串返回。

默认的文件名“cuffcmp.loci”。如果您指定OutputPrefix,函数使用它代替“cuffcmp”

文件名包含成绩单与相同的坐标,内含子,和链,作为字符串返回。

默认的文件名“cuffcmp.tracking”。如果您指定OutputPrefix,函数使用它代替“cuffcmp”

引用

[1]杰尔科尔,布莱恩·威廉姆斯,地理Pertea阿里Mortazavi关荣乐Marijke J货车压印垫板,芭芭拉·J的山地,史蒂文•L扎尔茨贝格Lior帕特。“记录装配和量化RNA-Seq揭示未经成绩单和同种型开关在细胞分化。”自然生物技术28日,没有。5(2010年5月):511 - 15所示。

版本历史

介绍了R2019a