cuffcompare
跨多个实验比较组装成绩单
语法
描述
比较了组装的成绩单statsFile
= cuffcompare (gtfFiles
)gtfFiles
在输出文件中,并返回摘要统计信息statsFile
[1]。
cuffcompare
要求生物信息学工具箱™袖金宝app扣支持包。如果支持包没有金宝app安装,那么该函数提供了一个下载链接。有关详细信息,请参见生物信息工具箱软件支持包金宝app。
使用指定的附加选项statsFile
= cuffcompare (gtfFiles
,compareOptions
)compareOptions
。
(
返回输出文件的名称使用任何输入参数组合在前面的语法。默认情况下,函数保存所有文件到当前目录中。statsFile
,combinedGTF
,lociFile
,trackingFile
)= cuffcompare (___)
例子
组装转录组和执行微分表达式测试
创建一个CufflinksOptions
对象定义袖扣的选项,如并行线程的数量和输出目录来存储结果。
cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”;
山姆文件提供了对于这个示例包含一致读肺炎支原体从两个样品三个复制。两个基因的读取模拟100 bp-reads (gyrA
和gyrB
)位于相邻的基因组。所有的阅读都是按参考位置,根据袖扣
。
地空导弹= [“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”,…“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”];
组装的转录组对齐。
[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);
gtfs
GTF文件的列表,包含组装亚型。
比较亚型组装使用cuffcompare
。
统计= cuffcompare (gtfs);
合并组装记录使用cuffmerge
。
mergedGTF = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput ');
mergedGTF
报告只有一个成绩单。这是因为感兴趣的两个基因位于相邻cuffmerge
无法区分两种不同的基因。指导cuffmerge
,使用参考GTF (gyrAB.gtf
这两个基因)包含的信息。如果文件不是位于同一个目录中运行的cuffmerge
,您还必须指定文件路径。
gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput2 ',…“ReferenceGTF”,gyrAB);
计算丰度(表达水平)读取每个样本保持一致。
abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),…“OutputDirectory”,”。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”),…“OutputDirectory”,”。/ cuffquantOutput2 ');
评估的意义变化之间的基因和转录表达条件进行微分测试使用cuffdiff
。的cuffdiff
函数在两个不同的步骤:读取函数首先估计丰度的结合,然后执行统计分析。在某些情况下(例如,分配计算负载在多个工人),执行两个步骤分别是可取的。后执行的第一步cuffquant
,你可以使用二进制CXB输出文件作为输入cuffdiff
执行统计分析。因为cuffdiff
返回几个文件,建议指定输出目录。
isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),…“OutputDirectory”,”。/ cuffdiffOutput ');
显示一个表包含两个基因的微分表达式测试结果gyrB
和gyrA
。
readtable (isoformDiff“文件类型”,“文本”)
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value重要___________ _________________ ______ _______________________说______ __________ __________ _________________ ____ ____ ____ ___________的TCONS_00000001 XLOC_000001的‘gyrB’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05‘是的’‘TCONS_00000002’‘XLOC_000001’‘gyrA’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”3.5158 1.1546 e + e + 05年05年-1.6064 - -7.3811 5 e-05 5 e-05 '是的'
您可以使用cuffnorm
生成规范化表达表进行进一步的分析。cuffnorm
结果是有用的,当你有很多样品和你想集群或情节的基因表达水平在你的研究很重要。请注意,您不能执行微分表达式分析使用cuffnorm
。
指定一个单元阵列,其中每个元素是一个字符串向量包含文件名与复制单个样本。
alignmentFiles = {(“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),…(“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”]}isoformNorm = cuffnorm (mergedGTF2 alignmentFiles,…“OutputDirectory”,”。/ cuffnormOutput ');
显示一个表包含每个记录的规范化表达水平。
readtable (isoformNorm“文件类型”,“文本”)
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ___________ __________ __________ __________, __________ __________ __________的TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05年的TCONS_00000002 3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05
列名开始问格式:conditionX_N,显示的列值复制N的方便。
输入参数
gtfFiles
- - - - - -GTF文件的名字
字符串数组|单元阵列的特征向量
GTF文件的名称,指定为字符串向量或单元阵列的特征向量。每个GTF文件对应一个样本产生的袖扣
。
例子:[" Myco_1_1.transcripts.gtf”、“Myco_2_1.transcripts.gtf”)
数据类型:字符串
|细胞
compareOptions
- - - - - -cuffcompare
选项
CuffCompareOptions
对象|特征向量|字符串
cuffcompare
选项,指定为一个CuffCompareOptions
对象,特征向量,或字符串。特征向量或字符串必须在原始的cuffcompare
选项语法(由一个或两个破折号前缀),等“- d 100 - e 80”
[1]。
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:statsFile = cuffcompare (gtfFile OutputPrefix,“cuffComp”、“MaxGroupingRange”, 90年)
ConsensusPrefix
- - - - - -记录名称前缀的共识
“TCONS”
(默认)|字符串|特征向量
前缀的共识记录名称输出combined.gtf
矢量文件,指定为字符串或字符。这个选项必须是一个向量和一个非零长度字符串或字符。
例子:“ConsensusPrefix”、“consensusTs”
数据类型:字符
|字符串
DiscardIntronRedundant
- - - - - -国旗忽略intron-redundant transfrags
假
(默认)|真正的
国旗忽略intron-redundant transfrags如果它们有相同的5 '末端但是不同的3 '结束,指定为真正的
或假
。
例子:“DiscardIntronRedundant”,真的
数据类型:逻辑
DiscardSingleExonAll
- - - - - -国旗抛弃single-exon transfrags和参考记录
假
(默认)|真正的
国旗抛弃single-exon transfrags和参考成绩单、指定为真正的
或假
。
例子:“DiscardSingleExonAll”,真的
数据类型:逻辑
DiscardSingleExonReference
- - - - - -国旗抛弃single-exon引用记录
假
(默认)|真正的
国旗抛弃single-exon参考记录,指定为真正的
或假
。
例子:“DiscardSingleExonReference”,真的
数据类型:逻辑
ExtraCommand
- - - - - -额外的命令
”“
(默认)|特征向量|字符串
必须在本机的命令语法(由一个或两个破折号前缀)。使用这个选项没有相应的MATLAB应用无证旗帜和标志®属性。
例子:‘ExtraCommand’,”——库类型fr-secondstrand”
数据类型:字符
|字符串
GTFManifest
- - - - - -文本文件的名称包含GTF列表文件的过程
字符串|特征向量
文本文件的名称包含GTF的列表文件过程中,指定为字符串或字符向量。该文件必须包含一个每行GTF文件路径。您可以使用这个选项来代替通过文件名称的数组cuffcompare
。
例子:“GTFManifest”、“gtfManifestFile.txt”
数据类型:字符
|字符串
GenericGFF
- - - - - -标志将输入GTF文件视为人造石铺地面
假
(默认)|真正的
国旗治疗以人造石铺地面文件输入GTF文件,指定为真正的
或假
。使用这个选项,当输入人造石铺地面或GTF文件就不会产生袖扣
。
例子:“GenericGFF”,真的
数据类型:逻辑
IncludeAll
- - - - - -标记包含所有可用的选项
假
(默认)|真正的
原始(本机)语法是由一个或两个破折号前缀。默认情况下,该函数将只有指定的选项。如果该值为真正的
软件将所有可用的选项,默认值为未指定的选项,原来的语法。
请注意
如果你设置IncludeAll
来真正的
,软件将所有可用的属性,与未指定的属性的默认值。唯一的例外是当属性的默认值南
,正
,[]
,”
,或”“
,那么软件不会翻译相应的属性。
例子:“IncludeAll”,真的
数据类型:逻辑
IncludeContained
- - - - - -标志包括transfrags由其他transfrags包含
假
(默认)|真正的
标志包括transfrags由其他transfrags包含在输出相同的轨迹combined.gtf
,指定为真正的
或假
。默认情况下,cuffcompare
不包括这些包含transfrags。如果该值为真正的
,包含transfrags包括contained_in
属性指示第一个容器transfrag发现。
例子:“IncludeContained”,真的
数据类型:逻辑
MaxAccuracyRange
- - - - - -基地数量从终端外显子评估时使用外显子的准确性
One hundred.
(默认)|正整数
基地数量从终端外显子的自由结束评估时使用外显子的准确性,指定为一个正整数。
例子:“MaxAccuracyRange”, 80年
数据类型:双
MaxGroupingRange
- - - - - -用于分组的基地数量记录网站开始
One hundred.
(默认)|正整数
用于分组的基地数量记录网站开始,指定为一个正整数。
例子:“MaxGroupingRange”, 90年
数据类型:双
OutputPrefix
- - - - - -前缀cuffcompare
输出文件
“cuffcmp”
(默认)|字符串|特征向量
前缀cuffcompare
输出文件,指定为字符串或字符向量。这个选项必须是一个向量和一个非零长度字符串或字符。
例子:“OutputPrefix”、“cuffcompareOut”
数据类型:字符
|字符串
ReferenceGTF
- - - - - -GTF的名称或人造石铺地面文件包含引用记录
字符串|特征向量
GTF的名称或人造石铺地面文件包含引用记录每个样本比较,指定为字符串或字符向量。如果您提供一个文件,函数比较每个样本中的引用文件,标志着亚型重叠
,匹配
,或小说
。函数将这些标签存储在输出文件.refmap
和.tmap
文件。
例子:“ReferenceGTF”、“references.gtf”
数据类型:字符
|字符串
SequenceDirectory
- - - - - -包含FASTA序列分类目录的名称输入重复的记录
字符串|特征向量
包含FASTA序列分类目录的名称输入记录重复,指定为字符串或字符向量。目录必须包含FASTA-format文件与底层基因组序列和包含一个FASTA文件/参考。名字每个FASTA文件后染色体与扩展.fa
或.fasta
。
例子:‘SequenceDirectory’,”。/ SequenceDirectory /”
数据类型:字符
|字符串
SnCorrection
- - - - - -国旗只考虑参考输入transfrags成绩单,重叠
假
(默认)|真正的
国旗只考虑参考记录与任何输入transfrags重叠,指定为真正的
或假
。如果该值为真正的
:
函数忽略了任何参考成绩单不与任何输入transfrags重叠。
您还必须指定
ReferenceGTF
选择。
例子:“SnCorrection”,真的
数据类型:逻辑
SpCorrection
- - - - - -国旗与参考只考虑输入文本重叠记录
假
(默认)|真正的
国旗只考虑输入记录,与任何参考成绩单的重叠,指定为真正的
或假
。如果该值为真正的
:
函数忽略了任何输入记录不重叠的任何引用记录和报告没有小说位点。
您还必须指定
ReferenceGTF
选择。
例子:“SpCorrection”,真的
数据类型:逻辑
SuppressMapFiles
- - - - - -防止创建标记.tmap
和.refmap
文件
假
(默认)|真正的
标志以防止创建.tmap
和.refmap
文件,指定为真正的
或假
。将值设置为真正的
防止函数生成的文件。
例子:“SuppressMapFiles”,真的
数据类型:逻辑
输出参数
statsFile
——包含统计文本文件的名称
“cuffcmp.stats”
文本文件的名称包含相关统计数据记录的准确性在每个样本,作为字符串返回。函数执行测试的敏感性(Sn)和特异性各级(Sp),包括核苷酸,外显子和内含子水平和报告结果在这个文件中。
默认的文件名“cuffcmp.stats”
。如果您指定OutputPrefix
,函数使用它代替“cuffcmp”
。
combinedGTF
——名字的文件包含的所有transfrags在每个样本
“cuffcmp.combined.gtf”
文件名包含每个样本中所有transfrags的联盟,作为字符串返回。
默认的文件名“cuffcmp.combined.gtf”
。如果您指定OutputPrefix
,函数使用它代替“cuffcmp”
。
lociFile
——名字的文件与所有加工位点
“cuffcmp.loci”
文件的名称与所有加工位点在所有记录,作为字符串返回。
默认的文件名“cuffcmp.loci”
。如果您指定OutputPrefix
,函数使用它代替“cuffcmp”
。
trackingFile
——包含记录的文件名称相同的坐标
“cuffcmp.tracking”
文件名包含成绩单与相同的坐标,内含子,和链,作为字符串返回。
默认的文件名“cuffcmp.tracking”
。如果您指定OutputPrefix
,函数使用它代替“cuffcmp”
。
引用
[1]杰尔科尔,布莱恩·威廉姆斯,地理Pertea阿里Mortazavi关荣乐Marijke J货车压印垫板,芭芭拉·J的山地,史蒂文•L扎尔茨贝格Lior帕特。“记录装配和量化RNA-Seq揭示未经成绩单和同种型开关在细胞分化。”自然生物技术28日,没有。5(2010年5月):511 - 15所示。
版本历史
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。