从配对端ChIP-Seq数据中探索蛋白质- dna结合位点

开放脚本

这个例子展示了如何对转录因子进行全基因组分析拟南芥（泰雷菌属）模式生物。

为了提高性能，建议您在64位平台上运行此示例，因为内存占用接近2 Gb。在32位平台上，如果您收到“记忆”运行此示例时出错，请尝试增加操作系统的虚拟内存（或交换空间），或尝试设置3GB交换机（仅限32位Windows®XP）。本节介绍了这些技术文档．

介绍

ChIP-Seq是一种用于识别与特定DNA位点相互作用的转录因子的技术。第一次染色质免疫沉淀使用结合特定感兴趣蛋白质的抗体来丰富DNA-蛋白质复合物。然后，使用高通量测序对所有产生的片段进行处理。测序片段被映射回参考基因组。通过检测过度表达的区域，可以标记DNA-蛋白质相互作用的基因组位置。

在本例中，短读由配对端Illumina®平台产生。每个片段都是从两个成功映射的短读重新构建的，这样就可以计算出片段的确切长度。使用来自序列读取的成对端信息最大限度地提高了预测dna -蛋白结合位点的准确性。

数据集

本例探索了Wang生成的对端ChIP-Seq数据等[1] 使用Illumina®平台。数据集已礼貌地提交至基因表达综合库，登录号为GSM424618。未映射的成对末端读取可从NCBI FTP站点．

这个例子假设你:

（1）下载包含未映射短读取的数据，并使用NCBI SRA工具包．

（2）通过使用BWA[2]、Bowtie或SSAHA2（这是[1]作者使用的映射器）等映射器，将短读数据映射到泰雷Cress参考基因组，生成SAM格式的文件，

（3）先按引用名称，然后按基因组位置排序SAM格式的文件。

对于本示例的已发布版本，8655859对端短读使用BWA映射器[2]进行映射。BWA生成SAM格式的文件(aratha.sam)具有17311718条记录（8655859 x 2）。随机选择重复命中，仅报告一次命中，但映射质量较低。SAM文件在加载到MATLAB之前，使用SAMtools[3]进行排序并转换为BAM格式的文件。

示例的最后一部分还假设您下载了Thale Cress模型生物体(包括5条染色体)的参考基因组。取消注释以下代码行，从NCBI存储库下载引用:

%getgenbank（'NC_003070'、'FileFormat'、'fasta'、'tofile'、'ach1.fasta'）；%getgenbank（'NC_003071'、'FileFormat'、'fasta'、'tofile'、'ach2.fasta'）；% getgenbank(‘NC_003074’,‘FileFormat’,‘fasta’,‘去整理’,‘ach3.fasta’);% getgenbank(‘NC_003075’,‘FileFormat’,‘fasta’,‘去整理’,‘ach4.fasta’);% getgenbank(‘NC_003076’,‘FileFormat’,‘fasta’,‘去整理’,‘ach5.fasta’);

创建BAM格式文件的MATLAB®接口

要创建局部路线并查看覆盖范围，我们需要构建一个BioMap．BioMap具有一个接口，该接口提供对存储在BAM格式化文件中的映射短读的直接访问，从而最小化实际加载到工作空间的数据量。创建一个BioMap以访问映射在BAM格式化文件中的所有短读。

bm=生物地图(“aratha.bam”)

bm=BioMap with properties:SequenceDictionary:{5x1 cell}引用：[146373324x1文件索引属性]签名：[146373324x1文件索引属性]开始：[146373324x1文件索引属性]映射质量：[146373324x1文件索引属性]匹配位置：[146373324x1文件索引属性]质量：[146373244X1文件索引属性]序列：[146373244X1文件索引属性]头：[14637324x1文件索引属性]NSEQ:14637324名称：“”

使用获取摘要方法获取现有引用的列表以及映射到每个引用的短读的实际数量。

getSummary（bm）

生物地图摘要：名称：''容器类型：''数据已编入索引。''总序列号：''14637324.字典中的引用号：''5个序列号：''基因组范围Chr1 3151847 1 30427671 Chr2 3080417 1000 19698292 Chr3 3062917 94 23459782 Chr4 2218868 1029 185050 Chr5 312375 11 2697502

本例剩余部分重点分析五条染色体中的一条，Chr1．创建一个新的BioMap通过对第一条染色体进行子集划分来访问映射到第一条染色体的短读。

bm1 = getSubset (bm,“SelectReference”,“Chr1”)

bm1=具有属性的生物映射：SequenceDictionary:'Chr1'引用：[3151847x1文件索引属性]签名：[3151847x1文件索引属性]开始：[3151847x1文件索引属性]映射质量：[3151847x1文件索引属性]标志：[3151847x1文件索引属性]匹配位置：[3151847x1文件索引属性]质量：[3151847x1文件索引属性]序列：[3151847x1文件索引属性]头：[3151847x1文件索引属性]NSeqs:3151847名称：“”

通过访问映射短读的开始和停止位置，您可以获得基因组范围。

x1 = min(getStart(bm1)) x2 = max(getStop(bm1))

x1=uint32 1 x2=uint32 30427671

探索不同分辨率下的覆盖范围金宝搏官方网站

为了探索整个染色体范围的覆盖范围，需要一个装箱算法getBaseCoverage方法产生基于有效对准的覆盖信号。它还允许您指定一个仓宽来控制输出信号的大小(或分辨率)。然而，内部计算仍然在碱基对(bp)分辨率执行。这意味着，尽管设置了一个大的仓大小，覆盖信号仍然可以观察到狭窄的峰值。一旦覆盖信号被绘制出来，您就可以在使用工具提示时对图形的数据光标进行编程，以显示基因组的位置。您可以缩放和平移图形，以确定ChIP-Seq峰值的位置和高度。

[cov，bin]=getBaseCoverage（bm1，x1，x2，“宽度”,1000,“binType”,“马克斯”)；图形绘制（箱子、cov）轴（[x1、x2、0100]）%设置轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本位置”) ylabel (“深度”)标题(“1号染色体覆盖率”)

也可以在bp分辨率下探测覆盖信号（也称为堆积配置文件)。探索在4598837位置观测到的一个大峰。

p1=4598837-1000；p2=4598837+1000；图形图（p1:p2，getBaseCoverage（bm1，p1，p2））xlim（[p1，p2]）%设置x轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本位置”) ylabel (“深度”)标题(“1号染色体覆盖率”)

识别和过滤带有伪影的区域

观察位置4599029和4599145之间覆盖深度为800+的大峰值。研究这些读取是如何与参考染色体对齐的。您可以检索这些读取的子集，以满足覆盖深度25，因为这足以理解该区域中发生的事情。使用getIndex获取此子集的索引。然后使用getCompactAlignment显示相应的短读的多次对齐。

我= getIndex (bm1, 4599029, 4599145,“深度”，25）；bmx=getSubset（bm1，i，“记忆中”，false）getCompactAlignment（bmx，45990294594599145）

bmx=BioMap with properties:SequenceDictionary:'Chr1'引用：[62x1文件索引属性]签名：[62x1文件索引属性]开始：[62x1文件索引属性]映射质量：[62x1文件索引属性]标志：[62x1文件索引属性]匹配位置：[62x1文件索引属性]质量：[62x1文件索引属性]序列：[62x1文件索引属性]标头：[62x1文件索引属性]NSeqs:62名称：''ans=35x117字符数组'AGTT-AATCAATAGAAGCCCGAGGCGCTATCGCTATCGCTATCGCTATCATGTGATCTCTCTCTCTATCGTTGCGG GAGGAGCTCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCTTCT“AGTTCAATCAAATTAGCCAACTATGTGTGAATACTCTCTCTCC AGACTCCTTCTCCTTCCTTGG”AGTT“AGTTCAAGCCAAATATTGATGTGAATGAATACTCTCTCTCTAGGACTCCTTCTCCTTCCTTGGG”AGTACCAATCAATCAAAGCCCGAGGCGCCATA TAGGAGCCAACTCTCTCCATTCTCTCTCTCTAGG“CGTACCAATCACATCCATCCATTCTCTCTCTCTCTAGG”CGTACCATCCATGCATGCTATCTATCC AGCCATCCATGCATGCATGCTATCC AGCCAATCTATCCCTCTATCT TTCCCCTTTTGG“cGTACAATCAATCAAAGCCCGAGGGGCATTTC GGAGCCAACTAGTGATGAATAATCTCATCT”cGTACAATCAATCAAAGCCCGAGGCGCATTCATC GGAGCCAAAGCCAATCATGTGATCTCTCATC“cGTACAATCAAAGCCAGGCAGGCGCATATC GGAGCCAACTAGATGAATGATCTCTCTACT”cAGTCCAAATCCAAATCAGCCAATCAGCCAATCAGGCAGGCAGGCGCATC“cAGTCCAAATCAGCCAATCAGCCAATCAGGCAGGCAGGCAGGCGCGCATTCTATCTATCATC”AGTCTATCTATCATCATCTG“GATACAATCAATAAGAAGCCCGAGGCGCTATTCTG”GATACAATCAATGAAGCCCGAGGCGCTATTCTG“GATACAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAAGCCCGAGGCTATTCTCTG”GATACAATCAATCAATCAATCAATCAATGAATCAATCAATCAATGAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATCAATATACAATCAAAGCCCGAGGCTATTCTAG CCCAAACTATGTGAATCAATCAATAGCCCGAGGCTATTCTTG“ATACAATCAAAGCCCGAGGCTATTAG CACAAATCAAAGCCCGAGGCTATTGTTG”ATACAATCAAAGCCCGAGGCTATTAG CCAACTATGAATCAATCAATCAAAAGCCCGAGGCTATTGTTGC“ATCAATCAATCAATCAAAAGCCAGCCAGGCGCGCTATTAG”ATCAATCAATCAATCAATCAAAAGCCAGCCAGCCAGGCGCAGGCAGGCTATTCG“ATCTCGAGCAATCG”ATACAATCAAAGCCCGGGCGCCATTCTAG''ATTCAAAGCCCGAGGCGCATTCTAG''ATACAATCAAAGAGCCCGAGGCATTCTAG''ATACAATCAAAGCCCGAGGCGCATTCTAG''ATACAATCAAAGCCCGAGGCATTCTAG''CAATCAAATCAAAGCCCGAGGCAGGCATTCATTAG''CAATCAATCAAATCAAAGCCCGAGGCAGGCAGGCATTCATTCTAG''TAG''ATCAACAATCAATCAATCAAAGCCAGCCAGCCAGGCAGGCAGGCAGGCAGGCAGGCAGGCATGCATTCTAG''TAG''TAG''TAG''TAGCAGCTCTAT“taggaccaaactatgcatgaataaatccctat”ggagccaagctatgtgattgataaatctcctct“gaccaactatgtgattgataaatctcctg”gaccaactatgtgattgataaatcctg“gacccaaactatgtgatgatgataatcctctg”gaccaactgattgatatcctg“gaccaactgattgatatcctg”

除了目视确认对齐，您还可以探索该区域中所有短读取的映射质量，因为这可能暗示存在潜在问题。在这种情况下，不到1%的短读取具有60的Phred质量，这表明映射者很可能在参考基因组中发现多个命中，因此指定较低的贴图质量。

图一=getIndex（BM145990294599145）；hist（double（getMappingQuality（bm1，i）））标题(' 4599029和4599145之间读取的映射质量')包含(“分段质量分数”) ylabel (读取的数)

在这个数据集中，大多数大的峰值是由于卫星重复区域或由于它接近着丝粒[4]，并显示出与刚才探索的例子相似的特征。您可以使用相同的方法探索其他有大峰的区域。

为了防止出现这些问题区域，使用了两种技术。首先，假设提供的数据集使用成对末端排序，通过删除未在正确对中对齐的读取来减少潜在对齐器错误或歧义的数量。您可以通过探索国旗SAM格式文件的字段，其中第二个低有效位用于指示短读是否映射到正确的对中。

i=find（bitget（getFlag（bm1，2））；bm1_filtered=getSubset（bm1，i）

bm1_filtered = BioMap with properties: SequenceDictionary: 'Chr1' Reference: [3040724x1 File indexed property] Signature: [3040724x1 File indexed property] Start: [3040724x1 File indexed property] mapingquality: [3040724x1 File indexed property] Flag: [3040724x1 File indexed property] MatePosition: [3040724x1 File indexed property] Quality: [3040724x1 File indexed property][3040724x1 File indexed property]序列:[3040724x1 File indexed property] Header: [3040724x1 File indexed property] NSeqs: 3040724 Name: "

其次，只考虑唯一的映射读取。您可以通过查看映射质量来检测同样映射到参考序列的不同区域的读取，因为BWA将较低的映射质量（小于60）分配给这种类型的短读。

i=find（getMappingQuality（bm1\u filtered）==60）；bm1\u filtered=getSubset（bm1\u filtered，i）

bm1_filtered=BioMap with properties:SequenceDictionary:'Chr1'引用：[2313252x1文件索引属性]签名：[2313252x1文件索引属性]开始：[2313252x1文件索引属性]映射质量：[2313252x1文件索引属性]标志：[2313252x1文件索引属性]匹配位置：[2313252x1文件索引属性]质量：[2313252x1文件索引属性]序列：[2313252x1文件索引属性]头：[2313252x1文件索引属性]NSeqs:2313252名称：“”

使用两种方法再次可视化过滤后的数据集，整个染色体的粗略分辨率为1000 bp，小区域的精细分辨率为20000 bp。大部分由伪影引起的大峰值已被去除。

[x,本]= getBaseCoverage (bm1_filtered, x1, x2,“宽度”,1000,“binType”,“马克斯”)；图形绘制（箱子、cov）轴（[x1、x2、0100]）%设置轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本立场”) ylabel (“深度”)标题(“过滤后的1号染色体覆盖”)p1=24275801-10000；p2=24275801+10000；图形图（p1:p2，getBaseCoverage（bm1_过滤，p1，p2））xlim（[p1，p2]）%设置x轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本立场”) ylabel (“深度”)标题(“过滤后的1号染色体覆盖”)

从配对端读取中恢复测序片段

在Wang的[1]论文中，假设对端测序数据有可能提高DNA相关蛋白染色体结合位点识别的准确性，因为片段长度可以准确地得到，而在使用单端测序时，有必要采用片段长度的统计近似，并对所有假定的结合位点进行模糊的使用。

使用对端读取来重建测序片段。首先，获取每对中正向和反向读取的索引。这个信息被捕获在第五位国旗字段，根据SAM文件格式。

fow_idx =找到(~ bitget (getFlag (bm1_filtered), 5));rev_idx =找到(bitget (getFlag (bm1_filtered), 5));

sam格式的文件使用相同的头字符串来标识配对。通过对头字符串进行配对，可以确定短消息如何读入BioMap要配对头字符串，只需按升序排列并使用排序索引即可(高频和人力资源)链接未排序的标题字符串。

[~,高频]=排序(getHeader (bm1_filtered fow_idx));(~, hr) =排序(getHeader (bm1_filtered rev_idx));mate_idx = 0(元素个数(fow_idx), 1);mate_idx(高频)= rev_idx(人力资源);

使用生成的fow_idx和mate_idx用于检索配对的变量。例如，检索前10个片段的配对结束读取。

对于j=1:10 disp（getInfo（bm1_过滤，fow_idx（j）））disp（getInfo（bm1_过滤，mate_idx（j）））终止

SRR054715.sra.6849385 163 20 60 40米aaccctaacctctgaatcttaaccctaabbbbbbbbcb？2？BBBBB@7;BBC？7=7？BCC4*）3 SRR054715.sra.6849385 83 229 60 40米cctatttcttgtgtttttcttccttcacttagctgga 06bbbbb=bbbbbbbbbbbbbbbbbb a6@@@9<*9BBA@>bbbbbbbbb sr054715.sra.6992346 99 20 60 40米aaccctaacctcttctaacctctgaaccttcactaaa=B？BCB=2；BBBBB=B8BBBBBBC66BB=BC8BB SRR054715.sra.6992346 147 239 60 40M GTGGTTTTCTTTCCTTCACTTAGCTATCGGATGGTTTATCT BBCBB6B？B0B8B<'。BBBBBBBB=BBBBBBBB 6BBBBBBBB*6@SRR054715.sra.8438570 163 47 60 40M ctaatctaaatctttaaatctaccatccatccatcccc BC=bbbbbbcbb？==BBB；BB；？BBB8BCB？？B-BB<*4？+@B@BBBBBBBBBBB SRR054715.sra.5658991 163 103 60 40米CAAACCGAAACCGGTTTCTCTGTGTGAACTCATGT 7？BBBBBB=BBBB-8B；B-；BCB-B<49<6B8-BB？+？B SRR054715.sra.5658991 83 311 60 40米加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加特加+6B8B；8+9BB0，'9B=.=B SRR054715.sra.4625439 83 347 60 40米CTTAGTGTTTTTTTTTCTCAAGAATCTTATTTTTTTTTTTG+BB8B0BBB？BBBBBB-BBBB22？BBB-BB6BB-BBBBBB？B SRR054715.sra.1007474 163 210 60 40米ATTTTGAGTTCAAGATCAAGAATCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTG+BB8B0BBBBBBBBBBB；>BB6B6'，BBBCBB-08BBBBB；CB9630；>BBB9，<6？@@BBBBBBBBBBBB7<9BBBBBB6*”SRR054715.sra.7345693 147 393 60 40米TTatttggacatttgtgtgtgtctactcctttgggg BB-？+？C@>9BBBBBBB6.

使用成对的结束索引来构造新索引BioMap用最少的信息来表示测序片段。首先，计算插入大小。

J = getStop(bm1_filtered, fow_idx);K = getStart(bm1_filtered, mate_idx);L = k - j - 1;

通过使用短读原始签名(由适当数量的跳过雪茄符号(N).

n=努美尔（L）；雪茄=细胞（n，1）；对于i=1:n雪茄{i}=sprintf(“%dN”L (i));终止雪茄=strcat（获得签名（bm1_过滤，fow_idx），...雪茄，...getSignature (bm1_filtered mate_idx));

通过连接成对末端短读的相应序列来重构片段的序列。

seqs = strcat(getSequence(bm1_filtered, fow_idx)，...getSequence（bm1_过滤，mate_idx））；

计算并绘制碎片大小分布图。

J=getStart（bm1_过滤，fow_idx）；K=getStop（bm1\u过滤，mate\u idx）；L=K-J+1；图历史（双（左），100）标题（短跑）('片段大小分布\n%d个映射到染色体1的成对末端片段', n))包含(片段大小的) ylabel (“伯爵”)

构造一个新的BioMap表示测序片段。有了它，您将能够探索覆盖信号以及片段的局部对齐。

bm1_片段=生物图谱(“顺序”seq,“签名”，雪茄，“开始”，J）

bm1_fragments=BioMap with properties:SequenceDictionary:{0x1 cell}引用：{0x1 cell}签名：{1156626x1 cell}开始：[1156626x1 uint32]映射质量：[0x1 uint8]标志：[0x1 uint16]匹配位置：[0x1 uint32]质量：{0x1 cell}序列：{1156626x1 cell}头：{0x1 cell}nseq:1156626名称：“”

使用片段比对探索覆盖率

比较使用重构片段获得的覆盖信号与使用单个成对末端读取获得的覆盖信号。请注意，由峰值表示的富集结合位点可以更好地与背景信号区分开来。

cov_reads=getBaseCoverage（bm1_过滤，x1，x2，“宽度”,1000,“binType”,“马克斯”)[cov_片段，bin]=getBaseCoverage（bm1_片段，x1，x2，“宽度”,1000,“binType”,“马克斯”）;本图绘制(本,cov_reads, cov_fragments) xlim ((x1, x2))%设置x轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本位置”) ylabel (“深度”)标题(的报道比较)传奇(“简短阅读”,“碎片”)

在bp分辨率上执行相同的比较。在这个数据集中，Wang等人。[1]研究了一个基本的螺旋-环-螺旋(bHLH)转录因子。bHLH蛋白质通常结合一个被称为E-box（带着CANNTG主题)。使用禁区加载参考染色体，搜索E-box在3'和5'方向的Motif，然后覆盖Motif的位置在覆盖信号。这个例子适用于1-200,000区域，但是为了更好地描述细节，数字限制被缩小到3000 bp区域。

p1 = 1;p2 = 200000;cov_reads = getBaseCoverage (bm1_filtered, p1, p2);[cov_fragments,本]= getBaseCoverage (bm1_fragments, p1, p2);chr1 = fastaread (“ach1.fasta”）;mp1 = regexp (chr1.Sequence (p1, p2),“CA . . TG”) + 3 + p1;mp2 = regexp (chr1.Sequence (p1, p2),‘GT..AC’)+3+p1；基序=[mp1 mp2]；图形图（bin，cov_读取，bin，cov_片段）保持不变在情节([1;1;1]*图案,(0;马克斯(ylim);南),“r”)xlim（[111000 114000]）%设置x轴限制固定位置标签%格式化记号标签并添加数据游标包含(“基本位置”) ylabel (“深度”)标题(的报道比较)传奇(“简短阅读”,“碎片”,“E-box主题”)

注意，不可能将覆盖信号中的每个峰值与E-box主题。这是因为测序片段的长度与平均基序距离相当，模糊峰是接近的。画出两者之间距离的分布E-box主题网站。

motif_sep = diff(排序(主题);图嘘(motif_sep (motif_sep < 500), 50)标题(“相邻E-box图案之间的距离(bp)”)包含('距离（bp）') ylabel (“计数”)

发现覆盖信号中的显著峰值

使用的函数mspeaks用小波去噪对片段比对的覆盖信号执行峰值检测。使用高度滤波器过滤假定的芯片峰值，以去除考虑中的结合过程未富集的峰值。

假定的_峰=mspeaks（bin，cov_片段，“噪音刺激器”, 20岁,...“高度过滤器”,10,“展示区”，正确）；保持在传奇(“关闭”)图（[1；1；1]*基序（基序>p1，基序“r”)xlim（[111000 114000]）%设置x轴限制固定位置标签%格式化记号标签并添加数据游标传奇(“从碎片覆盖”,“小波去噪覆盖”,“假定芯片峰值”,“E-box图案”)包含(“基本位置”) ylabel (“深度”)标题(“芯片序列峰值检测”)

使用knnsearch函数来找出与每一个假定峰最接近的基序。正如预期的那样，大多数富集的ChIP峰都接近于E-box母题[1]。这加强了当结合位点的预期密度较高时，以可能的最佳分辨率（bp分辨率）执行峰值检测的重要性，就像在E-box这个例子也说明了对于这种类型的分析，双端测序应该比单端测序考虑[1]。

h = knnsearch(主题”,putative_peaks (: 1));距离= putative_peaks(: 1)主题(h (:)) ';图嘘(距离(abs(距离)< 200),50)标题(“每个检测到的峰值到最近的E盒图案的距离”)包含('距离（bp）') ylabel (“计数”)

工具书类

[1]王从茂，徐杰，张大胜，张大兵。“一种从配对芯片seq数据中识别体内蛋白- dna结合位点的有效方法。”BMC生物信息学11，第1号（2010）：81。

[2]使用Burrows-Wheeler变换快速准确的短读对齐生物信息学25岁,没有。14 (July 15, 2009): 1754-60。

[3]李，H.，B.汉萨克，A.怀索克，T.芬内尔，J.阮，N.荷马，G.马特，G.阿贝卡西斯，R.杜宾和1000基因组计划数据处理小组。“序列比对/地图格式和SAMtools。”生物信息学第25号，第16号（2009年8月15日）：2078-79。

[4]约蒂，R.，S.库达帕，A.巴尔斯基，K.崔和K.赵。“从ChIP-Seq数据全基因组鉴定体内蛋白质DNA结合位点。”核酸的研究36岁的没有。16(2008年8月1日):5221-31。

[5]霍夫曼、布拉德·G和史蒂文·J·M·琼斯。“使用染色质免疫沉淀结合流式细胞测序对DNA-蛋白质相互作用进行全基因组鉴定。”内分泌学杂志201年,没有。1(2009年4月):1 - 13。

[6]Ramsey, Stephen A.， Theo A. Knijnenburg, Kathleen A. Kennedy, Daniel E. Zak, Mark Gilchrist, Elizabeth S. Gold, Carrie D. Johnson, et al.“全基因组组蛋白乙酰化数据改善了哺乳动物转录因子结合位点的预测。”生物信息学第26、17号（2010年9月1日）：2071-75。