从配对端ChIP-Seq数据中探索蛋白质- dna结合位点

打开脚本

该示例显示了如何对转录因子进行基因组分析拟南芥蒂利亚纳(Thale Cress)模式生物。

为了提高性能，建议您在64位平台上运行这个例子，因为内存占用接近2 GB。在32位平台上，如果收到“记忆”当运行此示例时，请尝试增加操作系统的虚拟内存(或交换空间)或尝试设置3 gbswitch(32位Windows®XP only)。本文将描述这些技术文档。

介绍

ChIP-Seq是一种用于识别与特定DNA位点相互作用的转录因子的技术。首先，染色质免疫沉淀利用一种抗体，结合到一个特定的蛋白质感兴趣的dna -蛋白质复合物。然后，使用高通量测序对所有得到的片段进行处理。测序片段被映射回参考基因组。通过检查过度呈现的区域，可以标记dna -蛋白质相互作用的基因组位置。

在本例中，短读由配对端Illumina®平台产生。每个片段都是从两个成功映射的短读重新构建的，这样就可以计算出片段的确切长度。使用来自序列读取的成对端信息最大限度地提高了预测dna -蛋白结合位点的准确性。

数据集

此示例探讨了Wang生成的成对终端芯片-SEQ数据et.al.[1]使用Illumina®平台。该数据集已提交至GSM424618登录号的Gene Expression Omnibus知识库。属性获取未映射的对端读NCBI FTP站点。

这个例子假设你:

(1)下载包含未映射短读的数据，并使用NCBI SRA Toolkit.。

(2)使用BWA[2]、Bowtie或SSAHA2(这是[1]作者使用的mapper)，将短读映射到Thale Cress参考基因组，生成SAM格式的文件，

(3)先按参考名称排序，再按基因组位置排序。

对于这个示例的已发布版本，使用BWA映射器[2]映射了8,655,859个对端短读。BWA制作了一个SAM格式的文件(aratha.sam）用17311718条记录（8655859×2）。重复命中随机选择，只有一个命中报道，但具有较低的映射质量。SAM文件被命令和使用SAMtools转换为BAM格式的文件[3]之前被加载到MATLAB。

示例的最后一部分还假设您下载了Thale Cress模型生物体(包括5条染色体)的参考基因组。取消注释以下代码行，从NCBI存储库下载引用:

％getgenbank（ 'NC_003070'， '的FileFormat'， 'FASTA'， 'TOFILE'， 'ach1.fasta'）;% getgenbank(‘NC_003071’,‘FileFormat’,‘fasta’,‘去整理’,‘ach2.fasta’);% getgenbank(‘NC_003074’,‘FileFormat’,‘fasta’,‘去整理’,‘ach3.fasta’);% getgenbank(‘NC_003075’,‘FileFormat’,‘fasta’,‘去整理’,‘ach4.fasta’);％getgenbank（'nc_003076'，'fileformat'，'fasta'，'tofile'，'ach5.fasta'）;

创建一个MATLAB®接口到BAM格式化文件

要在覆盖创建本地路线和外观，我们需要构建一个Biomap.。Biomap.有一个接口，可直接访问存储在BAM格式化文件中的映射短读取，从而最大限度地减少实际加载到工作区的数据量。创建一个Biomap.以访问映射在BAM格式化文件中的所有短读。

bm = BioMap (“aratha.bam”）

bm = BioMap with properties: SequenceDictionary: {5x1 cell} Reference: [14637324x1 File indexed property] Signature: [14637324x1 File indexed property] Start: [14637324x1 File indexed property] MappingQuality: [14637324x1 File indexed property] Flag: [14637324x1 File indexed property] MatePosition: [14637324x1 File indexed property] Quality:[14637324x1 File indexed property] Sequence: [14637324x1 File indexed property] Header: [14637324x1 File indexed property] NSeqs: 14637324 Name: "

使用getSummary方法获取现有引用的列表以及映射到每个引用的短读的实际数量。

getSummary（BM）

名称:“Container_Type:‘数据被文件索引。’”Total_Number_of_Sequences: 14637324 Number_of_References_in_Dictionary: 5 Number_of_Sequences Genomic_Range Chr1 3151847 1 30427671 Chr2 3080417 1000 19698292 Chr3 3062917 94 23459782 Chr4 2218868 1029 18585050 Chr5 3123275 11 26975502

这个例子的剩余部分集中于对五条染色体中的一条的分析，CHR1。创建一个新的Biomap.访问的短读取由子集划分的第一个映射到第一染色体。

bm1 = getsubset（bm，“SelectReference”，'chr1'）

bm1 = BioMap with properties: SequenceDictionary: 'Chr1' Reference: [3151847x1 File indexed property] Signature: [3151847x1 File indexed property] Start: [3151847x1 File indexed property] MappingQuality: [3151847x1 File indexed property] Flag: [3151847x1 File indexed property] MatePosition: [3151847x1 File indexed property] Quality: [3151847x1 File indexed property][3151847x1 File indexed property] NSeqs: 3151847 Name: "

通过访问映射短读的起始和停止位置，可以获得基因组范围。

x1 = min(getStart(bm1)) x2 = max(getStop(bm1))

X1 = uint32 1 x2 = uint32 30427671

探索不同分辨率的报道金宝搏官方网站

为了探索整个染色体范围的覆盖，需要一个分箱算法。的GetBasecoverage.方法产生基于有效对准的覆盖信号。它还允许您指定一个仓宽来控制输出信号的大小(或分辨率)。然而，内部计算仍然在碱基对(bp)分辨率执行。这意味着，尽管设置了一个大的仓大小，覆盖信号仍然可以观察到狭窄的峰值。一旦覆盖信号被绘制出来，您就可以在使用工具提示时对图形的数据光标进行编程，以显示基因组的位置。您可以缩放和平移图形，以确定ChIP-Seq峰值的位置和高度。

[x,本]= getBaseCoverage (bm1, x1, x2,“binWidth”, 1000,“binType”，'最大限度'）;图绘制(本、浸)轴((x1, x2, 0100))％设置轴界限fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含(“基本立场”）ylabel（“深度”)标题(“1号染色体的覆盖”）

它也可以在bp分辨率(也称为堆积配置文件)。探索在4598837位置观测到的一个大峰。

p1 = 4598837 - 1000;p2 = 4598837 + 1000;图绘制(p1, p2, getBaseCoverage (bm1, p1, p2)) xlim ((p1, p2))%设置x轴限制fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含(“基本立场”）ylabel（“深度”)标题(“1号染色体的覆盖”）

识别和过滤带有工件的区域

观察覆盖深度的大峰值为800+，在位置4599029和4599145之间。研究这些读取如何与参考染色体对齐。您可以检索这些读取的子集足以满足25的覆盖深度，因为这足以了解该区域中发生的情况。用getIndex获取这个子集的索引。然后使用getCompactAlignment显示相应的短读的多次对齐。

i = getIndex（BM1,4599029,4599145，“深度”25);bmx = getSubset (bm1,我,“inmemory”假)getCompactAlignment (bmx, 4599029, 4599145)

BMX = BioMap与属性：SequenceDictionary： 'CHR1' 参考文献：[62x1文件索引属性]签名：[62x1文件索引属性]开始：[62x1文件索引属性] MappingQuality：[62x1文件索引属性]标记：[62x1文件索引属性] MatePosition：[62x1文件索引属性]质量：[62x1文件索引属性]顺序：[62x1文件索引属性]部首：[62x1文件索引属性] NSeqs：62名称： '' ANS = 35x117 char数组“AGTT AATCAAATAGAAAGCCCCGAGGGCGCCATATCCTAGGCGC AAACTATGTGATTGAATAAATCCTCCTCTATCTGTTGCGG GAGGACTCCTTCTCCTTCCCCTTTTGG' 'AGTGC TCAAATAGAAAGCCCCGAGGGCGCCATATTCTAGGAGCCC GAATAAATCCTCCTCTATCTGTTGCGGGTCGAGGACTCCT CTCCTGCCCCTTTTGG' 'AGTTCAA CCCGAGGGCGCCATATTCTAGGAGCCCAAACTATGTGATT TATCTGTTGCGGGTCGAGGACTCCTTCTCCTTCCCCTTCT' 'AGTTCAATCAAATAGAAAGC TTCTAGGAGCCCAAACTATGTGATTGAATAAATCCTCCTC AGGACTCCTTCTCCTTCCCCTTTTGG' 'AGTT AAGGAGCCCAAAATATGTGATTGAATAAATCCACCTCTAT GGACTCCTTCTCCTTCCCCTTTTGG'' AGTACAATCAAATAGAAAGCCCCGAGGGCGCCATA TAGGAGCCCAAACTATGTGATTGAATAAATCCTCCTCTAT CCTTCACCTTCCCCTTTTGG 'CGTACAATCAAATAGAAAGCCCCGAGGGCGCCATATTC GGAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCT TTCCCCTTTTGG'CGTACAATCAAATAGAAAGCCCCGAGGGCGCCATATTC GGAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCT'CGTACAATCAAATAGAAAGCCCCGAGGGCGCCATATTC GGAGCCCAAGCTATGTGATTGAATAAATCCTCCTCTATCT'CGTACAATCAAATAGAAAGCCCCGAGGGCGCCATATTC GGAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCT'AGTTCAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTA GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTA GAGCCCAAACTATGTGATTGAATAAATCTTCCTCTATCTG'GATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTA GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTA GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTA GAGCCCAAATTATGTGATTGAATAAATCCTCCTCTATCTG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG CCCAAACTATGTGATTGAATAAATCCTCCTCTATCTGTTG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG CACAAACTATGTGATTGAATAAATCCTCCTCTATCTGTTG' ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG CCAAACTATGTGATTGAATAAATCCTCCTCTATCTGTTGC'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTCG'ATACAATCAAATAGAAAGCCCCGGGGGCGCCATATTCTAG'ATTGAGTCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG'ATACAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAG'CAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAGGAG'CAATCAAATAGAAAGCCCCGAGGGCGCCATATTCTAGGAG'TAGGAGCCCAAACTATGTGATTGAATAAATCCTCCTCTAT'TAGGAGCCCAAACTATGCCATTGAATAAATCCTCCGCTAT'GGAGCCCAAGCTATGTGATTGAATAAATCCTCCTCTATCT'GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG'' GAGCCCAAACTATGTGATTGAATAAATCCTCCTCTATCTG“

除了可视化地确认对齐之外，您还可以研究该区域中所有短读的映射质量，因为这可能会提示一个潜在的问题。在这种情况下，只有不到1%的短reads具有60的Phred质量，这表明作图者最有可能在参考基因组中发现多个命中，因此作图质量较低。

figure i = getIndex(bm1,4599029,4599145);嘘(双(getMappingQuality (bm1, i)))标题(' 4599029和4599145之间读取的映射质量'）xlabel（“PHRED质量得分”）ylabel（'读数数'）

在这个数据集中，大多数大的峰值是由于卫星重复区域或由于它接近着丝粒[4]，并显示出与刚才探索的例子相似的特征。您可以使用相同的方法探索其他有大峰的区域。

为了防止这些问题区域，使用了两种技术。首先，给定所提供的数据集使用对端排序，通过删除未在适当的对中对齐的读，可以减少潜在的对齐错误或歧义的数量。你可以通过探索国旗字段，其中第二个低有效位用于指示短读是否映射为适当的对。

我找= (bitget (getFlag (bm1), 2));bm1_filtered = getSubset (bm1,我)

BM1_Filtered =具有属性的Biomap：Sequencedictionary：'CHR1'参考：[3040724x1文件索引属性]签名：[3040724x1文件索引属性] start：[3040724x1文件索引属性] mappality：[3040724x1文件索引属性]标志：[3040724x1文件索引属性] MatePosition：[3040724x1文件索引属性]质量：[3040724x1文件索引属性]序列：[3040724x1文件索引属性]标题：[3040724x1文件索引属性] nseqs：3040724名称：''

其次，只考虑唯一映射的读取。通过查看映射质量，可以检测到同样映射到参考序列不同区域的读，因为BWA为这种类型的短读分配了较低的映射质量(小于60)。

我找= (getMappingQuality (bm1_filtered) = = 60);bm1_filtered = getSubset (bm1_filtered,我)

bm1_filtered = BioMap与属性：SequenceDictionary： 'CHR1' 参考文献：[2313252x1文件索引属性]签名：[2313252x1文件索引属性]开始：[2313252x1文件索引属性] MappingQuality：[2313252x1文件索引属性]标记：[2313252x1文件索引属性] MatePosition：[2313252x1文件索引属性]质量：[2313252x1文件索引属性]顺序：[2313252x1文件索引属性]部首：[2313252x1文件索引属性] NSeqs：2313252名称： ''

使用这两种方法再次可视化过滤后的数据集，整个染色体的粗分辨率为1000 bp，而一个小区域的分辨率为20000 bp。大多数由于人为因素造成的大峰值已经被移除。

[cov，bin] = getbasecoverage（bm1_filtered，x1，x2，“binWidth”, 1000,“binType”，'最大限度'）;图绘制(本、浸)轴((x1, x2, 0100))％设置轴界限fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含('基地位置'）ylabel（“深度”)标题('过滤后染色体1覆盖'）P1 = 24275801-10000;P2 = 24275801 + 10000;图情节（P1：P2，getBaseCoverage（bm1_filtered，P1，P2））XLIM（[P1，P2]）%设置x轴限制fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含('基地位置'）ylabel（“深度”)标题('过滤后染色体1覆盖'）

从配对端读取中恢复测序片段

在王的纸张[1]上假设配对端测序数据具有增加DNA相关蛋白质的染色体结合位点的鉴定的准确性，因为在使用单端测序时可以准确地导出片段长度对于碎片长度的统计近似是必要的，并且模糊地用于所有推定的结合位点。

使用配对端读取重建排序片段。首先，在每对中获取前进的索引和反向读取。此信息在第五位捕获国旗字段，根据SAM文件格式。

fow_idx =查找（〜bitget（getflag（bm1_filtered），5））;rev_idx = find（bitget（getflag（bm1_filtered），5））;

SAM格式的文件使用相同的标题字符串来识别对配合。通过配对标题字符串，您可以确定简短的读取方式Biomap.都是成对的。要对头字符串进行配对，只需将它们按升序排序并使用排序索引(高频和人力资源)链接未排序的头字符串。

[〜，hf] = sort（getheader（bm1_filtered，fow_idx））;[〜，hr] = sort（getheader（bm1_filtered，rev_idx））;mate_idx = zeros（numel（fow_idx），1）;mate_idx（hf）= rev_idx（hr）;

使用产生fow_idx和mate_idx用于检索配对的变量。例如，检索前10个片段的对端读取。

为j = 1:10 disp(getInfo(bm1_filtered, fow_idx(j))) disp(getInfo(bm1_filtered, mate_idx(j))))结束

SRR054715.sra。6849385 163 20 60 40M aaccctaaacctctgaatccttaatccctaaatccctaaatccctaaa bbbbbbbbcbcb ?2?BBBBB@7;6849385 83 229 60 40M6992346 99 20 60 40M aaccctaaacctctgaatccttaccctaaatccctaaa =B?B0B8B<'. bbbbbbbb =BBBBB6BBBBB;*6@ SRR054715.sra。B-BB<*4?+< bb6bb66bb?77年bbcbc@4abb-bbbccbb SRR054715.sra。1676744 83 283 60 40m ttgattattggatacaagctttgctacgatctacatttg ccb6bbb93 < bbbb >> @b ?<BB6B6',BBBCBB-08BBBBB;CB9630< SRR054715.sra.1007474 83 408 60 40M TATTGTCATTCTTACTCCTTTGTGGAAATGTTTGTTCTAT BBB@AABBBCCCBBBBBBB=BBBCB8BBBBB=B6BCBB77 SRR054715.sra.7345693 99 213 60 40M TGAGGTCAATACAAATCCTATTTCTTGTGGTTTTCTTTCT B>;>BBB9,<6?@@BBBBBBBBBBBBBB7<9BBBBBB6*' SRR054715.sra.7345693 147 393 60 40M TTATTTTTGGACATTTATTGTCATTCTTACTCCTTTGGGG BB-?+?C@>9BBBBBB6.

使用结对的索引来构造一个新的Biomap.用最少的信息来表示测序片段。首先，计算插入大小。

j = getstop（bm1_filtered，fow_idx）;k = getstart（bm1_filtered，mate_idx）;l = k  -  j  -  1;

通过使用短读原始签名(由适当数量的跳过雪茄符号(N)．

n =元素个数(L);雪茄=细胞(n, 1);为I = 1:n个雪茄{I} = sprintf('％DN'L (i));结束雪茄= strcat(getSignature(bm1_filtered, fow_idx)，.．.雪茄,.．.getsignature（bm1_filtered，mate_idx））;

通过连接两端短读的各自序列来重建片段的序列。

seqs = strcat(getSequence(bm1_filtered, fow_idx)，.．.getSequence (bm1_filtered mate_idx));

计算和绘制碎片大小分布。

J = getStart (bm1_filtered fow_idx);K = getStop (bm1_filtered mate_idx);L = k - j + 1;图嘘(双(L), 100)标题(sprintf (“片段大小分布\n %d配对端片段映射到染色体1”, n))包含('片段大小'）ylabel（“数”）

构造一个新的Biomap.来表示测序的片段。有了这个，你将能够探索覆盖信号以及碎片的局部比对。

bm1_fragments = BioMap (“序列”seq,“签名”雪茄,“开始”, J)

bm1_fragments = BioMap with properties: SequenceDictionary: {0x1 cell} Reference: {0x1 cell} Signature: {1156626x1 cell} Start: [1156626x1 uint32] MappingQuality: [0x1 uint8] Flag: [0x1 uint16] MatePosition: [0x1 uint32] Quality: {0x1 cell} Sequence: {1156626x1 cell} Header: {0x1 cell} NSeqs: 1156626 Name: "

使用片段对齐探索覆盖范围

比较使用重建片段获得的覆盖信号与使用单独的对端读取获得的覆盖信号。注意，富集的结合位点(以峰值表示)可以更好地从背景信号中区分出来。

cov_reads = getBaseCoverage (bm1_filtered, x1, x2,“binWidth”, 1000,“binType”，'最大限度'）;[cov_fragments,本]= getBaseCoverage (bm1_fragments, x1, x2,“binWidth”, 1000,“binType”，'最大限度'）;本图绘制(本,cov_reads, cov_fragments) xlim ((x1, x2))%设置x轴限制fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含(“基本立场”）ylabel（“深度”)标题('覆盖比较')传说(“短读”，'碎片'）

在bp分辨率上执行相同的比较。在这个数据集中，Wang等人。[1]研究了一个基本的螺旋-环-螺旋(bHLH)转录因子。bHLH蛋白质通常结合一个被称为E-box(CANNTG主题)。用fastaread加载参考染色体，搜索E-box在3'和5'方向的Motif，然后覆盖Motif的位置在覆盖信号。这个例子适用于1-200,000区域，但是为了更好地描述细节，数字限制被缩小到3000 bp区域。

p1 = 1;P2 = 200000;cov_reads = getBasecoverage（BM1_Filtered，P1，P2）;[cov_fragments，bin] = getBasecoverage（BM1_FRAGMATS，P1，P2）;CHR1 = FASTAREAD（“ach1.fasta”）;mp1 = regexp (chr1.Sequence (p1, p2),“CA . . TG”) + 3 + p1;mp2 = regexp（chr1.sequence（p1：p2），“GT . .交流”) + 3 + p1;= [mp1 mp2];本图绘制(本,cov_reads, cov_fragments)在绘图（[1; 1; 1] *图案，[0; MAX（ylim）; nan]，“r”) xlim(114000年[111000])%设置x轴限制fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors包含(“基本立场”）ylabel（“深度”)标题('覆盖比较')传说(“短读”，'碎片'，“E-box主题”）

注意，这是不可能的每个峰与一个覆盖信号关联E-box主题。这是因为测序片段的长度与平均基序距离相当，模糊峰是接近的。画出两者之间距离的分布E-box主题网站。

motif_sep = diff（sort（图案））;图SIST（MOTIF_SEP（MOTIF_SEP <500），50）标题（相邻的E-Box主题之间的“距离（BP）”）xlabel（“距离(bp)”）ylabel（“计数”）

寻找有意义的峰在信号覆盖范围

使用功能mspeaks对碎片对齐的覆盖信号进行小波去噪的峰值检测。使用高度滤波器过滤假定的芯片峰值，以去除未被考虑中的绑定过程富集的峰值。

cov_fragments putative_peaks = mspeaks(本,“noiseestimator”20，.．.“heightfilter”10“showplot”,真正的);持有在传奇(“关闭”)情节([1;1;1]*图案(图案> p1 &主题< p2),(0;马克斯(ylim);南),“r”) xlim(114000年[111000])%设置x轴限制fixGenomicPositionLabels％格式的刻度标记，并增加了datacursors传奇(“从碎片覆盖”，“小波去噪报道”，“假定的芯片峰”，“E-box图案”）xlabel（“基本立场”）ylabel（“深度”)标题(“芯片起峰值检测”）

使用knnsearch函数来找出与每一个假定峰最接近的基序。正如预期的那样，大多数富集的ChIP峰都接近于E-box主题[1]。当结合位点的预期密度很高时，这就加强了以最佳分辨率(bp分辨率)执行峰值检测的重要性，就像在这种情况下E-box主题。这个例子还说明，对于这种类型的分析，应该考虑对端测序而不是单端测序[1]。

h = knnsearch(主题”,putative_peaks (: 1));距离= putative_peaks(: 1)主题(h (:)) ';图嘘(距离(abs(距离)< 200),50)标题(“每个检测峰到最近E-box Motif的距离”）xlabel（“距离(bp)”）ylabel（“计数”）

参考文献

［1］王从茂，徐杰，张大胜，张大兵。“一种从配对芯片seq数据中识别体内蛋白- dna结合位点的有效方法。”BMC生物信息学11日,没有。1(2010): 81。

［2］李，H.和R.杜宾。“快速和准确的短读对齐与布伦斯-惠勒变换。”生物信息学25岁,没有。14 (July 15, 2009): 1754-60。

［3］Li, H.， B. Handsaker, A. Wysoker, T. Fennell, J. Ruan, N. Homer, G. Marth, G. Abecasis, R. Durbin, and 1000 Genome Project Data Processing Subgroup。序列对齐/地图格式和SAMtools生物信息学25岁,没有。16 (August 15, 2009): 2078-79。

［4］乔提，R.， S. Cuddapah, A. Barski, K. Cui, K. Zhao。来自ChIP-Seq数据的体内蛋白质- dna结合位点的全基因组鉴定核酸研究36，不。16（2008年8月1日）：5221-31。

[５]霍夫曼，布拉德·G和史蒂文·J·M·琼斯。利用染色质免疫沉淀结合流式细胞测序的dna -蛋白质相互作用的全基因组鉴定内分泌学杂志》201年,没有。1(2009年4月):1 - 13。

［6］Ramsey, Stephen A.， Theo A. Knijnenburg, Kathleen A. Kennedy, Daniel E. Zak, Mark Gilchrist, Elizabeth S. Gold, Carrie D. Johnson, et al.“全基因组组蛋白乙酰化数据改善了哺乳动物转录因子结合位点的预测。”生物信息学26，不。17（2010年9月1日）：2071-75。