主要内容

使用命令行探索核苷酸序列

示例概述

在对一段DNA进行测序后,首要任务之一是研究序列中的核苷酸含量。从一个DNA序列开始,这个例子使用序列统计函数来确定单、二、三核苷酸的含量,并定位开放阅读框。

在网上搜索序列信息

下面的程序说明了如何使用MATLAB®帮助浏览器在Web上搜索信息。在本例中,您对研究人类线粒体基因组感兴趣。虽然在细胞核中发现了许多编码线粒体蛋白质的基因,但线粒体中有编码用于产生能量的蛋白质的基因。

首先研究有关人类线粒体的信息并找到基因组的核苷酸序列。接下来,查看整个序列的核苷酸含量。最后,确定开放阅读框并提取特定的基因序列。

  1. 使用MATLAB帮助浏览器浏览Web。在MATLAB命令窗口中,键入

    网络('http://www.ncbi.nlm.nih.gov/')

    将打开一个单独的浏览器窗口,其中显示NCBI网站的主页。

  2. 在NCBI网站上搜索信息。例如,为了寻找人类线粒体基因组搜索列表中,选择基因组,在搜索列表,输入人线粒体

    NCBI Web搜索返回相关页面的链接列表。

  3. 选择结果页。例如,单击标记的链接NC_012920

    MATLAB Help浏览器显示了人类线粒体基因组的NCBI页面。

从Web读取序列信息

以下过程说明了如何在公共数据库中查找核苷酸序列,并将序列信息读入MATLAB环境。可以从Web访问许多核苷酸序列的公共数据库。MATLAB命令窗口为将序列信息读入MATLAB环境提供了一个集成环境耳鼻喉科。

人类线粒体基因组的一致序列已经被GenBank所证实®登录号NC_012920.由于整个GenBank条目相当大,而您可能只对序列感兴趣,因此您可以只获得序列信息。

  1. 从Web数据库获取序列信息。例如,要检索人类线粒体基因组的序列信息,请在MATLAB命令窗口中键入

    线粒体=getgenbank('NC_012920','SequenceOnly',true)

    getgenbank函数从GenBank数据库中检索核苷酸序列并创建字符数组。

    线粒体=GATCACAGGTATCACCATTAACCACTCACGGGGAGCTCTCTCTCTCTCTCGGGGGGTGCAGCGATCATGCGAGCGCTG GAGCCCGGAGCCCTATGCGCAGGCTCAGTCATGCGCGCAGTCTCTCTCATTCTCTCATTCATTCATTCAGCCATCGCGATCCATCCATCCATCCATTCATTCATTCATTCATTCAGATCCATACTA AACCATACTA AACCATACTA AAGTA。

  2. 如果没有Web连接,可以使用命令从生物信息学工具箱™软件中包含的MAT文件加载数据

    负载线粒体

    负载函数加载序列线粒体进入MATLAB工作空间。

  3. 获取有关序列的信息。类型

    线粒体

    有关序列大小的信息显示在MATLAB命令窗口中。

    名称大小字节类属性线粒体1x16569 33138字符

核苷酸组成的测定

下面的步骤说明了如何确定单体和二聚体,然后将数据可视化为图表和条形图。DNA序列中a +T核苷酸百分比高的部分通常表明该序列的基因间部分,而a +T核苷酸百分比低和G+C核苷酸百分比高的部分表明可能的基因。许多倍高的CG二核苷酸含量位于一个基因之前。

在将序列读入MATLAB环境后,可以使用序列统计函数来确定序列是否具有蛋白质编码区域的特征。该程序以人类线粒体基因组为例。看到从Web读取序列信息

  1. 在图形中绘制单体密度和组合单体密度。在MATLAB命令窗口中,键入

    ntdensity(线粒体)

    这张图显示基因组富含A+T。

  2. 基数作用

    basecount(线粒体)

    显示了5'-3'链的核苷酸计数列表。

    ans=A:5124 C:5181 G:2169 T:4094
  3. 计数一个序列反向补体中的核苷酸SeqrComponent作用

    碱基计数(序列组成(线粒体))

    正如预期的那样,反向补体链上的核苷酸数与5'-3'链是互补的。

    ans = A: 4094 C: 2169 G: 5181 T: 5124
  4. 使用函数基数图表可视化核苷酸分布的选项。

    图basecount(线粒体,“图”,“派”);

    饼图显示在MATLAB Figure窗口中。

  5. 按顺序计算二聚体并在条形图中显示信息。

    图二聚体计数(线粒体、‘图表’、‘条形图’)
    ans=AA:1604 AC:1495 AG:795 AT:1230 CA:1534 CC:1771 CG:435 CT:1440 GA:613 GC:711 GG:425 GT:419 TA:1373 TC:1204 TG:513 TT:1004

确定密码子组成

下面的步骤说明了如何查看六个阅读框架的密码子。一个氨基酸的三核苷酸(密码子)密码,在一个核苷酸序列中有64个可能的密码子。当您在比较预期密码子使用情况的表格时,知道密码子在序列中的百分比是很有帮助的。

在MATLAB环境中读取序列后,可以分析序列的密码子组成。此过程以人类线粒体基因组为例。请参阅从Web读取序列信息

  1. 计算核苷酸序列中的密码子。在MATLAB命令窗口中,键入

    密码子计数(线粒体)

    显示第一个读取帧的密码子计数。

    AAA-167 AAC-171 AAG-71 AAT-130 ACA-137 ACC-191 ACG-42 ACT-153 AGA-59 AGC-87 AGG-51 AGT-54 ATA-126 ATC-131 ATG-55 ATT-113 CAA-146 CAC-145 CAG-68 CAT-148 CCA-141 CCC-205 CCG-49 CCT-173 CGA-40 CGC-54 CGG-29 CGT-27 CTA-175 CTC-142 CTG-74 CTT-101 GAA-67 GAC-53 GAG-49 GAT-35 GCA-81 GCC-101 GCG-16 GCT-59 GGA-36 GGC-47 GGG-23 GGT-28 GTA-43 GTC-26 GTG-18 GTT-41 TAA-157 TAC-118 TAG-94 TAT-107 TCA-125 TCC-116 TCG-37 TCT-103 TGA-64 TGC-40 TGG-29 TGT-26 TTA-96 TTC-107 TTG-47 TTT-78

  2. 计算所有6个阅读框中的密码子,并将结果绘制在热图中。

    框架=1:3图形子批次(2,1,1);密码子计数(线粒体,'frame',frame,'figure',true,'geneticcode','脊椎动物线粒体');标题(sprintf(“帧%d'的密码子),帧));子批次(2,1,2);密码子计数(线粒体,'reverse',true,'frame',frame,'figure',true,'geneticcode','脊椎动物线粒体');标题(sprintf(“反向帧%d'的密码子),帧));终止

    热图显示了6个阅读框中所有64个密码子。

开放阅读框

以下步骤说明了如何使用特定的遗传代码定位打开的阅读框。确定真核基因的蛋白质编码序列可能是一项困难的任务,因为内含子(非编码部分)与外显子混合。然而,原核基因通常没有内含子,mRNA序列中的内含子被移除。识别翻译的起始密码子和终止密码子决定了序列中的蛋白质编码区或开放阅读框(ORF)。一旦你知道基因或mRNA的ORF,你就可以将核苷酸序列翻译成相应的氨基酸序列。

在MATLAB环境中读取序列后,可以分析打开阅读框的序列。该程序以人类线粒体基因组为例。看见从Web读取序列信息

  1. 以核苷酸序列显示开放阅读框(ORFs)。在MATLAB命令窗口中,输入:

    seqshoworfs(线粒体);

    如果您将此输出与NCBI页面上显示的基因进行比较NC_012920这是因为脊椎动物线粒体使用的遗传密码与标准遗传密码略有不同。有关遗传密码列表,请参阅遗传密码表格aa2nt参考页。

  2. 使用脊椎动物线粒体代码。

    orfs=seqshoworfs(线粒体、‘基因编码’、‘脊椎动物线粒体’、‘交替启动’,真);

    请注意,现在在第三个读取帧上有两个大的ORF。一个从4470位置开始,另一个从5904位置开始。这些基因对应于ND2(NADH脱氢酶亚基2[智人])和COX1(细胞色素c氧化酶亚基I)基因。

  3. 找到相应的终止密码子。ORF的起始和终止位置与字段中的起始位置具有相同的索引开始停止

    ND2Start = 4470;StartIndex =找到(orf(3)。开始== ND2Start) ND2Stop = orfs(3).Stop(StartIndex)

    将显示停止位置。

    ND2Stop=5511
  4. 使用基因起始和终止的序列索引,从序列中提取子序列。

    ND2Seq=线粒体(ND2Start:ND2Stop)

    子序列(蛋白质编码区)储存在ND2Seq并显示在屏幕上。

    附件CCCCTGGCCCAACCACGCTCATACTCCATCCATCCATCCAGGCTAAGCCATCCATCCATCCATCCATCCAGGCTAAGCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCAGGCTAAGCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCATCCAT。
  5. 确定密码子分布。

    密码计数(ND2Seq)

    密码子计数显示出较高的ACCATACTA空中交通管制

    AAA - 10 AAC 6 - 14亚美大陆煤层气有限公司- 2 AAT - ACA - 11 ACC - 24 ACG - 3 - 5行动AGA - 0 AGC - 4 gg - 0 AGT - 1 ATA - 23 ATC - 24 ATG - 1丙氨酸- 8 CAA - 8 CAC - 3 CAG CCA - 2只猫- 1 - 4 CCC - 12在20 - 2排气口有条件现金援助- 5 - 0公司治理文化- 3 CGG - 0 (CGT - 1 CTA - 26 CTC - 18 CTG - 4 - 7总部棉酚- 5 GAC - 0 GAG - 1得到甘氨胆酸- 0 - 8 GCC 4 - 7 GCG - 1 GCT GGA 7 - 5 GGC GGG -0 GGT - 1 GTA - 3 GTC - 2 GTG - 0 GTT - 3 TAA - 0 TAC - 8 TAG - 0 TAT - 2 TCA - 7 TCC - 11 TCG - 1 TCT - 4 TGA - 10 TGC - 0 TGG - 1 TGT - 0 TTA - 8 TTC - 7 TTG - 1 TTT - 8
  6. 查找氨基酸中的密码子ATACTAACC空中交通管制

    氨基查找('code',nt2aa('ATA'))氨基查找('code',nt2aa('CTA'))氨基查找('code',nt2aa('ACC'))氨基查找('code',nt2aa('ATC'))

    以下显示:

    Ile异亮氨酸Leu亮氨酸苏氨酸Ile异亮氨酸

氨基酸转化和组成

以下步骤说明了如何从基因序列中提取蛋白质编码序列并将其转换为蛋白质的氨基酸序列。确定蛋白质的相对氨基酸组成将为您提供蛋白质的特征图谱。通常,此图谱足以识别蛋白质。使用e氨基酸组成、原子组成和分子量,您还可以搜索类似蛋白质的公共数据库。

在基因中找到一个开放阅读框(ORF)后,就可以将其转化为一个氨基酸序列,并确定其氨基酸组成。该程序以人类线粒体基因组为例。看到开放阅读框

  1. 将核苷酸序列转换为氨基酸序列。在本例中,仅转换起始密码子和终止密码子之间的蛋白质编码序列。

    ND2ASEQ=nt2aa(ND2Seq,'基因编码',…'脊椎动物线粒体')

    方法转换序列脊椎动物线粒体遗传密码。因为AlternativeStartCodons设置为“真的”默认是第一个密码子att转换为而不是

    mnplqpviystifagtlitalsshwfftwvglemnmlafipvltkkmnp rsteaaikyfltqatasmillmailfnmlsgqwtmtnttnqysslmimm amamklgmapfhfwvpevtqgtpltsglllltwqlapisimyqispsln vslltlsilsimagswgglnqtqlrkilayssithmgwmmavlpynpnnm tilnltiiltttafllinlnsstttlsrtwnkltwltplipstlls lgglppltgflpkwaiieeftknnsliiptimatitllnlyfylliyliststSITLLPMSNNVKMKWQFEHTKPTPFLPTLIALTTLLLPISPFMLMIL
  2. 将您的转换与GenPept数据库中已发布的转换进行比较。

    ND2protein=getgenpept('YP_003024027','sequenceonly',true)

    getgenpept函数从NCBI数据库检索已发布的转换,并将其读入MATLAB工作区。

  3. 计算蛋白质序列中的氨基酸。

    aacount(ND2ASEQ,‘图表’、‘条形图’)

    将显示条形图。注意亮氨酸、苏氨酸和异亮氨酸的高含量,同时也注意到缺乏半胱氨酸和天冬氨酸。

  4. 测定蛋白质的原子组成和分子量。

    原子化合物(Nd2Aseq)摩尔重量(Nd2Aseq)

    MATLAB工作区中将显示以下内容:

    ans=C:1818 H:2882 N:420 O:471 S:25
    ans=3.8960e+004

    如果这个序列是未知的,你可以利用这个信息通过与数据库中其他蛋白质的原子组成进行比较来识别蛋白质。