主要内容

使用序列查看器应用程序探索核苷酸序列

序列查看器概述

顺序查看器在生物信息学工具箱™工具箱中集成了许多序列函数。而不是在MATLAB中输入命令®命令窗口,您可以选择和输入选项使用应用程序。

将序列导入序列查看器

分析核苷酸或氨基酸序列的第一步是将序列信息导入到MATLAB环境中。的顺序查看器可以连接NCBI和EMBL等Web数据库,并将信息读取到MATLAB环境中。

下面介绍如何通过Web从NCBI数据库中检索序列信息。本例使用GenBank®加入数量NM_000520这是一种与泰-萨克斯病有关的人类基因HEXA。

请注意

公共资料库中的数据经常得到整理和更新;因此,当您使用最新序列时,此示例的结果可能略有不同。

  1. 在MATLAB命令窗口中,输入

    seqviewer

    或者,单击顺序查看器应用程序选项卡。

    顺序查看器打开时没有加载序列。请注意,右边和底部的窗格是空白的。

  2. 要从NCBI数据库检索序列,请选择文件>从> NCBI下载序列

    打开“NCBI的下载顺序”对话框。

  3. 输入序列框中,键入NCBI数据库条目的登录号,例如,NM_000520.单击核苷酸选择按钮,然后单击好吧

    MATLAB软件在Web上访问NCBI数据库,为您输入的登录号加载核苷酸序列信息,并计算一些基本的统计数据。

查看核苷酸序列信息

将序列导入顺序查看器应用程序,你可以读取与序列存储的信息,或者你可以查看orf和cds的图形表示。

  1. 在左侧窗格树中,单击评论.右侧窗格显示有关序列的一般信息。

  2. 现在点击特性.右边窗格显示NCBI特征信息,包括一个基因的索引号和任何CDS序列。

  3. 点击羊痘疮在六个阅读框中显示对orf的搜索结果。

  4. 点击带注释的cd显示核苷酸序列的蛋白质编码部分。

搜索词

您还可以使用正则表达式搜索特征词或序列模式。您可以输入IUB/IUPAC的核苷酸和氨基酸符号,这些符号会自动转换为相应的核苷酸和氨基酸。有关符号解释的详细信息,请参见核苷酸转化氨基酸转换表的seq2regexp.例如,如果你搜索这个词“焦油”正则表达式复选框选中后,应用程序会突出显示所有出现的TAA的“标签”按照下面的顺序R = [AG]

  1. 选择查找单词

  2. 在“查找单词”对话框中,键入序列单词或模式,例如:atg,然后单击找到

    顺序查看器搜索并显示所选单词的位置。

  3. 通过单击“清除文字选择”按钮清除显示在工具栏上。

探索开放式阅读框架

下面的步骤说明了如何识别核苷酸序列的蛋白质编码部分,并将其复制到一个新的视图中。识别核苷酸序列的编码部分是一项常见的生物信息学任务。在确定序列的编码部分之后,可以将其复制到一个新的视图中,将其翻译为氨基酸序列,然后继续分析。

  1. 在左侧窗格中,单击羊痘疮

    顺序查看器在右下窗格中显示六个读取帧的orf。将光标悬停在一个帧上以显示关于该帧的信息。

  2. 点击读帧2上最长的ORF。

    ORF被突出显示,以表示所选序列的一部分。

  3. 右键单击选定的ORF,然后选择出口到工作区.在“导出到MATLAB工作区”对话框中,输入一个变量名,例如:NM_000520_ORF_2,然后单击出口

    NM_000520_ORF_2变量被添加到MATLAB工作区中。

  4. 选择文件>从工作区导入.使用导出的ORF输入变量名,例如:NM_000520_ORF_2,然后单击进口

    顺序查看器在新序列的底部添加一个标签,同时保留原来的序列打开。

  5. 在左侧窗格中,单击完整的翻译.选择显示>氨基酸残基显示>单字母编码

    顺序查看器显示核苷酸序列下面的氨基酸序列。

关闭序列查看器

关闭顺序查看器从MATLAB命令行使用以下语法:

seqviewer(“关闭”)