主要内容

分析人类免疫缺陷病毒的起源

这个例子展示了如何构建系统发育树从多个种类的HIV和SIV病毒。

介绍

在病原体的基因组突变积累,在这种情况下,人类/猴免疫缺陷病毒,在感染的传播。此信息可以用于研究传播的历史事件,也作为证据的起源不同的病毒株。

有两种人类艾滋病病毒菌株特征:1型(hiv - 1)和2型(hiv - 2)。两株代表跨物种感染。hiv - 2的灵长类动物宿主已经明显的乌黑的白眉猴(Cercocebus atys)。hiv - 1的来源被认为是普通的黑猩猩(黑猩猩)。

从基因库中检索序列信息®

在这个例子中,三个最长编码区域的变化来自17个不同分离株的人类和猴免疫缺陷病毒用于构建系统发育树。这些病毒株的序列可以从基因库中加入®使用他们的数据。感兴趣的三个编码区域,gag蛋白,波尔多元蛋白质和信封多蛋白前体,然后可以从序列中提取使用cd基因库中的信息记录。

%的描述加入cd:呕吐/波尔/ envdata = {“hiv - 1(扎伊尔)”“K03454”(1 2 8);“HIV1-NDK(扎伊尔)的“M27323”(1 2 8);“hiv - 2(塞内加尔)”“M15390”(1 2 8);“HIV2-MCN13”“AY509259”(1 2 8);“HIV-2UC1 (IvoryCoast)”“L07625”(1 2 8);“SIVMM251猕猴”“M19499”(1 2 8);“SIVAGM677A绿猴”“M58410”[1 2 7];“SIVlhoest L“锄猴子”“AF075269”[1 2 7];“黑猩猩SIVcpz喀麦隆”“AF115393”(1 2 8);“SIVmnd5440 Mandrillus斯芬克斯的“AY159322”(1 2 8);“SIVAGM3绿猴”“M30931”[1 2 7];“SIVMM239猴猕猴”“M33262”(1 2 8);“CIVcpzUS黑猩猩”“AF103818”(1 2 8);“SIVmon的猴子的“AY340701”(1 2 8);“SIVcpzTAN1黑猩猩”“AF447763”(1 2 8);“SIVsmSL92b乌黑的白眉猴”“AF334679”(1 2 8);};numViruses =大小(数据,1)
numViruses = 16

您可以使用getgenbank功能基因库的数据复制到一个结构在MATLAB®。的SearchURL字段结构包含实际的基因库的地址记录。你可以浏览这个记录使用网络命令。

acc_num ={1,2}数据;慢病毒= getgenbank (acc_num);web(慢病毒(1).SearchURL)

从NCBI基因库数据库检索序列信息加入剩下的数字。

印第安纳州= 2:numViruses慢病毒(印第安纳州)= getgenbank(数据{印第安纳州,2});结束

为了您的方便,以前下载序列中包含MAT-file。在公共场合注意数据存储库是经常策划和更新;因此这个例子可能略有不同的结果当你使用最新的数据集。

负载(“lentivirus.mat”)

提取cd的插科打诨,波尔,ENV编码区域。然后使用cd提取核苷酸序列指针。

印第安纳州= 1:numViruses temp_seq =慢病毒(印第安纳州). sequence;temp_seq = regexprep (temp_seq,“[nry]”,“一个”);信用违约掉期=慢病毒(印第安纳州)的cd(数据{印第安纳州3});呕吐(印第安纳州)。序列= temp_seq(信用违约掉期(1).indices(1):信用违约互换(1).indices (2));波尔(印第安纳州)。序列= temp_seq(信用违约掉期(2).indices(1):信用违约掉期(2).indices (2));env(印第安纳州)。序列= temp_seq(信用违约掉期(3).indices(1):信用违约掉期(3).indices (2));结束

种系发生树重建

seqpdistseqlinkage命令是用于构建的系统树GAG编码区使用“Tajima-Nei”方法来测量序列之间的距离和未加权的两组使用算术平均法,或UPGMA法,层次聚类。Tajima-Nei的方法只是为核苷酸定义,因此核苷酸序列而不是使用翻译的氨基酸序列。距离计算可能会花相当多的时间,因为它的计算非常密集。

gagd = seqpdist(呕吐,“方法”,“Tajima-Nei”,“字母”,“NT”,“indel”,“对”);gagtree = seqlinkage (gagd,“UPGMA”数据(:1))情节(gagtree,“类型”,“角”);标题(“免疫缺陷病毒(GAG蛋白)”)
系统发育树对象16叶子(15分支)

接下来构建的系统树波尔多蛋白之间使用“Jukes-Cantor”方法来测量距离序列使用算术平均和加权两组方法,或“WPGMA”方法,层次聚类。Jukes-Cantor的方法为氨基酸序列,定义,被显著短于相应的核苷酸序列,意味着两两距离的计算将会快很多。

核苷酸序列转换成氨基酸序列nt2aa

印第安纳州= 1:numViruses aagag(印第安纳州)。序列= nt2aa(呕吐(印第安纳州). Sequence);aapol(印第安纳州)。序列= nt2aa(波尔(印第安纳州). Sequence);aaenv(印第安纳州)。序列= nt2aa (env(印第安纳州). Sequence);结束

计算距离和链接,然后生成树。

pold = seqpdist (aapol,“方法”,“Jukes-Cantor”,“indel”,“对”);poltree = seqlinkage (pold,“WPGMA”数据(:1))情节(poltree,“类型”,“角”);标题(“免疫缺陷病毒(POL多元蛋白)”)
系统发育树对象16叶子(15分支)

构建的系统发育树ENV多蛋白使用规范化成对排列分数序列之间的距离和UPGMA,层次聚类的方法。

envd = seqpdist (aaenv,“方法”,“对齐”,“indel”,“分数”,“ScoringMatrix”,“Blosum62”);envtree = seqlinkage (envd,“UPGMA”数据(:1))情节(envtree,“类型”,“角”);标题(“免疫缺陷病毒(ENV多元蛋白)”)
系统发育树对象16叶子(15分支)

建立一个共识树

三棵树是相似的,但有一些有趣的差异。例如在波尔树中,“SIVmnd5440 Mandrillus狮身人面像的顺序放置接近hiv - 1菌株,但ENV树中显示为hiv - 1序列非常遥远。鉴于三棵树结果略有不同,共识树使用所有三个区域,可能会给更好的一般信息完整的病毒。共识树可以使用三棵树的加权平均。

重量=[总和(gagd)和(pold)和(envd)];重量=重量/笔(重量);dist = gagd。*重量(1)+ pold。*权重(2)+ envd。*权重(3);

注意,成对的不同指标被用于计算距离。这可能偏见共识树。您可能希望重新计算三个区域使用相同的距离度量,得到一个公正的树。

tree_hiv = seqlinkage(经销,“平均”数据(:1));情节(tree_hiv“类型”,“角”);标题(“免疫缺陷病毒(加权树)”)

艾滋病病毒的起源

系统发育树造成我们的分析说明了两个集群的存在和其他一些孤立的菌株。最紧凑的集群包括所有HIV2样本;此集群的顶端分支我们观察的乌黑的白眉猴已被确认为人类这个慢病毒的起源。集群包含HIV1应变,然而不是一样紧凑HIV2集群。从树上黑猩猩似乎正在HIV1的来源,然而,跨物种传染给人类的起源仍然是一个有争议的问题在艾滋病研究人员。

%添加注解注释(gcf“textarrow”(0.29 - 0.31),(0.36 - 0.28),“颜色”(1 0.5 0),“字符串”,{“可能的艾滋病病毒1型的起源”},“输入TextColor”0.5 [1 0]);注释(gcf“textarrow”(0.42 - 0.49),(0.45 - 0.50),“颜色”(1 0 0),“字符串”,{“艾滋病毒2型起源”},“输入TextColor”,(1 0 0));

引用:

[1]高,F。,et al., "Origin of HIV-1 in the chimpanzee Pan troglodytes troglodytes", Nature, 397(6718):436-41, 1999.

[2]Kestler h.w,et al., "Comparison of simian immunodeficiency virus isolates", Nature, 331(6157):619-22, 1998.

[3]Alizon, M。,et al., "Genetic variability of the AIDS virus: nucleotide sequence analysis of two isolates from African patients", Cell, 46(1):63-74, 1986.