主要内容

人类免疫缺陷病毒起源分析

这个例子展示了如何从HIV和SIV病毒的多个毒株构建系统发育树。

简介

在感染的传播过程中,病原体(在本例中是人/猴免疫缺陷病毒)的基因组中积累突变。这些信息可用于研究传播事件的历史,也可作为不同病毒株起源的证据。

人类艾滋病病毒有两种特征株:1型(HIV-1)和2型(HIV-2)。这两种菌株都是跨物种感染。HIV-2的灵长类宿主已明确确定为乌烟白眉猴(Cercocebus atys)。HIV-1的起源被认为是普通的黑猩猩(Pan troglodytes)。

从GenBank®检索序列信息

在这个例子中,人类和猴免疫缺陷病毒的17个不同分离株的三个最长编码区域的变异被用来构建系统发育树。这些病毒株的序列可使用其登录号从GenBank®检索。利用GenBank记录中的CDS信息,可以从序列中提取出gag蛋白、pol多蛋白和包膜多蛋白前体这三个感兴趣的编码区域。

接入CDS:gag/pol/env数据= {“hiv - 1(扎伊尔)”“K03454”[1 2 8];“HIV1-NDK(扎伊尔)的“M27323”[1 2 8];“hiv - 2(塞内加尔)”“M15390”[1 2 8];“HIV2-MCN13”“AY509259”[1 2 8];“HIV-2UC1 (IvoryCoast)”“L07625”[1 2 8];“SIVMM251猕猴”“M19499”[1 2 8];“SIVAGM677A绿猴子”“M58410”[1 2 7];silvhoest L“召唤猴子”“AF075269”[1 2 7];“SIVcpz黑猩猩喀麦隆”“AF115393”[1 2 8];“SIVmnd5440 Mandrillus sphinx”“AY159322”[1 2 8];“SIVAGM3绿猴子”“M30931”[1 2 7];“SIVMM239猿猴”“M33262”[1 2 8];“CIVcpzUS黑猩猩”“AF103818”[1 2 8];“SIVmon Cercopithecus Monkeys”“AY340701”[1 2 8];“SIVcpzTAN1黑猩猩”“AF447763”[1 2 8];“SIVsmSL92b Sooty Mangabey”“AF334679”[1 2 8];};numViruses = size(data,1)
numViruses = 16

您可以使用getgenbank函数复制数据从GenBank到MATLAB®结构。结构的SearchURL字段包含实际GenBank记录的地址。方法浏览此记录网络命令。

Acc_num = data{1,2};Lentivirus = getgenbank(acc_num);web(慢病毒(1).SearchURL)

从NCBI GenBank数据库检索其他登录号的序列信息。

ind = 2:numViruses lentivirus(ind) = getgenbank(data{ind,2});结束

为方便起见,以前下载的序列包含在mat文件中。注意,公共存储库中的数据经常被管理和更新;因此,当您使用最新的数据集时,本例的结果可能略有不同。

负载(“lentivirus.mat”

提取GAG、POL和ENV编码区域的CDS。然后使用CDS指针提取核苷酸序列。

ind = 1:numViruses temp_seq =慢病毒(ind).Sequence;Temp_seq = regexprep(Temp_seq,“[nry]”“一个”);CDSs =慢病毒(ind).CDS(data{ind,3});呕吐(印第安纳州)。序列= temp_seq(cds (1).indices(1): cds (1).indices(2));波尔(印第安纳州)。序列= temp_seq(cds (2).indices(1): cds (2).indices(2));env(印第安纳州)。序列= temp_seq(cds (3).indices(1): cds (3).indices(2));结束

系统发生树重建

seqpdist而且seqlinkage命令使用“Tajima-Nei”方法构建GAG编码区域的系统发育树,测量序列与使用算术平均的非加权对组方法之间的距离,或使用“UPGMA”方法进行分层聚类。“Tajima-Nei”方法仅定义为核苷酸,因此使用核苷酸序列而不是翻译的氨基酸序列。距离计算可能需要相当多的时间,因为它是非常密集的计算。

Gagd = seqpdist(gag,“方法”“Tajima-Nei”“字母”“NT”“indel”“对”);Gagtree = seqlinkage(gagd,“UPGMA”数据(:1))情节(gagtree,“类型”“角”);标题(免疫缺陷病毒(GAG蛋白)
有16个叶(15个分支)的系统发育树对象

接下来,使用“Jukes-Cantor”方法构建POL多蛋白的系统发育树,测量序列之间的距离,使用算术平均的加权对组方法或“WPGMA”方法进行分层聚类。“Jukes-Cantor”方法是为氨基酸序列定义的,氨基酸序列明显短于相应的核苷酸序列,这意味着成对距离的计算将明显更快。

将核苷酸序列转换为氨基酸序列使用nt2aa

ind = 1:numViruses aagag(ind)。Sequence = nt2aa(gag(ind).Sequence);aapol(印第安纳州)。序列= nt2aa(pol(ind).Sequence);aaenv(印第安纳州)。序列= nt2aa(env(ind).Sequence);结束

计算距离和连杆,然后生成树。

波德= seqpdist(aapol,“方法”“Jukes-Cantor”“indel”“对”);Poltree = seqlinkage(polold,“WPGMA”数据(:1))情节(poltree,“类型”“角”);标题(免疫缺陷病毒(POL多蛋白)
有16个叶(15个分支)的系统发育树对象

使用归一化成对比对得分作为序列与“UPGMA”(层次聚类方法)之间的距离,构建ENV多蛋白的系统发育树。

Envd = seqpdist(aenv,“方法”“对齐”“indel”“分数”...“ScoringMatrix”“Blosum62”);Envtree = seqlinkage(envd,“UPGMA”数据(:1))情节(envtree,“类型”“角”);标题(免疫缺陷病毒(ENV多蛋白)
有16个叶(15个分支)的系统发育树对象

构建共识树

这三棵树很相似,但也有一些有趣的区别。例如,在POL树中,'SIVmnd5440 Mandrillus sphinx'序列被放置在离HIV-1毒株很近的位置,但在ENV树中,它被显示为离HIV-1序列很远的位置。鉴于三棵树显示的结果略有不同,使用所有三个区域的共识树可能会提供关于完整病毒的更好的一般信息。可以使用这三棵树的加权平均值来构建共识树。

权重= [sum(gagd) sum(pold) sum(envd)];Weights = Weights / sum(Weights);Dist = gagd .* weights(1) + pold .* weights(2) + envd .* weights(3);

请注意,在计算成对距离时使用了不同的度量。这可能会使共识树产生偏差。您可能希望使用相同的度量重新计算三个区域的距离,以获得无偏树。

Tree_hiv = seqlinkage(dist,“平均”数据(:1));情节(tree_hiv“类型”“角”);标题(免疫缺陷病毒(加权树)

HIV病毒的起源

从我们的分析得到的系统发育树说明了两个聚类和一些其他分离菌株的存在。最紧凑的群集包括所有HIV2样本;在这个群集的顶部分支,我们观察到已被确定为这种人类慢病毒起源的乌烟白眉白眉。然而,包含HIV1毒株的集群不像HIV2集群那样紧凑。从这棵树来看,黑猩猩似乎是HIV病毒的源头,然而,跨物种传播到人类的起源仍然是HIV研究人员争论的问题。

%添加注释注释(gcf“textarrow”,[0.29 0.31],[0.36 0.28],“颜色”,[1 0.5 0],...“字符串”,{“可能是HIV 1型起源”},“输入TextColor”,[1 0.5 0]);注释(gcf“textarrow”,[0.42 0.49],[0.45 0.50],“颜色”,[1 0 0],...“字符串”,{“HIV 2型起源”},“输入TextColor”,[1 0 0]);

引用:

高峰,等,“HIV-1在黑猩猩中的起源”,自然杂志,397(6718):436- 441,1999。

王志强,王志强,等,“猴免疫缺陷病毒分离株的比较研究”,《自然科学》,331(6):619-22,1998。

[3] Alizon, M.,等,“艾滋病病毒的遗传变异:来自非洲患者的两个分离株的核苷酸序列分析”,细胞,46(1):63-74,1986。