主要内容

分析人类免疫缺陷病毒的起源

这个例子展示了如何从多种HIV和SIV病毒株构建系统发育树。

介绍

在感染传播过程中,病原体(本例为人类/猿猴免疫缺陷病毒)的基因组中积累突变。这些信息可用于研究传播事件的历史,也可作为不同病毒株起源的证据。

有两种具有特征的人类艾滋病病毒株:1型(HIV-1)和2型(HIV-2)。这两种菌株都代表了跨物种感染。HIV-2的灵长类宿主已被明确确定为黑曼格比(Cercocebus atys)。HIV-1的起源被认为是普通的黑猩猩(Pan troglodytes)。

从GenBank®检索序列信息

在本例中,使用17种不同的人类和猿猴免疫缺陷病毒分离株的三个最长编码区的变异来构建系统发育树。这些病毒株的序列可以使用其登录号从GenBank®检索。然后,可以使用GenBank记录中的CDS信息从序列中提取感兴趣的三个编码区域,即gag蛋白、pol多蛋白和包膜多蛋白前体。

%说明:gag/pol/env数据={“艾滋病病毒-1(扎伊尔)”‘K03454’[1 2 8] ;“HIV1-NDK(扎伊尔)”“M27323”[1 2 8] ;‘HIV-2(塞内加尔)’“M15390”[1 2 8] ;“HIV2-MCN13”‘AY509259’[1 2 8] ;‘HIV-2UC1(IvoryCoast)’‘L07625’[1 2 8] ;‘SIVM251猕猴’“M19499”[1 2 8] ;‘SIVAGM677A绿猴’“M58410”[1 2 7] ;“西弗霍斯特猴”“霍斯特猴”‘AF075269’[1 2 7] ;“SIVcpz黑猩猩喀麦隆”‘AF115393’[1 2 8] ;“SIVmnd5440曼德里勒斯狮身人面像”‘AY159322’[1 2 8] ;“湿婆猴”“M30931”[1 2 7] ;“SIVMM239猿猴”“M33262”[1 2 8] ;“CIVcpzUS黑猩猩”‘AF103818’[1 2 8] ;"西文猴"‘AY340701’[1 2 8] ;“SIVcpzTAN1黑猩猩”‘AF447763’[1 2 8] ;‘SIVSMSSL92B黑曼格比’‘AF334679’[1 2 8];};numViruses=大小(数据,1)
NumV病毒=16

你可以使用getgenbank函数将数据从GenBank复制到MATLAB®中的结构中。结构的SearchURL字段包含实际GenBank记录的地址。您可以使用网状物命令

acc_num=数据{1,2};慢病毒=getgenbank(acc_num);web(慢病毒(1).SearchURL)

从NCBI GenBank数据库检索其余登录号的序列信息。

对于ind=2:numViruses慢病毒(ind)=getgenbank(数据{ind,2});终止

为方便起见,先前下载的序列包含在MAT文件中。请注意,公共存储库中的数据经常被整理和更新;因此,使用最新数据集时,此示例的结果可能会略有不同。

装载('慢病毒.mat')

提取GAG、POL和ENV编码区的CDS。然后使用CDS指针提取核苷酸序列。

对于ind=1:numViruses temp_seq=慢病毒(ind).序列;temp_seq=regexprep(temp_seq,“[nry]”,“a”); CDSs=慢病毒(ind).CDS(数据{ind,3});gag(ind).Sequence=temp_seq(CDSs(1).索引(1):CDSs(1).索引(2));pol(ind).Sequence=temp_seq(CDSs(2).index(1):CDSs(2).index(2));环境顺序=温度顺序(CDSs(3).指数(1):CDSs(3).指数(2));终止

系统发育树重建

这个序列号SeqLink命令用于使用“Tajima-Nei”方法测量序列之间的距离,构建GAG编码区的系统发育树,使用算术平均法或“UPGMA”方法测量序列之间的距离,用于分层聚类。“Tajima-Nei”方法仅适用于核苷酸,因此使用核苷酸序列而不是翻译的氨基酸序列。距离计算可能需要几分钟的时间,因为计算量很大。

gagd=序列列表(gag,“方法”,“塔吉马内”,“字母表”,“新台币”,“英德尔”,“配对”); gagtree=seqlinkage(gagd,“UPGMA”,数据(:,1))绘图(gagtree,“类型”,“棱角的”); 头衔(‘免疫缺陷病毒(GAG蛋白)’)
具有16片叶子(15个分支)的系统发育树对象

接下来,使用“Jukes-Cantor”方法测量序列之间的距离,并使用算术平均法或“WPGMA”方法加权对群方法构建POL多蛋白的系统发育树。对于氨基酸序列,定义了“Jukes-Cantor”方法,该方法明显短于t相应的核苷酸序列,意味着成对距离的计算将大大加快。

使用以下方法将核苷酸序列转换为氨基酸序列nt2aa.

对于ind=1:nUMV病毒aagag(ind).Sequence=nt2aa(gag(ind).Sequence);aapol(ind).Sequence=nt2aa(pol(ind).Sequence;aaenv(ind).Sequence=nt2aa(env(ind).Sequence;终止

计算距离和链接,然后生成树。

pold=序列PDIST(aapol,“方法”,“朱克斯·坎托”,“英德尔”,“配对”); poltree=SeqLink(pold,“WPGMA”,数据(:,1))绘图(poltree,“类型”,“棱角的”); 头衔(‘免疫缺陷病毒(POL多蛋白)’)
具有16片叶子(15个分支)的系统发育树对象

使用标准化成对比对分数作为序列之间的距离和“UPGMA”分层聚类方法,构建ENV多蛋白的系统发育树。

envd=序列号(aaenv,“方法”,“对齐”,“英德尔”,“得分”,...“轻蔑矩阵”,“Blosum62”);envtree=seqlinkage(envd,“UPGMA”,数据(:,1))绘图(环境树,“类型”,“棱角的”); 头衔(‘免疫缺陷病毒(ENV多蛋白)’)
具有16片叶子(15个分支)的系统发育树对象

建立共识树

这三棵树很相似,但也有一些有趣的差异。例如,在POL树中,“SIVmnd5440 Mandrillus sphinx”序列与HIV-1毒株很接近,但在ENV树中,它与HIV-1序列非常遥远。鉴于这三棵树显示的结果略有不同,使用所有t三个区域,可以提供关于完整病毒的更好的一般信息。使用三个树的加权平均值可以建立共识树。

权重=[总和(gagd)总和(pold)总和(envd)];权重=权重/总和(权重);距离=gagd.*权重(1)+pold.*权重(2)+环境。*权重(3);

请注意,在计算成对距离时使用了不同的度量。这可能会使共识树产生偏差。您可能希望使用相同的度量重新计算三个区域的距离,以获得无偏差树。

tree_hiv=seqlinkage(地区、,“平均”,数据(:,1));地块(树木),“类型”,“棱角的”); 头衔(‘免疫缺陷病毒(加权树)’)

艾滋病毒的起源

根据我们的分析得出的系统发育树表明存在两个簇和一些其他分离菌株。最紧密的簇包括所有HIV2样本;在该簇的顶部分支,我们观察到黑曼格比病毒,该病毒已被确定为人类慢病毒的起源。包含HIV1 str的簇然而,ain并不像HIV2集群那样紧密。从树上看,黑猩猩似乎是HIV1的来源,然而,跨物种向人类传播的起源仍然是HIV研究人员争论的问题。

%添加注释注释(gcf,“文本箭头”,[0.29 0.31],[0.36 0.28],“颜色”,[1 0.5 0],...“字符串”,{“可能的HIV 1型来源”},“文本颜色”,[1 0.5 0]); 注释(gcf,“文本箭头”,[0.42 0.49],[0.45 0.50],“颜色”,[1 0 0],...“字符串”,{“HIV 2型起源”},“文本颜色”,[1 0 0]);

参考资料:

[1] Gao,F.等人,“黑猩猩中HIV-1的起源”,自然杂志,397(6718):436-411999。

[2] Kestler,H.W.等人,“猿猴免疫缺陷病毒分离株的比较”,《自然》,331(6157):619-221998。

[3] 艾莉森,M.等人,“艾滋病病毒的遗传变异性:来自非洲患者的两个分离物的核苷酸序列分析”,Cell,46(1):63-741986。