基因树和物种树的关系及建树方法
一 .基因树和物种树
1. 概念
2. 二者关系
二 构建基因树或分子树
1.同源DNA排序问题
2. 分子生物学数据类型(2种类型)
3. 数据转换
4.建树方法(主要介绍四种方法)
非加权组平均法(UPGMA法)
邻接法(NJ法)
最大简约法(MP法)
最大似然法(ML法)
5. 几种建树方法的比较
一 基因树和物种树
gene tree
分子树(molecular tree):依据分子数据构建的反映分子系统发育的树
物种树(species tree): 反映物种实际种系发生的树
系统发育(Phylogeny):是指一群有机体发生或进化的历史.
系统发育树(Phylogenetic tree):就是描述这一群有机体发生或进化顺序的拓朴结构。根据系统发育树的具体表达形式,可分为
基因树(Genetree): 当一个分子系统树是根据某一个基因数据构建而来的,称为基因树.
物种树(Species tree):是指代表一组物种进化过程的系统树.
基因树与物种树的关系
分子系统学的目的,就是通过分子树来推测物种树.
在许多情况下这两者是一致的
但是下列一些因素可能会造成分子树与物种树相偏离.
A.遗传渗漏即 DNA跨越物种界限的转移.
如果在构建分子树是采用的是从其它物种水平转移而来的DNA序列,其结果与物种树大相径庭.
B.祖先多态性 例如a,b两物种的共同祖先c在某个位点c是多态的(c1,c2),在进化的过程中c1演化成a1和b1;c2演化成a2和b2,若依据a1和b1,则推测的祖先为c1,如依据的祖先为a2和b2,侧推测的祖先为c2,这样a,b具有两个祖种,显然不符.原因在于基因的进化早于物种的分化.
为避免上述因素的影响,在分子系统研究中应尽可能分析互不连续的基因位点。
mtDNA在基因进化中是整个转移的 ,所以即使分析多个线立体基因,亦不能排除影响.
基因树与物种树存在两方面的区别:
(1)对于某一被研究的基因,可能存在种内多态性,即在物种分化之前,该基因可能已经开始分化。所以两物种间该基因的分化时间可能早于这两个物种的分化的时间。由这一基因计算而来的分支长度(分歧时间)可能偏离.
(2)基因树的分支情况(拓扑结构)可能不同于物种树。
这种情况一般发生在分支点非常接近的物种间。例如 人猩猩和黑猩猩间的关系。通过增加DNA序列的长度并测定多个相互独立的基因片段,一般可以避免这种问题的发生。
由于物种的进化历史不可能再现,所以不可能重建绝对完整的历史,同样也不可能获取绝对的物种树。但是通过多基因,大量DNA序列的正确分析,可以最大限度地缩小基因树与物种树间的差别。在这种情况下获得的系统树可被接受为物种树。
O A B C D
二构建基因树(分子树)
1.同源DNA序列的排序(Alignment)问题
建立数据矩阵之前,必须获得具体的特征数据,所以要确定同源大分子相对应的位点,系统分析的前提是:不仅分析对象(大分子)是同源的,而且所比较的位点也是同源的,即分析对象的某一个位点必须能够确定可以追溯到共同祖先的同一位点.
对两个同源DNA序列的比较,首先要确定他们从最近的共同祖先分离后,各序列中缺失/插入所发生的位置以及与同源部分的对应关系,这个过程叫排序(比对)。
对于编码蛋白质区域而言,由于蛋白质功能上的需要和三联体密码结构的限制,缺失/插入很少发生或发生后很容易被选择淘汰。因此,一般比较容易比对。
而在非编码区域,缺失/插入发生的频率可能很高。在这种情况下,比对过程变得十分复杂,一般必须借助于计算机。各种主要的DNA序列分析软件中,如PC/GENE,GCG和MacVector等,都有DNA排序功能。根据经验,如果DNA同源度低于70%—75%,就不容易获得确定的排序。Clustalw x
不同的排序代表了不同的进化途径。采用不同的比对,可能得到完全不同的系统树。
一种稳定的方法是,删除涉及缺失/插入的序列片段。但是,有时缺失/插入可能代表重要的进化信息,简单的删除并不可取。
建议,如果存在多种合理的排序,而不同的排序又得到不同的系统树,就应该再测定另一个独立的DNA序列,根据这段序列得到的系统树判断究竟哪个排序更为合理。如果无法得到新的序列,增加外源物种可能有助于问题的解决。
例如:DNA同源序列a和b的排序
b CGTAGTCATGAC
a CGATAGTTCCATGGC
b1 CG- TAGT - -CATGAC
b2 CG- TAG -T - CATGAC
b3 C- GATGT - - CATGAG
b4 C- GTAG - -TCATGAC
同源大分子排序,在比较时可能出现三种情况:
1.两个比较的位点为相同的单元(相同的碱基或相同的氨基酸),称匹配;
2.两个比较的位点为不同的单元(可能发生转换或颠换),叫不匹配。
3.所比较的位点上有一方是空缺的(可能发生碱基丢失或插入而造成的)叫做空位或断沟;
一个简单的例子。
有三个同源序列S1,S2和S3:
S1 AGACCTAGT
S2 AGACTAGT
S3 AGAACCTAGT
先比较S1和S2:
S1AGACCTAGT
S2 AGA-CTAGT
再比较S1和S3:
S1 AGA-CCTAGT
S3AGAACCTAGT
三者合在一起比较,以S3为参考序列:
S3 AGAACCTAGT
S1 AGA - CCTAGT
S2 AGA - - CTAGT
2 分子生物学数据类型
离散性特征数据
即所获得的是2个或更多的离散的值,是赋予给某一个具体的运算分类单元(OUT)。
它可以进一步分为二态特征与多态特征。
前者如RE位点, RAPD数据等。
后者如核酸序列信息,就是某一位点核苷酸的碱基具有A,T,G或C四种可能。
相似性和距离数据
它并不是某一具体分类单元所具有,而是有彼此间的相似性或距离所表示出来的各分类单元间的相互关系,如免疫学方法,与DNA杂交所得到的只有OTU相似性信息。
3 数据转换
对DNA标记技术如RFLP, AFLP,RAPD及微卫星DNA技术和DNA序列测定技术所得到离散特征数据,用来重建系统发育树时也可基于一定的模型计算出遗传距离,然后利用距离法来重建系统发育树。
DNA序列数据
利用DNA序列数据计算遗传距离最简单的方法是计算p距离(p-distance),
计算式为:p= nd /n,
其中 n为所测定序列的核苷酸数,
nd 为核苷酸差异数。
p距离没有考虑同一个位点多个核苷酸间的替换状况,即将2个序列间核苷酸差异率作为彼此间的遗传距离。
若考虑核苷酸替换,必须利用核苷酸替换的数学模型对上述p距离进行校正,其中较简单的是Jukes-Cantor模型,它认为4种核苷酸A,T,C和G间的彼此替换速率相等。其遗传距离表达为:
p即为2个OTU序列间核苷酸的差异率。在实际应用中,Jukes-Cantor模型并不理想,但当d<=0.05时亦可对遗传距离作出很好的估计。
在DNA序列中,通常核苷酸转换的比率(A T 和GC)要高于颠换的比率,特别是对动物mtDNA而言。在这种情况下,Kimura的二参数法可以用来很好地估计遗传距离(d)[11],
其中P和Q分别为序列中核苷酸转换和颠换的比率。
用这种方法来估计遗传距离时,其假定前提为核苷酸序列中A、T、C和G的比例相等,各占1/4。若比例不等,则需选择其它方法来估计遗传距离,其计算公式亦不同。因此,利用DNA序列信息计算遗传距离时需视实际情况选用一定的方法。
RFLP数据
将RFLP数据转换成遗传距离的方法较多[10]。常用的是先计算序列i和序列j限制性位点或片段的相似指数,然后再转换成遗传距离。
对相似指数(Sij),有
Sij=2mij/(mi+mj),
其中mi和mj分别为序列i和序列j总限制性位点或片段数,mij为序列i和序列j间共有位点或片段数。若使用的限制性内切酶其识别序列的核苷酸数(r)相同,则i和j间的遗传距离(dij)为:
RAPD数据
在RAPD研究中,获得的是某一扩增带在OTUs中有(通常记录为“1”)或无(通常记录为“0”)的一组信息。
利用这些信息计算
其中下标k为第k组内切酶,且
。
遗传距离时,通常也是先计算彼此间的相似性指数(s),然后进行转换。
目前用来计算相似性指数的算法很多。
将相似指数转换为距离(d)的方法较多,常用的有:
(1) d= 1-s;
(2) d= 1/s-1;
(3) d= - ln(s);
(4) ;
(5) d=(s+1)/2
等,其中当所得到的s值位于-1和1之间时,常选用公式(5)进行转换。
对前3种方法,当2个OTU间趋异程度较小时,转换后所得到的距离差不多相等,但随着2个OTU间的趋异程度增加,各种转换所得到的距离就有差异,所得到的系统发育树就有可能不同。
因此,应根据适当的进化模型选择合适的转换方法。
4 建树方法
(主要介绍四种方法)
1)UPGMA法(unweighted pair group method using arithmeticaverage)
非加权配对算术平均法
或非加权组平均法
NTSYS 3.4
前提条件:
在进化过程中,每一世代发生趋异的次数相同,即碱基或氨基酸的替换速率是均等且恒等的。
UPGMA法计算原理和过程:
①以已求得的距离系数,所有比较的分类单元的成对距离构成一个t×t方阵,即建立一个距离矩阵M。
②对于一个给定的距离矩阵,寻求最小距离值Dpq。
③定义类群p和q之间的分支深度Lpq=Dpq/2。
④若p和q是最后一个类群,侧聚类过程完成,否侧合并p和q成一个新类群r。
⑤定义并计算新类群r到其他各类群i(i≠p和q)的距离Dir=(Dpi+Dqi)/2。
⑥回到第一步,在矩阵中消除p和q,加入新类群r,矩阵减少一阶,重复进行直至达到最后归群。
UPGMA法比较直观和简单,运算速度快,应用很广。它的缺点在于当分子进化速率较大时,在'建树过程会引入系统误差。
2)邻接法NJ法(neighbor joining method)
是一种推论叠加树的方法。在概念上与UPGMA法相同,但是有四点区别
a.NJ法不要求距离符合超度量特性,但要求数据应非常接近或符合叠加性条件,即该方法要求对距离进行校正。
b.邻接法在成聚过程中连接的是分类单元之间的节点(node),而不是分类单元本身。
c.NJ法中原是距离数据用于估算系统树上所有端结分类单元之间的距离矩阵,校正后的距离用于确定节点之间的连接顺序。
d.在重建系统发育树时,NJ法取消了UPGMA法所做的假定,认为在此进化分支上,发生趋异的次数可以不同。
邻接法的运算过程如下:
①对于给定距离矩阵中的每一端结i,用下式计算与其它分类单元之间的净趋异量(Ri) (t:矩阵中的分类单元数)
②建立一个速率校正距离矩阵M,其元素由下式确定:
③定义一个新节点u,u的三个分支分别与节点i,j和树的其余部分相连,并且Dij为矩阵中距离最小者,u到节点i和j的分支长度定义为
④定义u到树的其它节点k(k≠i和j外的所有节点)的距离:
⑤从距离矩阵中删除i和j的距离,矩阵减少一阶。
⑥如果矩阵仍然多于两个的节点,重复第①----⑤步,否测除最外两个节点的分支长度来确定外,树上其余节点都确定,最后是剩余的2个的分支长度Sy=Dij
现在举一例说明邻接法的计算过程和原理。
3) 最大简约法(MaximumParsimony Method)
(以Wagner Parsimony来说明Maximum Parsimony法的原理和步骤)
3.1Wagner Parsimony有两次方向相反的操作。第一次叫做后根次序遍历(postordertraversal),第二次叫做先根次序遍历(preorder traversal)。
用WagnerParsimony决定一个性状演变系列中性状变化的最小量,仅仅需要从终端分类单元开始逐步向根进行的一次操作,这样的操作叫做后根次序遍历。操作过程如下:
a.假设有一个无根支序图。首先人为地先择任意一个终端分类单元为无根支序图赋根,在具体分析中,通常选择一个外群来实现这个目的。
b.对所形成的有根支序图,从根节点开始向上分别标记各个节点。
c.从支序图的顶部开始向着根出发,对支序图上的性状进行优化。若节点I和j的性状集的交是非空集的话,侧节点k的性态集就等于这个交集,在这种节点上,性状变化的次数等于零;若节点I和j的状态集的交是空集时在这两个性状集中各选择一个性状构成节点的最小性状闭集(thesmallest closedset)赋予正在研究中的节点,在这种节点上,性状变化的次数是这个最小性状闭集的差值。第3步,这种操作直至支序图的根节点为止。
d.最后查根分类单元(roottaxon),看它的性状是否被包括在根节点的性状集中。若包括,支序图在根节点处的长度增加;如果不包括,计算根分类单元的性状与根节点性状集中最接近的性状之间的差值,这个差值就是秩序屠宰根节点处长度的增加值。
e.计算出支序图在每个节点处的长度增加值,它们的总和就是支序图的长度。
通过后根次序遍历只知道在支序图上一个性状演变系列中性状变化的次数,无法确定发生了什麽样的变化。因此需要在上面操作的基础上,在支序图上逆后根次序遍历的方向进行第二次操作,即从支序图的根向终端分类单元逐个考查每个节点,这个过程叫做先根次序遍历,目的是得到最大简约的重建集(MPR)。具体方法:如果一个节点已经被赋予一个最小性状闭集,侧保持这个性状不变;如果一个节点被赋予一个最小性状闭集,侧选择那个与它的最近祖先(在支序图上该节点下放的那个节点或者分类单元)的性状最接近的性状赋予这个节点。然后在支序图上分析性状的变化次数,计算支序图的长度。
现在举例来说明MP法的原理和步骤。见胶片
3. 2Wagner简约法外,还有Fitch简约法,Dollo简约法,Camin-Sokal简约法,多态现象简约法(Polymorphism)。
3. 3简约法方法的优缺点:
在各种简约性方法中,Fitch和Wagnrer简约法能应用于各类性状,对于进缘种类的分析一般都能给出正确的简约树,所以应用最广泛。其它的简约方法多应用于某些特定类型的数据。
简约性方法与其它系统发育分析方法相比有以下几方面的优点:
①直接应用原始性状数据,并不需要将原始数据转换成距离数据,避免了不可逆转的信息丢失;
②较少依靠关于系列进化的假说,或至少能依靠一种更符合实际的简单的进化假说;
③大多数简约法的计算机算法及程序比其它方法更成熟,并允许对数据的系统发育信号和序列进化的动力更深入的分析。
简约法的缺点:
①只适用于亲缘关系密切的种类或序列之间分析,对于进化时间较长的物种或序列,由于平行和回复突变的干扰,会得出不正确的结果。
②当系统树上不同支系在进化改变量上不等时也会引起误差。
③
4)最大似然法(Maximum Likelyhood Method)
即ML法
是应用统计推断构建系统发育关系的典型方法。
4.1 ML法的原理:
建立一个关于进化过程的模型和一组观测数据就可进行统计推断。一棵树T的似然性产生该树的观测数据D与进化模型的概率L;在给定D和M的条件下,不同分支形式和分支长度的树有不同的似然性数值。极似然法的标准时选择具有最大似然性值的树。
4.2 ML法进行系统发育分析的过程步骤:
①建立关于进化过程的模型。原侧上不同的分子类型或数据类型应有不同的进化模型或模型中的参数值不同。目前最大似然法主要用于核酸序列分析,所用的进化模型都比较简单,如Jukes-Cantor模型,Kimura的两参数模型等。
②根据进化模型,建立描述序列中一个有初始状态经过进化时间t后改变观测状态的概率表达式。
③根据上面的结果,计算各序列之间的似然性关系。这为最复杂的一步。
④似然性值的显著性检验。
4.3 最大似然法的存在的主要问题
a. 计算上的复杂性,需要大量的计算时间。
b. 进化模型的问题,所使用的进化模型未能反映出序列进化的真实情况,原因在于对进 化过程的了解的局限性,加上由于计算上的限制。
5上述几种建树方法的比较
Ⅰ在距离法中UPGMA比较简单而且使用。当使用的距离数据来源于多核苷酸数量较多的多个基因的分析结果时,利用UPGMA法能够得到可靠的系统发育树。
Ⅱ在离散特征法中,在不同世系间进化速率相差较大,且进化速率恒定而树的内支很短的情况下,MP法并不能对一个真正的系统发育树做出始终一致的判断。即使有时MP法能够得到一个始终一致的判断,但它获得一个正确树的效率,通常要比NJ法和ML法低。
Ⅲ序列趋异程度较小(d<0.1),核苷酸替换的速率在一定程度上恒定;没有很高的转换与替换比很强的G+C含量偏差;所分析的核苷酸数量较多(大于几千)的情况下,MP法仍是一种较好的系统发育树重建法。
Ⅳ与距离法和ML法不同,MP法能够利用序列中碱基的插入与缺失信息。
Ⅴ当不同谱系的进化速率较大变异时,MP法的可靠性降低,采用进化简约法(EP法)处理。在实际,使用MP和ML法重建系统发育树,当OUT的数目<10,通过计算机对所有可能的树做彻底搜索,确定最理想的树;当OUT的数目>10时,采用分支和界限法(从一组具有潜在可能的的树中确定最理想树)或采用启发式搜索法(在分析中只对少部分的可能树进行比较,所以数目可以取较大值,但此法不能保证发现最理想树)
Ⅵ NJ法不以分子进化等速性为前提。
Ⅶ NJ,ML和MP三种方法选择正确分子树的概率
ML法 | NJ法 | MP法 | |
V1=1 V2=0.1 | 0.92 | 0.70 | 0.00 |
V1=1 V2=o.2 | 0.96 | 0.88 | 0.00 |
V1=0.5V=0.1 | 1.00 | 1.00 | 0.00 |
通过上述方法获得分子系统树是无根的,但是通过外群分析确定树的根。
三 参考文献:
常青.周开亚分子进化研究中系统发育树的重建生物多样性6(1)1998
张英培分子分类的若干问题动物学研究17(1)1994
张亚平从DNA序列到物种树动物学研究17(3) 1996
陈辉RFLP和RAPD遗传标记技术及其在昆虫学中的应用陕西林业科技NO.149-521999
黄原,袁峰,周饶等昆虫核酸分子系统学研究进展昆虫分类学报VOL17,NO3 1995
郑乐怡动物分类原理与方法 北京 高等教育出版社164-177 1987
黄大卫支序系统学概论 北京中国农业出版社87-93 98-1001996
钟扬,李伟,黄德世分支分类的理论与方法北京科学出版社 1994
黄原分子系统学原理,方法及应用北京农业出版社 317-322334-338
徐克学数量分类学北京科学出版社1994