淘客熙熙

主题:翻译一篇分子进化的文献 -- 空格

共:💬23 🌺46 新:
全看分页树展 · 主题 跟帖
家园 估计两条序列的dn和ds值

两类方法已经被建议来估计dn和ds值,在两条编码蛋白序列之间。第一类方法包括超过一打的直观方法,多是1980年代初期以来开发的[5,9-15]。这些方法涉及以下步骤:统计两条序列上的同义(S)和非同义(N)位点,统计两条序列的同义和非同义差异,并针对同一位点的多次取代进行纠错。S和N被定义为序列长度乘以蛋白质承受选择前同义和非同义改变的比例。多数这类方法采取的是核苷酸取代过程的简化假设,并引入了对数据的不可被纠正的ad hoc处理。因此,我们把这类评估dn和ds的方法称为近似方法。Miyata和Yasunaga[5],以及 Nei和Gojobori[9],假设了相等的转换速率(T-C和A-G)和颠换速率(TC-AG),以及统一的密码子使用。由于转换在第三位“摆动”位置上比颠换更可能是同义的,所以忽略转/颠换速率比例会导致低估S和高估N[10]。已有很多工作努力在统计位点和差异时整合这种转/颠换速率偏好(框壹)[10-14]。密码子使用偏好的效果在很大程度上被忽略了。然后,极端的密码使用偏好可以对dn和ds的估计产生毁灭性的影响[15,18]。最近,一种ad hoc方法可以同时整和转换和密码使用偏好的问题[15]。

第二类方法是基于明确的编码取代模型的最大似然方法(框贰)[16,19]。模型中的参数(例如,序列分析的t参数,转颠换速率比例的K参数,以及dn/ds 比值的omega参数)来自对数据的最大似然估计,并按照其定义用于计算dn和ds的值[15,16,20]。一个主要的特征是这个模型的公式建立是基于同时速率水平的(其中不可能有多重改变),并且概率理论用一步就完成了所有困难的工作:估计诸如k这样的突变参数;校正多重匹配,密码子改变的加权,等等。

统计检测可以检测出是否dn是显著高于ds的。对于近似方法来说,正态近似被应用于dn-ds。对于最大似然方法来说,可以使用似然比例检测。在这种情况下,null模型的omega值固定为1,而备择模型估计omega为自由参数。两个模型间的对数似然差异的两倍,被用一个自由度的卡方分布来比较,以此检测是否omega不等于1。

计算模拟被用来检查差异估计方法的好坏。其结果对真实数据的观察值是稳定的[14,15,19]。我们在对人和猩猩alpha-2 球蛋白基因分析中,用不同估计过程证实了这一结果(表2)。在比较中,最大似然法中各种不同的假定都是关注于转颠换速率偏好和编码偏好的。和复杂的模型相比,仅仅只考虑转颠速率或只考虑密码子偏好的简单模型都经不住似然率检验,因而被放弃{reject}了。这样,根据ML法解释这两种偏好的估计(模型8,表2)显然可以期望将是最可靠的了。我们作出了如下观察:

*假设比方法更重要。在相似的假定下近似方法和ML方法得到相似的结果。如果都使用忽略转颠换偏好和密码使用偏好的预设模型,Nei和Gojobori的方法与ML法会得到类似的结果(模型1,表2)。而当使用考虑转颠换偏好而忽略密码使用偏好的模型时,Ina和Li的方法亦得到和ML法相似的结果(模型2,表2)。当同时考虑两种偏好时,Yang和Nielsen的方法[15]与ML法得到相似的结果(模型6,表2)。然而,对亲源关系较远的序列,近似方法中的ad hoc处理会导致严重的偏离,即使使用了正确的假定也不能避免。

*忽略转颠换速率偏好会导致S的低估,ds的高估,以及omega的低估[10]。

*在这些数据中的编码使用偏好有相反的倾向。忽略密码使用偏好导致高估S,低估ds和高估omega。设想这个基因有极高的GC含量在第三位密码子上,T占9%,C占52%,A占1%,G占37%。绝大多数第三位密码子上的改变(即发生在氨基酸水平选择之前的改变)是C和G之间的转换。这样,同义位点的数目就比频率相等情况下的期望值少一半。虽然,理论上说,这种由非平均密码子频率造成的偏好可能会在相反的方向上[15],我们还没有遇到一个真实的基因是这样的情况。这样,在检测沉默位点上的GC含量和ds间关系时,密码使用偏好就可以误导之前所做的那些分析的结果[21]。

*因为那些分析在估计ds时忽略了密码子使用偏好。即使对高度相似的序列,不同的方法也会产生不同的估计值。表2中使用的序列只有大约10%的沉默位点差异和小于1%的非同义位点差异。然而,对omega的估计值有三倍的差距。这是因为所有的估计过程都是把所有的位点数目区分成同义和非同义两类,对一类的低估必然造成对另一类的高估,因而会产生omega比值的较大误差。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河