首发于 生物信息学

密码子使用偏性的分析方法介绍

DNA通过转录,控制着mRNA的合成,而mRNA是蛋白质合成的模板,它决定了蛋白质的序列结构、功能等信息。把mRNA看作一种语言,它由4种不同碱基的核苷酸组成(A、U、C、G),蛋白质序列则是完全不同的另外一种语言,它由20种基本氨基酸组成。在生命体内就有一种机制,它通过识别这4种碱基的不同排列组合来翻译成对应的氨基酸,因此在mRNA中的碱基顺序称为遗传密码(Genetic Code),mRNA中每三个核苷酸组成的三联体称为一个密码子(Codon),遗传密码子表见下图。

64组密码子(4*4*4)中,有三组不编码(UAG、UAA和UGA),它们是终止密码子,还有一组AUG既是甲硫氨酸(Met)的密码子,又是多肽合成的起始密码子。另外,在很多原核生物中GUG和UUG也为起始密码子。 由于密码子具有简并性的特征,既一种氨基酸对应不同的密码子,因此不同氨基酸对应的不同密码子的使用频率是不一定相同的,我们把氨基酸对应的各自密码子使用频次的不同叫做密码子使用偏性。不同种属生物的氨基酸偏爱的密码子是不一样的,甚至同一物种内,不同功能和不同保守程度的基因,它们的密码子使用偏性也是不一样的。

例如,上图的工作中(López, J. L,2019),作者使用了Rhizobiales目中不同物种的细菌基因组,找出不同保守程度的core gene(不同颜色的原点表示),分析不同物种以及不同基因的密码子偏性。图中展示的是对这些不同gene set的密码子偏性的主成分分析结果,可以看出,确实存在的很大的差异,这些这些往往和物种的进化相关。

同样以这份工作为例,细菌相对于真核生物来说,可以较高频率的与外界发生遗传信息交流,比如通过水平基因转移(HGT)从环境中直接获取到其他物种的基因,在细菌内部也十分容易发生基因组的大片段重组,这样就可以把外界吸收来的有利基因慢慢的整合到核心基因组中去。因此通过对基因中密码子的使用偏好进行分析能帮助判断这些基因的来源和进化历程。另外密码子使用频率也和基因的表达量相关,如果基因使用了和tRNA更相似的密码子,它就可以减少与对应的tRNA分子匹配的时间,使具有较高表达量,那么这个基因可能对维持物种的生命活动是十分重要的。

衡量指标介绍

目前,已经提出了很多数学量来对密码子的使用偏性进行量化,有些是对整个基因组内单个密码子的分析,有些则是从一个基因的角度来衡量其密码子偏好性。下面对常用的几个指标做简要的介绍:

1. 密码子使用频次(Observed number of occurrences of codon 'i', Obsi)

对于某一特定的密码子i,其在基因中实际出现的次数称为密码子使用频次。

2. 相对同义密码子使用度(Relative synonymous codon usage, RSCU)

RSCU定义是以某一个同义密码子的使用次数为分子,以该密码子预期出现的次数为分母。其中,预测出现的次数为该密码子所编码的氨基酸的所有密码子平均使用的次数,公式如下:

如果密码子使用没有偏好,则该密码子的RSCU值等于1。当某一密码子的RSCU值大于1,则表明其的使用频率相对较高。由于它计算方便,而且很直观的反映出密码子使用的偏好性,因此在大多数的密码子相关分析中,都使用了它作为衡量偏好性的标准。

3. 有效密码子数(Effective Number of Codon, ENC)

指基因中使用的有效密码子的数量,公式如下

公式中,n表示基因中所使用的密码子总数,k表示同一密码子数量,p表示密码子使用频率。ENC值的范围为20到61,20表示每个氨基酸只使用了一个密码子,61表示每个密码子都被平均使用。其值越低,说明密码子使用偏好性越强,反之亦然。 ENC能反映密码子家族中同义密码子非均衡使用的偏好程度,是评价基因整体密码子偏好性中最具有参考价值的参数。通常高表达基因的密码子偏好程度大,从而其ENC值较小;低表达基因则含有较多种类的稀有密码子,其ENC值较小。所以,可以通过比较ENC值来确定内源基因表达量的相对高低。

4. 密码子适应指数(Codon adaptation index,CAI)

对于某一个基因,CAI是指编码该蛋白的所有密码子相对于这条基因都使用最优密码子的情况下的适应系数。计算该值需要先提供在对应物种中高表达基因的最优密码子表作为参考,公式如下:


L表示基因中所使用的密码子数,CAI值介于0~1之间,该值越大表示适应性越强,CAI值广泛应用于基因表达水平的评估中。

5. 最优密码子使用频率(Frequency of optimal codons, FOP)

最优密码子是指在某物种高表达基因中使用频率最高的密码子,也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子 tRNA 基因的密码子。该指标是指最优密码子和其同义密码子的比值,和CAI的计算一样,需要已知高表达基因的最优密码子。FOP的取值范围为0到1之间,1表示只有最优密码子被使用,0则表示没有最优密码子被使用到。

6. 密码子偏好性指数(Codon bias index, CBI)

它反应了一个基因中高表达优越密码子的组分情况。对目的宿主自身的基因 , 该指数和 ENC 值有很好的相关性,但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况, 故而得到广泛应用。

7. GC含量及GC3

GC3指的是基因中所有密码子的第3位的GC含量,即除了蛋氨酸、色氨酸和终止密码子外,G和C出现在密码子第三个位置的频率。由于密码子的使用偏性与密码子第三位的GC含量有很大关系,基因的 G+C 含量以及GC3值也受到了很大关注。

分析工具

针对密码子使用分析的软件也有很多,包括CodonW,EMBOSS,GCUA等。其中,EMBOSS是一个强大的综合工具,它整合了100多个序列分析的程序,可以完成DNA和蛋白序列的各种分析,包括DNA翻译,全局或者局部序列比对等功能。这里简单介绍下怎么通过EMBOSS来计算密码子偏性。 可以网页中使用EMBOSS的功能,在线使用的地址如下: bioinformatics.nl/embos 也可以下载到本地(Linux or MAC),方便批量对序列分析,下载地址如下: emboss.sourceforge.net/

在线使用教程:


在网页的左侧找到“NUCLEIC CODON USAGE”,可以看到有5个小工具:

1.cai:计算CAI值


填入或者上传序列,再选择高表达基因的最优密码子表(或者使用默认),点击Run cai,就可以得到结果了

2. chips:计算ENC值


提交序列,选择是否把所有序列当成一条序列来计算ENC,点击Run chips

3. cusp:计算codon usage table(密码子使用频率表)


在这里输入高表达基因的CDS序列,就可以得到高表达基因的密码子使用频率表。输入基因组的所有CDS序列,则可以得到这个基因组的密码子使用频率表。频率表里面会包含密码子第 1、2、3 位碱基的 GC 含量(分别为 GC1、GC2、GC3)及 3 位碱基的 GC 平均含量(GCall)

Note:相对同义密码子使用度,即RSCU值,可以使用Codon W软件计算得到。

欢迎关注公众号:"生物信息学"

Ref:

Wu, X.M., Wu, S.F., Ren, D.M., Zhu, Y.P., and He, F.C. (2007). The analysis method and progress in the study of codon bias. Yi Chuan 29, 420–426.
López, J.L., Lozano, M.J., Lagares, A., Fabre, M.L., Draghi, W.O., Del Papa, M.F., Pistorio, M., Becker, A., Wibberg, D., Schlüter, A., et al. (2019). Codon Usage Heterogeneity in the Multipartite Prokaryote Genome: Selection-Based Coding Bias Associated with Gene Location, Expression Level, and Ancestry. MBio 10, 1–20.

玻璃钢生产厂家阳泉玻璃钢前台多少钱北海玻璃钢花池多少钱宁德玻璃钢医疗外壳生产厂家泉州玻璃钢造型制造永州玻璃钢花瓶公司菏泽玻璃钢前台批发伊春玻璃钢垃圾桶制造江门玻璃钢外壳生产厂家西宁玻璃钢垃圾桶公司淮南玻璃钢花钵多少钱泰安玻璃钢家具多少钱鹰潭玻璃钢浮雕生产厂家乐山玻璃钢座椅厂家直销铜川玻璃钢花池厂家直销贵阳玻璃钢动物雕塑多少钱丽江玻璃钢前台制作昌都不锈钢雕塑制作咸宁玻璃钢休闲椅价格江门玻璃钢装饰造型厂家直销来宾玻璃钢产品制造兰州玻璃钢定做阜阳玻璃钢花瓶厂南阳玻璃钢雕塑厂家太原玻璃钢制造淮北不锈钢花盆厂家石家庄玻璃钢人物雕塑哪家好荆州玻璃钢景观雕塑厂家长春不锈钢家具厂昭通玻璃钢家具加工玉林玻璃钢外壳哪家好香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化