开发者

什么是基因识别?是怎样实现的??

开发者 https://www.devze.com 2023-01-21 18:57 出处:网络 作者:如何学Go
◇℡♀蝶﹎ 2021-10-05 19:34 基因识别中的一个关键问题是预测编码区域。所谓编码区域预测,一般是指预测DNA序列中编码蛋白质的部分,即基因的外显开发者_如何学C子部分。而基因识别的最终目标是预测完整的基因
◇℡♀蝶﹎ 2021-10-05 19:34


基因识别中的一个关键问题是预测编码区域。所谓编码区域预测,一般是指预测DNA序列中编码蛋白质的部分,即基因的外显开发者_如何学C子部分。而基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。

识别DNA序列中蛋白质编码区域的方法主要有两类。一类是基于特征信号的识别。真核基因外显子(编码区域)具有一些特别的序列信号,如内部的外显子被剪切接受体位点和给体位点所界定,5’-端的外显子一定是在核心启动子(Core Promoter,例如TATA盒)的下游,而3’-端的外显子的下游包含多聚A信号和终止编码。根据这些序列特征信号确定外显子的边界,从而达到识别编码区域的目的。 然而没有一个算法在预测基因时仅仅检测这些信号,因为这些信号的强度太弱,它们缺乏统计的显著性。另一类是基于统计度量的方法,对编码区进行统计特性分析。通过统计而获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用,而另一些则较少使用。这样就使得编码区的序列呈现出可察觉的统计特异性,即“密码子偏好性(codon biases)”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。统计度量方法主要包括:密码子使用倾向(codon usage)、双联密码统计度量(dicodon statistic measure)、核苷酸周期性分析(即分析同一个核苷酸在3,6,9,…位置上周期性出现的规律)、基因组中等值区(isochore)的分析等。


鹿栀_980 2021-10-05 19:38


基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。

识别方法主要有:

间接识别法
利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。

从头计算法
一般意义上基因具有两种类型的特征,一类特征是“信号”,由开发者_JAVA百科一些特殊的序列构成,通常预示着其周围存在着一个基因;另一类特征是“内容”,即蛋白质编码基因所具有的某些统计学特征。使用Ab Initio方法识别基因又称为基因预测。通常我们仍需借助实验证实预测的DNA片段是否具有生物学功能。
高级的基因识别算法常使用更加复杂的概率论模型,如隐马尔可夫模型。Glimmer是一个广泛应用的高级基因识别程序,它对原核生物基因的预测已非常精确,相比之下,对真核生物的预测则效果有限。

比较基因组学的方法
由于多个物种的基因组序列已完全测出,使得比较基因组学得以发展,并产生了新的基因识别的方法。该方法基于如下原理:自然选择的力量使得基因和DNA序列上具有生物学功能的其他片段较其他部分有较慢的变异速率,在前者的变异更有可能对生物体的生存产生负面影响,因而难以得到保存。因此,通过比较相关的物种的DNA序列,我们能够取得预测基因的新线索。


152**开发者_如何学编程**3502 2021-10-05 19:49


基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基因组研究的基础。
基因识别的主要手段是基于活的细胞或生物的实验。通过对若干种不同基因的同源重组的速率的统计分析,我们能够获知它们在染色体上的顺序。若进行大量类似的分析,我们可以确定各个基因的大致位置。现在,由于人类已经获得了巨大数量的基因组信息,依靠较慢的实验分析已不能满足基因识别的需要,而基于计算机算法的基因识别得到了长足的发展,成为了基因识别的主要手段。


0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号