新一代测序(NGS)的所谓全基因组数据实际上是覆盖在人类的基因组全长的几十到上百倍的短的DN开发者_运维技巧A序列,读长一般只有百个碱基左右。由于人类基因组是已知的,有30忆碱基的长度,而百个碱基的序列可能的序列空间是4^100,已经足够能唯一的在基因组上定位这个序列,所以生物信息学上把这一步叫Mapping,可能翻译为序列定位吧,比较有名的软件有BWA,Bowtie等。
由于这些短序列是最少几十倍的覆盖了基因组,通过它们与参考基因组的比较,就可以得到个体在哪里出现了突变,这些突变如果是单碱基的替换,就是楼主说的SNP,当然还可能有插入删除等更复杂的情况。如何甄别这些基因组上的细微差异,生物信息学上把这一步叫SNP calling,可能翻译为基因型定义吧,比较有名的软件有GATK等。
找到了SNP并不算完,要解释他们就需要更多的分析。最简单的是看看这个突变是否能改变蛋白质的翻译结果,一般来说影响蛋白质表达的突变更有意义,所以生物信息学上要对突变做注释,比较有名的软件如Annvar, SnpEf等。
更近一步的分析,想得到突变更深层次的意义,就要更多看看它和以前的数据库中突变的异同,如现有的千人计划项目数据,OMIM疾病数据等等库的吻合程度,从而确定它的已知的生物学意义。
当然解释SNP的意义,还有更多的途径和方法,SNP之间也不是独立的,联合分析它们可能讲出更多的故事。个人认为,总体来讲我们对自己的snp了解还很不够的,现有的知识能解释的范围比喻成冰山一角都太多了,是恒河与其沙的关系吧,不过这些认识已经很令人吃惊了,有胜于无。
精彩评论