竟然能遇上我本专业的问题。额,其实我就是做过一点植物基因组的预测和注释,所以略懂一些。很少在知乎答题,看到这问题答案不太全,就大概答一下吧。
首先,需要明确的一点是:我们人类在完整地预测整个物种的基因组上还有很多研究要做。目前的方法可以预测出大部分的基因,但还是会有不少漏网之鱼。
然后,基因的定义那个夜神同学意见讲的很清楚了,总的就是编码蛋白和非编码的基因,题主问的多个内含子组成的编码区当然算基因啦,而那些非转录原件一般算feature,不算基因,这是定义问题不用太在意。
而怎么从一个未知的基因组中找到基因其实大体上分为三部分,1)是通过特有的结构来预测,也就是利用一些模型或者机器学习方法去找基因;2)是利用RNAseq数据,这是挺靠谱的,如果有测RNA的数据(相比拼基因组也不算贵),利用转录出来的RNA,返回去推基因的位置;3)是利用已知的数据库,比如近缘物种(也就是猩猩和人这样的关系)的信息,通过序列相似的思路去预测基因。(这些近缘的基因序列也可以用来做机器学习的训练集)。——其实也有人说分成“从头预测”和“同源比对”两部分,无所谓啦。
通过以上不同的方法分别预测出基因之后,再利用一些数学上的打分算法给各个预测结果打分,然后综合得到一个物种的全部基因信息(包括非转录原件等feature)。然后题主就可以一个一个数数,就得到推测的基因数量了(但是不是很准,大概也就80%~90%吧)。
预测出基因之后还要通过与另外的一些数据库的比较来得到基因的功能,这属于功能注释。然后初步的预测和注释工作就算结束了。再之后,人们还可以通过一些实验手段及进一步测序来不断补充剩下的那未知的10%,但这样的补完工作非常的繁琐且我不懂,所以就不介绍了。总之要知道即使是人类基因组,目前也不能说是完全搞定了。
不知道废话有没有太多,我就是简单的介绍一下给非专业人士看的,专业人士如果想获得更多的信息请直接阅读相关文献,例如我参与发表的这篇小文章:
Crop Genome Annotation: A Case Study for the Brassica rapa Genome
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有