百科问答小站 logo
百科问答小站 font logo



定量生物学(系统生物学、计算生物学、理论生物学)是否将成为未来生命科学研究的热点? 第1页

  

user avatar   fung-steel 网友的相关建议: 
      

短时间内,定量生物学难出大突破。因为目前定量生物学的算法,缺得特别厉害。

举个例子,一个定量组学数据出来,大部分就是做个PCA压缩,做个t-SNE压缩;或者做个聚类,或者共表达网络分析。压缩分类后,做下已知通路的富集分析。期和期之间,做下GSEA。

我写出来,不懂的会觉得不明觉厉,懂的都知道,这就是常规套路。全都依靠现有知识,解释自己的组学数据,全在凑已知通路。

大数据出来不应该预测新基因吗?炒冷饭有什么用呢?找未知功能基因,用机器学习里的模式识别啊。


目前行业里和机器学习搭边,最常用就是SVM,其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据,通过SVM预测哪个是癌组织。20年后,其他行业各种算法百花齐放,生物还是一水的SVM。

目前我看的文章里,做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据,做基因共表达谱,再根据已知自闭症阳性和阴性基因和其他基因的共表达状况,用SVM找新基因。这篇文章预测的AUC能到0.75,后续用自闭症病人的测序数据,验证了预测基因与疾病的相关性。理论预测和实验很契合。

因为我也做过SVM预测,它有个很大问题,支持向量决定分离平面,所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序,数据都有一定置信区间,不可能很准,这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好,因为他用了成千上万篇文章里基因表达的相关性,不是单纯的基因定量值,大样本加上上升到co-occurancy层面,抹掉了数据不准的局限。所以预测就很准。

这才是未来。

---

说个题外话,为什么生物行业算法层面进步缓慢?

首先因为穷。做生信的大多是调包侠,能自己编程的不多;少数会编程的,大多是计算机专业,数学不行;能做核心算法的,本来就不多,都在其他高薪行业。真心希望机器学习大佬光顾下生物行业,救救孩子们。然而这工资水平,实在拿不出手。

另外一点,业内对算法不够重视。2000年那篇SVM引用量上千还是上万,也只发在Bioinformatics上。我目前做的工作也是组学的机器学习,做了新算法改良,也做了实验验证,还挺准。本来想做成方法学的文章,很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。




  

相关话题

  为什么没有或者很少有环形的生物? 
  为什么指甲内端是粉色的,而外端是白色的? 
  为什么生物老师说七个月大的早产儿比八个月大的早产儿更容易存活?而农村也有“七活八不活”的俗语? 
  人类如果缩小到昆虫一样小,能否击败大多数虫类(节肢动物)? 
  企鹅可以养在冰箱里吗?为什么? 
  为什么说地表最强的动物是水熊虫? 
  生物做梦的生理学意义是什么? 
  嘲笑是人类的行为模式,这一行为模式的成因是什么? 
  如何检测出食品的种类? 
  如果人类的意识被科学家证明只是一种物质或者一种活动,那时候我们该怎么安置我们存在的意义? 

前一个讨论
黑丝袜真的不能搭配运动鞋吗?
下一个讨论
你身边生化环材的博士混得最惨的,目前的近况如何?





© 2024-05-19 - tinynew.org. All Rights Reserved.
© 2024-05-19 - tinynew.org. 保留所有权利