百科问答小站 logo
百科问答小站 font logo



定量生物学(系统生物学、计算生物学、理论生物学)是否将成为未来生命科学研究的热点? 第1页

  

user avatar   fung-steel 网友的相关建议: 
      

短时间内,定量生物学难出大突破。因为目前定量生物学的算法,缺得特别厉害。

举个例子,一个定量组学数据出来,大部分就是做个PCA压缩,做个t-SNE压缩;或者做个聚类,或者共表达网络分析。压缩分类后,做下已知通路的富集分析。期和期之间,做下GSEA。

我写出来,不懂的会觉得不明觉厉,懂的都知道,这就是常规套路。全都依靠现有知识,解释自己的组学数据,全在凑已知通路。

大数据出来不应该预测新基因吗?炒冷饭有什么用呢?找未知功能基因,用机器学习里的模式识别啊。


目前行业里和机器学习搭边,最常用就是SVM,其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据,通过SVM预测哪个是癌组织。20年后,其他行业各种算法百花齐放,生物还是一水的SVM。

目前我看的文章里,做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据,做基因共表达谱,再根据已知自闭症阳性和阴性基因和其他基因的共表达状况,用SVM找新基因。这篇文章预测的AUC能到0.75,后续用自闭症病人的测序数据,验证了预测基因与疾病的相关性。理论预测和实验很契合。

因为我也做过SVM预测,它有个很大问题,支持向量决定分离平面,所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序,数据都有一定置信区间,不可能很准,这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好,因为他用了成千上万篇文章里基因表达的相关性,不是单纯的基因定量值,大样本加上上升到co-occurancy层面,抹掉了数据不准的局限。所以预测就很准。

这才是未来。

---

说个题外话,为什么生物行业算法层面进步缓慢?

首先因为穷。做生信的大多是调包侠,能自己编程的不多;少数会编程的,大多是计算机专业,数学不行;能做核心算法的,本来就不多,都在其他高薪行业。真心希望机器学习大佬光顾下生物行业,救救孩子们。然而这工资水平,实在拿不出手。

另外一点,业内对算法不够重视。2000年那篇SVM引用量上千还是上万,也只发在Bioinformatics上。我目前做的工作也是组学的机器学习,做了新算法改良,也做了实验验证,还挺准。本来想做成方法学的文章,很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。




  

相关话题

  为什么现代生物科学不去探索大量自然变异资源,反而要用转基因来培育新品种? 
  同性可以生孩子吗?技术难点在哪? 
  人的手指为什么是5根,有什么进化学意义吗? 
  什么动物的生殖器最酷? 
  如果科学家可以人工制造几乎任何口味为什么他们不制造自然界不存在的新口味呢? 
  为什么其他生物看到同类尸体不会害怕,而人类看到同类的尸体会害怕? 
  为何既然人类同类相食会产生朊病毒,但是似乎那些食人魔无事发生? 
  如果人体从海平面下沉,能不能直接抵达马里亚纳海沟底部? 
  有很多人都把钓起来的鱼又扔回去,鱼难道不会痛吗?有说法是鱼对疼痛的记忆只有几秒或几十秒,是真的吗? 
  为什么酒精擦伤口会很疼? 

前一个讨论
黑丝袜真的不能搭配运动鞋吗?
下一个讨论
你身边生化环材的博士混得最惨的,目前的近况如何?





© 2024-05-08 - tinynew.org. All Rights Reserved.
© 2024-05-08 - tinynew.org. 保留所有权利