百科问答小站 logo
百科问答小站 font logo



定量生物学(系统生物学、计算生物学、理论生物学)是否将成为未来生命科学研究的热点? 第1页

  

user avatar   fung-steel 网友的相关建议: 
      

短时间内,定量生物学难出大突破。因为目前定量生物学的算法,缺得特别厉害。

举个例子,一个定量组学数据出来,大部分就是做个PCA压缩,做个t-SNE压缩;或者做个聚类,或者共表达网络分析。压缩分类后,做下已知通路的富集分析。期和期之间,做下GSEA。

我写出来,不懂的会觉得不明觉厉,懂的都知道,这就是常规套路。全都依靠现有知识,解释自己的组学数据,全在凑已知通路。

大数据出来不应该预测新基因吗?炒冷饭有什么用呢?找未知功能基因,用机器学习里的模式识别啊。


目前行业里和机器学习搭边,最常用就是SVM,其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据,通过SVM预测哪个是癌组织。20年后,其他行业各种算法百花齐放,生物还是一水的SVM。

目前我看的文章里,做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据,做基因共表达谱,再根据已知自闭症阳性和阴性基因和其他基因的共表达状况,用SVM找新基因。这篇文章预测的AUC能到0.75,后续用自闭症病人的测序数据,验证了预测基因与疾病的相关性。理论预测和实验很契合。

因为我也做过SVM预测,它有个很大问题,支持向量决定分离平面,所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序,数据都有一定置信区间,不可能很准,这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好,因为他用了成千上万篇文章里基因表达的相关性,不是单纯的基因定量值,大样本加上上升到co-occurancy层面,抹掉了数据不准的局限。所以预测就很准。

这才是未来。

---

说个题外话,为什么生物行业算法层面进步缓慢?

首先因为穷。做生信的大多是调包侠,能自己编程的不多;少数会编程的,大多是计算机专业,数学不行;能做核心算法的,本来就不多,都在其他高薪行业。真心希望机器学习大佬光顾下生物行业,救救孩子们。然而这工资水平,实在拿不出手。

另外一点,业内对算法不够重视。2000年那篇SVM引用量上千还是上万,也只发在Bioinformatics上。我目前做的工作也是组学的机器学习,做了新算法改良,也做了实验验证,还挺准。本来想做成方法学的文章,很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。




  

相关话题

  为什么葫芦兄弟是一条藤上结出来的,但是却表现出七种不同的性状? 
  如何用进化论解释脚臭? 
  北极贝和北寄贝是不是一种东西?如果是的话,北极和北寄两个名字哪个正确? 
  老鼠怕猫究竟是脱氧核糖核酸(DNA)的遗传,还是面对比自身更庞大生物的恐惧? 
  多细胞低等动物有没有神经系统,如果没有,他们通过什么来识别食物等东西? 
  对污物撒尿时污物会不会随尿液扩散至人体内? 
  生物科学类(含生物科学、生物技术、生态学、生物工程专业) 研究生就业前景如何? 
  如何看待清华大学生命科学学院削减研究生补助的行为? 
  如何看待张五常「公款办私立大学」的观点? 
  为什么古生物从出现到演化至今,一直都是四肢动物? 

前一个讨论
黑丝袜真的不能搭配运动鞋吗?
下一个讨论
你身边生化环材的博士混得最惨的,目前的近况如何?





© 2025-03-11 - tinynew.org. All Rights Reserved.
© 2025-03-11 - tinynew.org. 保留所有权利