首页

定量生物学（系统生物学、计算生物学、理论生物学）是否将成为未来生命科学研究的热点？第1页

fung-steel 网友的相关建议:

短时间内，定量生物学难出大突破。因为目前定量生物学的算法，缺得特别厉害。

举个例子，一个定量组学数据出来，大部分就是做个PCA压缩，做个t-SNE压缩；或者做个聚类，或者共表达网络分析。压缩分类后，做下已知通路的富集分析。期和期之间，做下GSEA。

我写出来，不懂的会觉得不明觉厉，懂的都知道，这就是常规套路。全都依靠现有知识，解释自己的组学数据，全在凑已知通路。

大数据出来不应该预测新基因吗？炒冷饭有什么用呢？找未知功能基因，用机器学习里的模式识别啊。

目前行业里和机器学习搭边，最常用就是SVM，其他算法用得特别少。2000年就有人用卵巢癌和正常卵巢组织基因芯片数据，通过SVM预测哪个是癌组织。20年后，其他行业各种算法百花齐放，生物还是一水的SVM。

目前我看的文章里，做的最高级的SVM是2016年一篇寻找自闭症未知基因的Nature Neuroscience。通过2015年所有组织转录组数据，做基因共表达谱，再根据已知自闭症阳性和阴性基因和其他基因的共表达状况，用SVM找新基因。这篇文章预测的AUC能到0.75，后续用自闭症病人的测序数据，验证了预测基因与疾病的相关性。理论预测和实验很契合。

因为我也做过SVM预测，它有个很大问题，支持向量决定分离平面，所以支持向量数据的准确性严重影响分离平面的准确性。而普通实验中测个序，数据都有一定置信区间，不可能很准，这就制约了SVM在生物学预测的实用度。2016年那篇Nat Neuroscience为什么特别好，因为他用了成千上万篇文章里基因表达的相关性，不是单纯的基因定量值，大样本加上上升到co-occurancy层面，抹掉了数据不准的局限。所以预测就很准。

这才是未来。

---

说个题外话，为什么生物行业算法层面进步缓慢？

首先因为穷。做生信的大多是调包侠，能自己编程的不多；少数会编程的，大多是计算机专业，数学不行；能做核心算法的，本来就不多，都在其他高薪行业。真心希望机器学习大佬光顾下生物行业，救救孩子们。然而这工资水平，实在拿不出手。

另外一点，业内对算法不够重视。2000年那篇SVM引用量上千还是上万，也只发在Bioinformatics上。我目前做的工作也是组学的机器学习，做了新算法改良，也做了实验验证，还挺准。本来想做成方法学的文章，很多人都觉得做算法文章发不好。最后我改成了组学传统套路分析的Resourse。心累。

定量生物学（系统生物学、计算生物学、理论生物学）是否将成为未来生命科学研究的热点？的其他答案点击这里