我是做神经疾病基因组学研究的。同时做生物信息也做一些实验,老板是MD,但也跟很多科学家,各路医生,bioinformatician都有接触。所以对这整个NGS/bioinformatics/genomics/gene regulation/disease这一条龙的科学都有一些了解和学习。当然也因为涉及的太多导致可能我不精于某个环节,按照英文谚语就是 Jacks of all trades but master of none.
我们搞各种sequencing最大的目的之一还是疾病治疗或者个性化医学(personalized medicine)。但哪怕测序成本降低到0,又如何?
因为:
第一,医学层面, 我们对人类疾病遗传学的认识太少太少太少太少太少
第二,生物层面, 我们对人类基因组的认识太少太少太少太少太少
关于人类疾病遗传
大部分人类疾病都是复杂疾病 (complex disease)。比如常见的糖尿病,心脑血管,当然我个人最熟悉的大部分的neurological disorder 以及 psychiatric disease. (当然这里不讨论癌症/tumor, 因为我个人观点从哲学角度癌症属于额外增长出的abnormal tissue,属于另外一类型的病)
关于复杂疾病,从遗传学的角度:
a. 很多都是多位点疾病。这是最让geneticist头疼的,换句话说,你压根找不到基因组学层面上的病因。比如神经疾病里类似Huntington disease这种明确的单一位点的疾病是很少的。或者说类似孟德尔经典遗传那种老子得病儿子就得病的简单遗传说很少见的。大部分疾病,不同病人的基因组突变是不同的,基因A的一个突变和基因B另外一个突变可能引起最后同样的pathology。也或者是基因A和基因B同时都起作用。最新的最大规模的人类身高的GWAS就表示大概有~700个基因都是和人类身高有关的。要知道人类身高是最最最简单的phenotype,尚且都有这么多基因参与,就更别说疾病性状了。
b. 遗传性(familial) vs 偶发性(sporadic). 这里算point a的延伸。对于某一种疾病可能有这两种form的形态,虽然病理学是一样的。但一般来说,familial的是少数,也是非常罕见宝贵的家族式医学资源,exome-seq可以帮助我们找到这个家族的致病基因,可是是仅限于这个家族的。而大部分都是sporadic case,父母都不得病,而自己却得病,这点从经典遗传学就很难解释了。目前的说法就只能是很多基因相互作用blabla。
c. 同一种疾病不同人种的病因可能不同。至少我看到的很多神经疾病,Caucasian和Asian的得病机制是完全不同的,或者致病因子在不同族群里的frequency很不同。这一点再次印证复杂疾病遗传的heterogeneity. 另外,哪怕同一族群内,不同的病人得病机制可能也不同。你去看随便一个人的exome-seq,通过各种生物信息的filter,最后依然可以得到大概100个左右的novel missense mutation, 也就是说每个人都有一些非常private的突变,可能全世界就你一个人有。但private或者罕见就一定代表是deleterious会得病?Who knows.
d. 同一个病的不同病人的age onset和survival不同。一个得病年龄(age onset),一个得病后生存期 (survival 或者叫 disease progression ),这两个是最重要的临床指标。同一个绝症,有的人20岁就得病,有的人50岁得病;有的得病后只能活3年,有的可以活到老死,所以说有很多peronsalized的modifier gene来调控病人的phenotype。对于有的疾病,研究disease progression和研究病因一样重要。因为有的病来的太快太猛,延迟疾病progression可以帮助病人赢得大量宝贵治疗时间。
e. 很多外界环境刺激。这一点就更玄乎了。抽烟饮酒辐射会提高发病risk?Maybe,但是请告诉我尼古丁到底是作用到什么基因上?作用到什么receptor?Or what pathway? 因为外界刺激也是有个生命体内的受体的。
f. De novo mutation. 对于幼儿的神经发育疾病,很多时候治病机制是全新的突变。比如父母年纪大所以精子卵子突变导致的。还有比如基因组某些部位发生microdeletion or other large genomic rearrangement, 这样可能就会产生非常罕见的神经发育异常。
研究手段
那如何用NGS来研究至少部分解决以上遗传学难题呢?
现在能做到的:
1. 对于familial case或者幼儿的De novo mutation,直接exome sequencing是非常非常powerful的办法。exome-seq的确是解决了这类monogenic disease很大一部分,赞美的话就不说。但问题是,familial case鉴定出来的基因很多时候压根不适用于sporadic。比如ALS里或许只有5%的familial case有TDP-43的突变,而放到sporadic case里或许0.1%都没有。那么这里exome-seq的意义就是帮助我们看到疾病的冰山一角。仅此而已。
2. 对于sporadic case,GWAS以及whole-genome sequencing。GWAS和WGS可以帮助我们找到疾病相关的各种common或者rare variation。WGS领域里一个还非常值得研究的方向就是各种复杂structural variation的鉴定。但问题是:
a. 这些common、rare variation,它们对疾病risk的contribution是百分之多少?
b. 这些variation往往都在noncoding的区域,请问noncoding variation在分子水平的功能是什么?在疾病水平的功能又是什么?
要回答这种问题,就要引申到下面的生物学话题。
关于人类基因组
如上文说的,大部分人类疾病相关的SNP,structural variation都在非编码区(noncoding region)。人类基因组98%的区域都是调控功能的dark matter,分类来说:
a. Promoter和UTR。这算是非编码区里我们了解的最清楚的了。研究的相对透彻。如果疾病相关的SNP在这两个区域,我就要烧香拜佛了。但哪怕是promoter区域的SNP你要非常深刻搞清楚在疾病model里的功能,估计也是一片Nature Genetics了。
b. Intron. 要比promoter或者UTR复杂的多。各种跟splicing或者RNA processing相关的pathway。比如增加splicing的efficiency等等。RNA process本身就是另外一个大黑洞。而且intron不仅限于splicing,也可能是enhancer或者DNA level的调控。
c. Epigenetics/nucleosome. 我觉得未来所有biologist都需要摆脱把DNA想象成linear的习惯。所有的基因活动都是基于nucleosome水平的。nucleosome水平都是有各种histone modification的。当然epigenetics是个大话题。
d. Chromatin 3-D structure. 基于c就不得不提,既然把chromatin从立体的角度来想,那么基因组不同区域是三维作用的,所以有各种DNA looping, 所以一个疾病SNP可以调控比如300KB下游的某个基因。。。目前还是很困难的研究。
e. 各类noncoding RNA。比如lincRNA,比如microRNA。 这又是另外一个大领域。
f. 人类基因组大概50%都是repeats。各种SINE,LINE, short tandem repeats,他们在进化上都有自身的意义,功能上也是。但我们不清楚。更不要说centromere和telomere这种dark out of dark, 希望新一代测序技术出来能解决这种super repetitive region的序列。。。
还有一堆比如DNA replication,DNA damage之类的太复杂了就不说了。
研究方法
1. 生物信息水平上:对于人类基因组主要是最近的两个大数据:ENCODE和Epigenome Roadmap.可以初步的帮助我们搞清楚人类基因组学哪些地方是被哪些transcription factor所binding;或者哪些区域是H3K4me1覆盖的。通过这些免费的数据我们或许可以初步了解一些概况。
但是一定要明白:
a. Protein binding 不代表一定有function。这是ENCODE受到的最大批评。
b. 我个人觉得最大的问题还是:ENCODE是基于cell line的,ER是基于tissue的。但都是基于某一个cell line或者tissue,而不是一堆。那么可信度有多高?结果可能受到tissue准备过程各种影响。所以还是要自己generate data。换言之,哪怕是ENCODE还是Roadmap能提供给我们的信息太少了。数据库还是远远不够大。哪怕Roadmap研究的比如神经组织就是很少的
2. 请问如果我有一个hypothesis:noncoding SNP rsXXXXX是否影响某个神经基因的表达?
这是个非常低级幼稚而且没水平的idea。但对于神经领域,哪怕这种问题,都很难设计实验去做。原因很简单:要搞到postmodern的神经组织太难了。病人去世后几个小时得到大脑,或许很多RNA 就降解了,到你手上的时候不知道经过了什么。或者说Brain tissue itself is a mess. 而且你搞不到样本。成本太高。
3. 我们对神经系统的了解太少太少太少。纯粹neuroscience的问题。大脑里多少种不同的neuron?这种基础问题都搞不清楚。不同neuron的从DNA到RNA到整个调控都是不同的。所以single-cell seq对于brain很重要。
4. iPS和CRISPR出来之后,一个强大的研究手段,真正研究noncoding genome对疾病的model就是iPS诱导成想要的组织,然后CRISPR来改变genome,然后对比model的difference。这是非常非常诱人的。但是技术还是很难,而且成本非常高。
上面说了那么多,意思无非是:我们在医学水平和生物水平,对于疾病的遗传学还是了解太少太少了,我个人觉得以目前人类文明水平难以启及,至于未来如何我不知道。
当然,毋庸置疑,NGS或者整个生物信息,基因组学肯定是未来的巨大产业,不仅科学还是工业。工作机会越来越多,而且是biomed领域里难得的产业化的方向之一。尤其在中国市场更光明更具有前景。因为国家越来越富有,富有之后,人类自然关注健康。你可以不上网,但不能不治病。
但是要明白:
1. 如果大家都一窝蜂去做easy部分也就是NGS,产生大量的数据而不知道如何分析,这个领域迟早要成为新的泡沫。
2. 虽然NGS也和互联网产业一样,无限潜力(想想1990年代的互联网和今天),但要明确不同是,互联网产业的成本比医学低的多,而且互联网背后有300年物理学的成熟作为后盾。而对于基因组学,我们其实是边研究边应用,还是比较脆弱的。
3. 这个行当真是个综合行业,什么都要学吧。我非常反对有人觉得bioinformatics就是搞搞生物数据的马公。难点永远是BIOLOGY,永远是如何从NGS里面获取有效的生物医学信息。这是非常需要非常强大的生物医学知识的。对researcher的要求很高。
个人职业的角度来说
做科研,如我上面说的还有太多太多的未知,也意味很多机遇。
而industry,把已知的东西变成product,也非常伟大。
所以我觉得我们需要懂得东西远远超出bioinformatics,跑几个BWA, GATK什么的。所有的genomics,bioinformatics,disease,human genetics,RNA, iPS, epigenetics...甚至一个商业的头脑思维,都是需要的。
那对单细胞组学的发展将是多么广阔的前景。。。群体测序的异质性已经太阻碍我们认识很多情况的本质了,以至于对于细微的差异根本察觉不到,而这些差距又是非常之关键的。就比如说对于干细胞、肿瘤以及衰老这些现在热门的生物学问题,都已经有人做过单细胞水平的测序了。其实对于单细胞水平的测序,其核心问题就在于扩增这一步反应,以及是否有钱去测很多个单细胞克隆的DNA,如果将测序费用降至500RMB或以下,那么单细胞的大量测序反应就不是梦了。这里可以稍微科普一下单细胞测序为什么是未来的热门。(PS:这里的单细胞指的也不是仅仅一个细胞,而是极少量的细胞的DNA,比如pg级别的DNA)
从肿瘤开始说起好了,肿瘤难以完全治疗的特点不仅在于其基因组的复杂性,还在于其复杂性所延伸而出的异质性,异质性其实就是肿瘤基因组复杂性导致的一种表型性质。异质性一般分两种情况讨论,第一种情况指的是:同一个病人的肿瘤细胞具有异质性。处于肿瘤发生的不同时期的肿瘤细胞的基因突变情况不同,造就了每一个肿瘤细胞群体内还有许多亚群(subclones),肿瘤细胞在通过转移时,就会有属于不同亚群的肿瘤细胞去侵入新的地方,形成新的肿瘤。这里,就要引入CTC(循环肿瘤细胞)(circulating tumor cells)的概念。见下图一,现在有观点认为,CTC是肿瘤初级细胞造成肿瘤转移的主要诱因。CTC细胞有着普通肿瘤细胞许多没有的特性,例如会体积更大,会拥有“干性”,或是会更容易进入EMT(上皮细胞间质化)途径等。研究表明,CTC与肿瘤的发展进程有以下关系:一、CTC的数量可以作为推测肿瘤的发展进程的标记物(marker);二、血液中高CTC数量会加快肿瘤的进程并会减少肿瘤复发的时间;三、CTC还能作为临床指标,用于指导治疗进程。然而,如此重要的细胞却因为获取难而难以研究,因为它们在血液中的含量极其地少。例如,在得晚期乳腺癌的病人中,只有1.43%的病人会在每7.5ml血液中有500个以上的CTC。这就意味着对于CTC的研究就会有着很多障碍,因为细胞的量太少。第二种情况指的是:除了同一病人的不同肿瘤细胞会造成肿瘤的异质性外,肿瘤的异质性还体现在不同病人可能得了相同的肿瘤,但是那个“相同”未必真是相同——仅仅是表型相同,不代表着基因型也相同。下图二就是肿瘤异质性的反应,不同颜色代表着不同的肿瘤亚群,不同亚群的肿瘤侵入到不同的地方形成新的肿瘤“进化”(应理解为发展)分支,造就了肿瘤的异质性;以及不同的病人之间得的肿瘤之间也有异质性。
在论述为何要用单细胞水平的基因组测序方法解决问题之前,我们需要再一次地把我们所面临的问题再梳理一遍:1.肿瘤基因组太复杂了,突变多,不同时期突变还不一样,异质化严重,如果还是以一大批肿瘤细胞的基因组拿去测序,得到的混合结果往往会干扰判断。2.肿瘤转移相关的重要细胞类群CTC在血液中的含量极少,而且不同CTC之间也有异质性——因此一方面是较难得到大批的CTC细胞的基因组,另一方面是即使得到了相关信息依旧不能说明问题。
鉴于要解决这两个问题,能更好地为肿瘤病人提供更精准的个性化治疗,笔者发现利用单细胞测序法确实能很好地(目前看来至少是概念上)部分解决这些问题。
最早的时候方法是由Roger Lasken领导的研究组,优化建立了MDA(多重置换扩增)第一代试剂盒。该技术应用耶鲁大学专利化的Phi29 DNA聚合酶。该酶具有多重置换的特性——在反应中,后一引物的延伸能超越其前面已经结合的DNA而不受其阻挡;该酶还具有超强的模板DNA结合能力,能连续合成10 kb到50 kb长的产物,最大可达100 kb,同时具有3'-5'外切酶活性和自我修复错误的能力,从而具有高保真性。然而,由于起始基因组DNA的量极小,直接用于扩增会因为某些片段(例如GC含量较少)特别容易扩增,因此会有较强的扩增偏好性(Amplification Bias),导致了对基因组的覆盖度会减小,MDA法就不能很好地解决该问题。2012年哈佛大学终身教授谢晓亮院士开发了一种新的单细胞基因组测序方法——MALBAC(multiple annealing and looping-based amplification cycles)。它可以大大减少扩增偏好性,下面我就来简单介绍一下其原理,见下图
MALBAC法的核心步骤:依旧利用MDA方法中的酶(可以用于替代原来延伸好的链)。但用的引物却是自己事先设计好的,这段引物在基因组上随机的结合,并且延伸。假设以一条链作为基础看,它在引物结合后延伸了一次后会在5‘端留下引物的序列,接下来会有更多的引物结合上来,当一条链被引物结合了2次并能一直延伸到原来链的5‘端,那么就会延伸出一段能和原引物序列互补的序列,当在58摄氏度温度下,该链DNA就会自身形成头尾互补的结构,之后的引物就不会再结合上来。这样就几乎达成了一种线性扩增DNA的效果,也可以避免已经扩增过一定次数的DNA再一次重复扩增,因为有可能那一段特别好扩增,从而会导致扩增偏好性。在5个线性扩增的循环之后,基因组DNA再进入传统的PCR扩增中。这样既可以保证DNA的质(尽量多的覆盖基因组),又可以保证DNA的量。
北大在2013年末发表了一篇PNAS,内容就是利用该方法对肺癌病人做了CTC的单细胞测序,并发现了各个CTC细胞的SNVs和INDELs的异质现象,为个性化疗法提供了较好的选择。但却发现对于同一病人,肺肿瘤中和该病人转移到身体其他地方的肿瘤拥有相似的CNV形式。并且不同病人的同类肺腺癌(ADC)自身也会共享CNV的形式。以及发现了小细胞肺癌和肺腺癌的CNV形式是不一样的。这也就暗示着基因座位上的CNV可能是被转移的肿瘤有一定选择性的,并且可能是各种癌症中特异的。
这个发现不仅在研究癌症的机理上,给了我们一个很好的启发——利用单细胞水平的测序可以发现许多曾经发现不到的基因组突变规律;在临床上也给予了我们较好的启示——也许利用单细胞测序来检测肿瘤SNVs和INDELs,可以用于个性化治疗,并更好地理解肿瘤的发展情况;而检测CNV的时候则可能不必利用单细胞测序就能判断肿瘤的种类,并帮助病人对症下药,更好地预防、治疗。
除了基因组,转录组的单细胞测序也是非常关键的,国内同济大学的孙毅教授是这个领域的专家,最近有幸听了她的报告,甚是膜拜。贴个她最近的工作:
Genetic programs in human and mouse early embryos revealed by single-cell RNA sequencing.
Nature.2013 Aug 29;500(7464):593-7. doi: 10.1038/nature12364. Epub 2013 Jul 28.
为了不跑题,就不再说单细胞RNAseq的问题了,其实对于一个还未踏入研究大门的菜鸟笔者本人来说,我更看好single cell的RNAseq,最好还能玩起dUTP链特异性等方法,这样发起文章来肯定一篇又一篇。。。。当然为了更好地进行单细胞测序,如果这个测序费用能降到跟构载体送测序的测序费用一样就更好了,哈哈。。。。
参考文献:
1.Navin N, Kendall J, Troge J, et al. Tumour evolution inferred by single-cell sequencing[J]. Nature, 2011, 472(7341): 90-94
2.Vogelstein B, Papadopoulos N, Velculescu V E, et al. Cancer genome landscapes[J]. science, 2013, 339(6127): 1546-1558.
3.Zong C, Lu S, Chapman A R, et al. Genome-wide detection of single-nucleotide and copy-number variations of a single human cell[J]. Science, 2012, 338(6114): 1622-1626.
4.Ni X, Zhuo M, Su Z, et al. Reproducible copy number variation patterns among single circulating tumor cells of lung cancer patients[J]. Proceedings of the National Academy of Sciences, 2013, 110(52): 21083-21088.
5.Plaks V, Koopman C D, Werb Z. Circulating tumor cells[J]. Science (New York, NY), 2013, 341(6151).
6.Cristofanilli M, Budd G T, Ellis M J, et al. Circulating tumor cells, disease progression, and survival in metastatic breast cancer[J]. New England Journal of Medicine, 2004, 351(8): 781-791.
7.Baccelli I, Schneeweiss A, Riethdorf S, et al. Identification of a population of blood circulating tumor cells from breast cancer patients that initiates metastasis in a xenograft assay[J]. Nature biotechnology, 2013, 31(6): 539-544.