这个问题还不错。
确实有很多从事CRISPR研究的人不太注意得到这方面的机制,因为现在所谓做CRISPR大多数都在搞工程化应用,对CRISPR作为免疫系统的机制研究不太关注。
已经记录到CRISPR阵列的gRNA序列为什么不会攻击CRISPR阵列自身就不细说了,对II型CRISPR系统而言主要是因为CRISPR阵列上没有PAM。那其实真正的问题是CRISPR系统为什么不会从自己基因组上截取protospacers放到CRISPR阵列里。“Cas1/2依赖于PAM来确定是不是外源DNA”这句话是不准确或者说不对的。
其实个问题有点儿意思的原因在于,这关系到CRISPR与细菌其它防御系统之间的合作问题。目前的模型是CRISPR与RecBCD系统合作进行敌我识别。
首先,细菌采集“原间隔片段”(不知道protospacers这么翻译好不好)的这个步骤叫做“CRISPR适应”。在自然条件下,是有一定概率从自己基因组上采集原间隔片段的,只是这个概率没有高到整个种群活不下去的程度。另外需要注意,CRISPR阵列中出现染色体上的序列,不等于这个序列来自染色体,比如发现一些mobile genetic element的同源序列,有可能是这些序列整合到染色体上之前就被CRISPR系统记录了。
不是所有的CRISPR系统都依赖PAM。题主问的最经典的II型CRISPR系统确实是PAM依赖型(包括采集原间隔片段),因此PAM一定程度上扮演了防止自免疫的角色,但显然不是一种广泛发挥作用的机制,甚至在CRISPR适应这一步不是主要起作用的机制。
PAM并不是CRISPR系统识别敌我的全部,Cas1/Cas2复合体采集原间隔片段的机制非常复杂,一项Nature上发表的研究:Levy, A., Goren, M., Yosef, I.et al. CRISPR adaptation biases explain preference for acquisition of foreign DNA.Nature 520,505–510 (2015) 第一次建立了一种说得通的模型来解答原间隔序列采集的“敌我”偏好性问题。
这篇文章讲了一件事,作者在E. coli 里发现,Cas1/Cas2对原间隔片段的采集依赖于DNA双链断裂和降解,Cas1/2复合体从RecBCD(大肠杆菌另外一种免疫机制,同时是自身染色体DNA同源重组修复机制的一部分)降解双链DNA末端的中间产物中获取原间隔片段。现在我们知道其中RecBCD发挥的解旋作用是必要的,降解作用则可能可以被其它机制弥补。
很多噬菌体的DNA本身就是线性的,有暴露的双链DNA末端,所以容易在RecBCD降解它的过程中被Cas1/2复合体截取原间隔片段。
外源质粒因为复制频率高,有大量复制叉,而DNA复制时容易出现双链断裂,所以也很容易被CRISPR系统截取。
而细菌基因组正常情况下没有大量暴露的双链DNA末端,在复制过程中出现双链DNA断裂时,也有一定机会被CRISPR系统截取,但是概率小得多。
另外,RecBCD在降解线性DNA时,本身也有敌我识别机制,这种机制被CRISPR系统利用了。
DNA上有一种特征序列叫做Chi序列,这种序列简单说可以看成是RecBCD处理DNA方式的一个切换信号,可以把RecBCD的功能从降解DNA转变为DNA修复,同时也是细菌用来保护自己的。在细菌染色体上,大量存在Chi序列,可以指示RecBCD停止消化自己的染色体,进而将双链DNA断裂修复,这样也就等于阻止了CRISPR系统截取染色体上的DNA片段。而外源DNA很少有Chi序列,于是在被RecBCD降解的过程中就为CRISPR系统截取原间隔片段提供了大量原料。
最后,凡事都有例外,有些细菌是没有RecBCD系统的,有可能是Cas4客串了类似的角色,不过Cas4的主要职责现在来看还是确保protospacer和PAM的关联。
还有一个有趣的问题是Cas9本身扮演的角色,在II型CRISPR系统中,Cas9也参与了原间隔片段的截取,而且会影响DNA截取对象的偏好。这个机制目前不清楚,猜测是Cas9非特异性的DNA内切酶活性在Cas9过表达时可能会制造额外的DNA双链断裂。