3月11日,Nature Biotechnology杂志在线发表了中科院北京生命科学研究院赵方庆教授的最新文章,报道通过优化纳米孔三代测序体系,实现circRNA全长序列的分析([1])。

 

基于纳米孔测序和CIRI-long的circRNA全长分析技术流程

总RNA去除rRNA后通过末端加PolyA处理,以增加RNase R处理的效率。产物通过随机引物和SMARTer反转录,获得携带多个全长拷贝的反转录产物,这期间添加SMATer接头。最后的产物经过磁珠富集长片段,通过MinION platform纳米孔测序。测序数据经过过滤和接头序列处理后,利用作者开发的CIRI-long分析流程进行circRNA分析。CIRI-long算法的分析流程是首先从测序Reads中基于k-mer的方法,识别出扩增测序Reads中包含的circRNA全长序列的多重拷贝重复片段,生成高准确性的circRNA全长一致性序列(CCS)。得到CCS序列后再通过参考基因组比对,对其中的反向剪切位点及内部可能存在的可变剪切进行匹配识别,最终实现单一样本内或多样本间circRNA全长的准确识别和全长重构。

利用该技术体系,作者测试后发现可以比传统的测序分析方案检测灵敏度提高了20倍,可实现<100~5kb长度不等的circRNA是分析鉴定。

图1 基于纳米孔测序和CIRI-long的circRNA全长分析技术 ([1])

分析流程的测试与优化

为了系统评估纳米孔测序和CIRI-long分析方法的总体准确性和效率,文章设计了不同的条件进行测试。实验共分析了32个文库:实验分离了两个小鼠脑组织的总RNA(两次生物学重复,2×),每个样本分成两大组(2×2),两组中的第一组设计了RNase H处理和不处理的条件,所得样品不经过片段长度富集。第二组的不经过RNase H 处理,但会分别分离中度或长片段的分离。在每个组中又设计了是否进行末端加A的处理(2×),反转录酶用SMATer或者Maxima(2×)。这样的组合条件一共得到32个测序的文库。每个测序文库利用3个MinION的微流控反应池进行测序,得到了500M-3G不等的测序数据。此外每组生物学重复还分别作了RNase R处理与不处理的Illumina二代测序(PE150),用于对比分析。分析结果显示,进行片段富集可大大提高获得全长circRNA序列的效率,去线性前进行加A处理也有助于提高检测灵敏度。SMATer反转录酶对加A后去线性产物的反转录效率没有显著的贡献,而RNase H的处理会降低整体的效率。总之,优化后的纳米孔测序体系能够在总Reads中测到6%的circRNA信息,而在传统的PE150二代测序数据中,总RNA测序结果中只有0.06%的Reads是circRNA数据,RNase R处理也只能得到0.27% 的circRNA数据。相对于二代测序,纳米孔三代测序结合CIRI-long分析方法可以将检测效率提高20多倍。并且,纳米孔三代测序能够实现<100bp~5kb长度circRNA的全序列组装,而二代测序(PE150)仅能拼接300bp以内的序列。

图2  纳米孔结合CIRI-long分析circRNA全长的技术流程优化([1])

纳米孔测序数据分析:

为评估CIRI-long分析算法的可靠性,作者通过与NanoSim模拟处理的纳米孔测序circRNA数据进行对比,F1值可达0.92。CCS的长度与模拟信号的长度也高度一致。CIRI-long可以精确的识别分析出绝大部分(96.57%)circRNA的junction 位点,但仍有少部分(1.07%)的circRNA不能分析出准确的junction位点,原因可能是由于纳米孔测序的序列错误所致。三代测序往往碱基错误率偏高,但如果通过延长片段长度,可以大大提高CCS与序列的匹配,提高测序精确度。因此作者认为,优化的纳米孔测序体系结合CIRI-long算法可以有效提高纳米孔三代测序分析circRNA的精确性。

针对上述32个纳米孔测序数据进行分析,两次生物学重复的样品能很好地吻合,说明该体系具有较高的稳定性。比较对照的二代测序数据以及CircAtlas数据库信息,本文的体系得到了更多circRNA信息。纳米孔测序得到了一半多的全新circRNA,但这些circRNA的丰度较低,说明纳米孔测序体系具有更高的灵敏度,可以检测到更多的circRNA分子。为验证纳米孔测序体系的准确性,作者挑选了16个circRNA进行QPCR检测,结果表明QPCR的定量数据与纳米孔测序数据的趋势高度一致。

图3  CIRI-long分析纳米孔测序数据([1])

CIRI-long分析circRNA和剪切多样性:

circRNA可变剪切是多样性的重要体现,作者从这批纳米孔测序数据中分析了circRNA可变剪切的情况,在15905个基因来源的circRNA中共分析到115755种可变剪切分子。而二代测序的数据中只从6928个基因中分析到了25159种可变剪切分子。四种类型的可变剪切都存在,总体而言,在纳米孔测序的数据中分析得到的可变剪切数目均高于二代测序的数据。例如Rims2基因中,纳米孔测序数据分析到65种可变剪切circRNA分子,二代测序数据仅有10个能分析到完整的序列。CircAtlas数据也仅在31个纳米孔测序独有的数据中比对到其中的17个。这说明基于纳米孔测序和  CIRI-long分析circRNA的体系的灵敏度更高,准确性更好。

在这一批的纳米孔测序数据中,作者也分析了来自线粒体基因组的环状RNA,共分析到156种线粒体circRNA。这些线粒体circRNA大部分来自轻链,多数为mtDNA蛋白基因的反义链。此外,作者还分析到有44种circRNA是由两个蛋白基因来源的,大部分是由上下游基因转录通读形成。

图4  CIRI-long分析circRNA和剪切多样性([1])

内含子自动形成的circRNA

分析所得的circRNA分为两大类:能够通过GENCODE vM20注释的剪切位点(Annotated),以及不能注释的(Novel),其中Novel类型的包括了完全由内含子来源的,基因间的,还有反义链的。有趣的是内含子来源的circRNA占了一定的比例,作者进一步分析了这一类circRNA的一些基本情况。内含子来源的circRNA大致分为三种类型:(1)经典剪切形成的内含子circRNA(文中发现了1926个);(2)自连形成的内含子circRNA(文中发现了166个);(3)套索形成的内含子circRNA(文中发现了40个)。其中自连形成的内含子circRNA此前未见报道,这类circRNA往往由完整的内含子经过反向自动连接形成。侧翼序列分析表明,经典剪切形成的内含子circRNA与传统的外显子cirRNA的侧翼位点基本一致,而自连形成的内含子circRNA往往拥有完整的GT/AG信号。PhastCons score分析各种circRNA的侧翼序列的保守性,结果表明,经典剪切形成的内含子circRNA的侧翼序列保守性较差,自连以及套索形成的内含子circRNA的侧翼序列有一定的保守性,说明这些circRNA可能由不同的机制产生。通过15种小鼠组织PE250二代测序数据分析发现,自连形成的circRNA在脑组织中有较高丰度。这些自连形成的内含子circRNA侧翼的外显子保守性更强。

图5  内含子自剪切形成的circRNA([1])

本文为基于纳米孔的三代测序分析circRNA提供了新的技术体系,对circRNA研究有重要价值。

 

参考文献

1. Zhang, J., Hou, L., Zuo, Z. et al. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long. Nat Biotechnol (2021). https://doi.org/10.1038/s41587-021-00842-6

发表评论