2020-04-10编辑:极客基因点击:1917
单细胞基因组技术是目前生物系统研究的一种强有力方法。其中,单细胞RNA测序技术(scRNA-seq)在最近十年来取得了长足的进步,科学家已经研制了几十种scRNA-seq方法。由于不同细胞表达的基因有差异,scRNA-seq可用于对细胞的精确分类。随着技术的发展,一项大型国际合作计划 - 人类细胞图谱计划 (Human CELL ATLAS),由来自Broad Institute of MIT and Harvard(布罗德研究所) 的 Aviv Regev和来自Wellcome Trust Sanger Institute的Sarah Teichmann牵头应运而生。这个计划的一个主要目标就是对人体不同组织的细胞进行分类。
对于人类细胞图谱计划,一个需要解决的问题是scRNA-seq方法的选择。另外,我们需要知道各种scRNA-seq系统的优缺点,从而更好地设计新的scRAN-seq技术并改进现有的scRNA-seq方法。最后,为了更好地设计单细胞测序数据分析的计算方法,我们需要高质量的数据。
2020年4月6日,来自Broad Institute of MIT and Harvard的Joshua Z. Levin团队在Nature Biotechnology上发表了文章Systematic comparison of single-cell and single-nucleus RNA-sequencing methods,比较了7种方法 (图一),包括低通量的Smart-seq2,CEL-Seq2和五种高通量方法 (三种基于微液滴技术,Drop-seq,inDrops, 10x-Chromium,一种基于微孔阵列的 Seq-Well,和基于组合标记的sci-RNA-seq)。其中,只有Smart-seq2是测整个RNA分子全长,其它六种方法都是测RNA分子的3片段端。对于这六种方法,UMI (unified molecular identifier)被用于消除PCR扩增而引起的偏差。
图1:研究概括
为了比较不同scRNA-seq系统,研究人员选择了常用的组织样本(图一),包括人和小鼠的细胞系,人外周血细胞,以及大鼠大脑皮层细胞(用于单细胞核RNA测序)。对每种组织样本,研究人员根据七种scRNA-seq方法同时并行处理。研究人员还开发了数据分析系统scumi(https://bitbucket.org/jerry00/scumi-dev/src/master/)可以分析来自于不同scRNA-seq系统的数据。对于其它不同于以上七种scRNA-seq技术的数据,scumi也可以分析,仅仅改动配置文件即可。
研究发现低通量的Smart-seq2和CEL-Seq2具有更高的敏感性,可以检测到更多的RNA分子。Smart-seq2可以测RNA分子全长,但是比CEL-Seq2更贵。然而,CEL-Seq2数据有可能包含污染(对于一个细胞,一部分来自于其它细胞的RNA分子可能被错误地标记为来自这个细胞)。对于高通量方法,10x Chromium (v3)具有最高的灵敏度。相对于10x Chromium (v2)数据,v3数据有更多的线粒体基因RNA。在细胞分类方面,10x Chromium表现最好(图二)。10x Chromium 数据具有相对较多的反义序列(antisense reads)。Drop-seq和inDrops具有较低的额灵敏度。然而对于细胞分类,通常并不需要太多RNA分子,所以inDrops和Drop-seq也可以检测到所有的细胞类型。需要注意的是Drop-seq和Seq-Well用的是同一种微球(beads),每个微球上所带的序列(用于标记来自于一个细胞的所有RNA分子)是完全随机的。而且厂家在制备微球时,一些微球上的序列在合成过程中产生了错误,比如只合成了十一位,而真正需要的是合成十二位的序列。对于Drop-seq,inDrops和Seq-Well,有相当大一部分数据没有正确的结构。比如,在正常情况下,在UMI序列后面是poly-T序列,但是一部分测序数据没有这样的结构。通常,这些没有正常结构的数据质量差,在分析中被丢弃了,导致测序数据的浪费。CEL-Seq2和inDrops是基于线性扩增,因而技术偏差较小。基于组合标记(combinatorial indexing)的sci-RNA-seq具有更好的扩展性(stability),可以在一个实验中制备上百万个细胞。然而,sci-RNA-seq可能还需要更近一步优化,因为在它在一些组织样本上表现不好,比如外周血。而且,这种方法可能容易受污染,比如在单细胞核测序中出现的不明确的细胞类型。
图二:用来自于不同scRNA-seq方法的数据在检测人外周血细胞类型的效果 (AUC《=1,越大越好)。
这项研究中所有的原始数据都可以从GEO上下载 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE132044处理后的数据可以在single cell portal下载和在线分析 (访问号SCP424,SCP425,和SCP426)(例如,https://singlecell.broadinstitute.org/single_cell/study/SCP424)。这项研究为今后人们选择scRNA-seq方法提供了指导。同时,这项研究为scRNA-seq数据分析中的许多挑战问题提供了解决思路和方案,比如怎样从测序数据中选择真正的细胞而非空液滴,系统处理来自于不同scRNA-seq方法的数据,怎样选择各种后期处理参数,比如聚类分析参数等等。由于这项研究中用到的细胞都是实验室容易获得的,在今后,当研究者需要评估一种新的scRNA-seq方法或改进scRNA-seq方法时,她们可以直接比较他们所得新数据和这项研究中所得数据,而不需要重复已有实验。最后,对于计算机科学家或计算生物学家,这些数据可以用于设计和改进现有scRNA-seq数据处理方法。
这项研究由22位作者共同完成。作者包括来自于Broad Institute Aviv Regev实验室 的博士后研究员Jiarui Ding(丁家锐),研究科学家Xian Adiconis和Sean Simmons。通讯作者是来自于Broad Institute of MIT and Harvard 的Joshua Levin。
需要注意的是,一篇相关的文章,由来自于巴塞罗那 CNAG的科学家Holger Heyn任通讯作者的文章也发表在同一期的Nature Biotechnology上,题目为Benchmarking single-cell RNA-sequencing protocols for cell atlas projects。在Broad Institute的 研究中,所有的scRNA-seq数据都在同一个研究所产生,因而可以更好的控制实验中的各种变量,比如实验开始时间,测序仪等。而CNAG的这项研究采取了一种互补的方法:首先创建细胞混合物(细胞来自于人,大鼠,还有1%的细胞来自于狗),然后把这些细胞混合物分发给世界上不同实验室。因而每一种scRNA-seq实验都是由在这种方法方面具有丰富经验的实验室专家完成,这样做的目的是减少实验人员对不同方法的熟悉程度对结果的影响。结果表明,低通量方法Quartz-seq2,Smart-seq2,和CEL-Seq2表现出色,高通量方法中,10x Chromium表现最好。
来自:单细胞前沿
关注极客基因公众号
看单细胞测序前沿资讯