Method Article
* 这些作者具有相同的贡献
该协议描述了为基于液滴、高通量的单细胞 rna-seq 制剂准备健康的成年哺乳动物单细胞所需的一般过程和质量控制检查。还提供了测序参数、读取对齐和下游单细胞生物信息学分析。
分析组织或微环境中数千个单个细胞的单个细胞基因表达是识别细胞组成、功能状态的判别以及观察到的组织背后的分子途径的宝贵工具功能和动物行为。然而, 分离完整的, 健康的单个细胞从成年哺乳动物组织, 以便随后下游单细胞分子分析可能是具有挑战性的。该协议描述了从神经系统或皮肤获得高质量成人单细胞制剂所需的一般过程和质量控制检查, 从而能够进行后续的无偏见单细胞 rna 测序和分析。还提供了下游生物信息学分析的指南。
随着高通量单细胞技术 1、2 的发展和用户友好生物信息学工具在过去十年3的进步, 高分辨率基因表达分析的一个新领域已经出现--单细胞 rna 测序 (scrna-seq)。对单个细胞基因表达的研究最初是为了识别定义的细胞群 (如干细胞或癌细胞) 中的异质性, 或者是为了识别 4、5 细胞中罕见的细胞群, 这些细胞是无法使用传统的块状 rna 测序技术。生物信息工具使人们能够识别新的亚群 (seurat)2, 可视化沿 psuedotime 空间 (monocle)6的细胞顺序, 定义种群内或种群之间的主动信号网络 (场景)7, 预测在人工3d 空间 (seurat 等) 中组装单个细胞的情况.随着这些新的和令人兴奋的分析提供给科学界, scrna-seq 正在迅速成为基因表达分析的新标准方法。
尽管 scrna-seq 具有巨大的潜力, 但生成干净的数据集和准确解释结果所需的技术技能对新来者来说可能具有挑战性。这里提出了一个基本但全面的协议, 从从从整个主要组织分离单个细胞到可视化和表示用于发布的数据 (图 1)。首先, 健康的单个细胞的分离可以被认为是具有挑战性的, 因为不同的组织对酶消化和随后的机械离解的敏感性程度各不相同。此协议在这些隔离步骤中提供指导, 并在整个过程中确定重要的质量控制检查点。其次, 了解单个单元技术和下一代测序技术之间的兼容性和要求可能会造成混淆。该协议提供了实现用户友好的、基于液滴的单细胞条形码平台和执行测序的指南。最后, 计算机编程是分析单细胞转录数据集的重要前提。此协议提供了开始使用 r 编程语言的资源, 并提供了有关实现两个流行的 srna-seq 特定 r 包的指导。该协议可以共同指导新来者执行 scrna-seq 分析, 以获得清晰、可解释的结果。该协议可以根据小鼠的大多数组织进行调整, 重要的是可以修改为与包括人体组织在内的其他生物一起使用。根据组织和使用者的不同进行调整。
在遵循此协议时, 需要记住几个注意事项;包括, 1) 建议遵循本协议第1步和第2步中的所有质量控制准则, 以确保感兴趣样本中所有细胞的单细胞悬浮, 同时确保准确的细胞总数计数 (图2概述) ).一旦实现了这一点, 如果遵循了所有优化的条件, 质量控制步骤就可以放弃 (以节省时间--保持 rna 质量和减少细胞丢失)。在任何下游处理之前, 强烈建议您确认成功地从感兴趣的组织中分离出高活性的单细胞。2) 由于某些细胞类型对压力比其他细胞更敏感, 过度分离技术会无意中偏向人群, 从而混淆下游分析。在没有不必要的细胞剪切和消化的情况下, 温和的分离对于实现高细胞产量和组织组成的准确表示至关重要。剪切力发生在三化、流式细胞仪和再悬浮步骤过程中。3) 与任何 rna 工作一样, 在制备过程中, 最好在样品中引入尽可能少的额外 rnase。这将有助于保持高质量的 rna。使用核糖核酸酶抑制剂溶液与冲洗清洁工具和任何设备, 不是无 rnase, 但避免 depc 处理的产品。4) 尽快做好准备。这将有助于维持高质量的 rna 和减少细胞死亡。根据组织解剖长度和动物数量, 考虑同时开始多项解剖/制剂。5) 尽可能在冰上准备细胞, 以保持高质量的 rna, 减少细胞死亡, 减缓细胞信号和转录活动。尽管, 冰凉处理是大多数细胞类型的理想选择, 但某些细胞类型 (如中性粒细胞) 在室温下加工时表现更好。6) 在细胞制备过程中避免使用钙、镁、edta 和 depc 处理的产品。
这里描述的所有协议都符合卡尔加里大学动物护理委员会的规定并得到其批准。
1. 分离组织 (第1天)
2. 隔离可活健康的细胞 (第1天)
3. 创业板 (乳化中的凝胶珠) 生成和条码 (第1天)
注: 本协议的步骤3-6 设计用于与最常见的基于微液的单细胞平台结合使用, 该平台由10倍基因组学公司制造。制造商的协议中概述了步骤3和4的详细指南 (请参阅铬单细胞 3 ' 协议)11、12, 并且必须与此协议一起遵循。为了获得最佳效果, 必须在离解 (步骤 1) 和本协议第1天的单元隔离 (步骤 2) 步骤后立即完成步骤3。
4. 清理、放大、图书馆建设和图书馆量化 (第2天之前)
注: 制造商的协议11、12中概述了步骤4的详细准则, 并且必须与此协议一起遵循。
5. 图书馆测序 (第3天开始)
注: 本协议中使用的单细胞转录组条形码平台生成与光照兼容的付费端库, 以 p5 和 p7 序列开头和结尾。虽然解决细胞类型身份所需的最小深度可以是 10000–50000 endscyp15,16, ~100, 000 读数 sell-细胞, 作为成人体内细胞的最佳成本覆盖率权衡 (请记住一些细胞类型或最小激活的细胞状态将在 30000-50, 000 读元细胞时达到饱和度。
6. 处理读取文件
注: 使用此协议对单个单元 3 ' 库进行排序, 以二进制基本调用 (bcl) 格式生成原始数据。细胞游侠包用于从 bcl 文件生成基于文本的 fastq 文件, 执行基因组和转录对齐、基因计数、去多路复用和样本聚合。在本节中, 介绍了使用户能够从测序设施下载原始 bcl 数据并生成可用于下游生物信息学的过滤基因条形码矩阵的关键步骤。
7. scrna-seq 数据集的高级分析
注: 一个完整的 scrna-seq 工具数据库可在 scrna 工具3,27中找到。下面是使用 urat2和使用单核细胞6的伪小波排序的无监督细胞聚类框架.尽管这些工作大多可以在本地计算机上完成, 但以下步骤假定将使用机构服务器完成计算。
8. ncbi 的全球环境展望和 sba 提交材料
注: 由于易于访问原始测序文件可确保重现性和重新分析, 因此建议或要求在提交文稿之前提交免费提交的文件。国家生物技术信息中心 (ncbi) 基因表达综合 (geo) 和序列读取存档 (sara) 是可公开访问的数据存储库, 用于高通量测序数据35,36。
用于分析 srna-seq 数据集的开源包的曲目已显著增加了 40个, 其中大多数包使用基于 r 的语言3。在这里, 介绍了使用其中两个包的代表性结果: 评估基于基因表达的单个细胞的无监督分组, 并沿轨迹排序单个细胞, 以解决细胞异质性和解构生物过程。
图 4显示了使用 seurat 进行预处理质量检查和下游生物信息学分析的情况。首先, 过滤和去除异常细胞的分析是必不可少的质量检查。这是用小提琴 (图 4a) 和散点图 (图 4a) 来显示线粒体基因的百分比、基因数量 (ngene) 和 umi (nGene) 的数量来识别细胞双位和异常值。任何具有明确异常数量的基因、umi 或线粒体基因百分比的细胞都被使用 seurat 的过滤细胞功能删除。由于 seurat 对集群细胞使用主成分 (pc) 分析分数, 因此确定要包括的具有统计意义的 pc 是一个关键步骤。用弯头图 (图 4c) 进行 pc 选择, 排除了超过 "pc 标准差" 轴高原的 pc。还对聚类的分辨率进行了操作, 表明集群的数量可以改变, 从 0.4 (低分辨率导致较少的细胞集群,图 4d) 到 4 (高分辨率导致更高的细胞集群,图4d).在低分辨率下, 每个集群很可能表示已定义的细胞类型, 而在高分辨率下, 这也可能表示细胞群的亚类型或过渡状态。在这种情况下, 低分辨率的集群设置用于进一步分析表达式热图 (使用 seurat 的 doheatmap 函数), 以识别给定集群中表达最强烈的基因 (图 4f)。在这种情况下, 通过评估给定星系团中的差异表达和所有其他集群的组合, 确定了表达最强烈的基因, 这表明每个集群都是由定义的基因唯一地表示的。此外, 可以使用 seurat 的特点点函数在 tssee 图上可视化单个候选基因 (图 4g)。这就可以破译是否有代表巨噬细胞的星团。利用特征图, 我们发现第2组和第4组都表达了 cd68-一个泛巨噬细胞标记。
monocle 包用于证实在 seurat 中确定的细胞群, 并用于构建细胞轨迹, 或伪分子排序, 以重述生物过程 (图 5)。在单细胞表达谱应遵循生物时间过程的样品中, 可以使用伪分子排序。细胞可以沿着一个伪分子连续体排序, 以解决两个替代细胞命运的中间状态、分叉点, 并识别每个命运获取的潜在基因特征。首先, 与 seurat 的过滤类似, 劣质细胞被去除, 因此所有细胞的 mrna 分布都是正常的, 并在图5a 中确定的上限和下限之间。然后, 利用 monocle 的新细胞类型层次函数, 使用已知的沿袭标记基因对单个细胞进行分类和计数 (图 5b, 5b)。例如, 表达 pdgf 受体α或成纤维细胞特异性蛋白1的细胞被分配到细胞类型 #1, 以创建定义成纤维细胞的标准。接下来, 对这一群体 (细胞型 #1) 进行了评估, 以破译成纤维细胞的轨迹。为了做到这一点, 使用了 monocle 的差异基因测试功能, 该功能比较了代表群体中极端状态的细胞, 并发现了用于订购群体中剩余细胞的差异基因 (图 5d)。通过在所有细胞中应用流形学习方法 (一种非线性降维方法), 给出了沿伪电流路径的坐标。然后通过单元格状态 (图 5e) 和伪时间 (图 5e) 对这一轨迹进行可视化。
图 1: 流程图.从整个动物准备到分析单个单元 rna-seq 数据集, 再到将最终数据集提交到公开的存储库的步骤。乳化液 (gm) 中的凝胶微珠是指含有含条形码寡核苷酸的微珠, 它封装了数千个单个细胞。请点击这里查看此图的较大版本.
图 2: 从神经组织中创建活的单细胞悬浮液.(a) 质量控制检查的卡通概述。(b) 仍被纳入碎片的细胞和碎片 (红色箭头)。(c) 碎片释放的细胞 (红色箭头)。(d) 外地资产管制系统的细胞分离。p0: 碎片分数;p1: 细胞样分数;p3: 排除重复;p4: 活力染料 (sytox orange) 负分数。(e) 不控制活力染料。(f) 代表孤立碎片的 p0 分数图像。(g) 代表分离的活细胞 (红箭) 的 p4 分数图像。(b)(c)(f) 和 (g) 在成像前20分钟添加了核染料。刻度棒: 80μm. 请点击这里查看这个数字的更大版本.
图 3: 浅层测序预测10倍处理样品中恢复的细胞数量.(a) miseq 生成的 csv 列出单元条形码的一个例子 (样本 1.6) 及其相应的 umi 计数, 这些计数由自信映射的读数确定。(b) 示例1.6 的条形码等级图显示, umi 计数作为细胞条形码的函数有一个显著下降。虚线和实线表示通过目视检查确定的单元格和背景之间的截断。(c) 使用 hiseq 后的细胞游侠管道观察到的细胞条形码显示, 浅层测序准确地接近样本1.6 的细胞数量。(d) 根据浅测序衍生细胞估计建立流动细胞的一个例子。对于样本 1.6, 由于浅测可预测3480细胞, 1.17条车道被分配, 以确保每个细胞测序覆盖率达到 gt;100,000。注意: 所有车道必须增加到100%。请点击这里查看此图的较大版本.
图 4: 使用 seurat r 封装的单细胞 rna-seq 数据集的质量控制和生物信息学.(a) 制定质量控制指标, 其中包括基因数量、唯一分子标识符的数量以及与线粒体基因组映射的记录的百分比。(b) 检测线粒体转录和 umi 异常水平的细胞的样本基因图。(c) 用于临时确定具有统计意义的个人电脑的弯头图样本。虚线和点虚线表示在图形中明显出现清晰 "弯头" 的截止线。此弯头之前的 pc 尺寸包括在下游分析中。(d, e)使用 tSNE 图形, 在低维空间中以两种不同分辨率可视化基于图形的单元格集群。(f) 使用 seurat 的 do暖气贴图函数在表达热图上可视化的每个星系的顶部标记基因 (黄色)。(g) 可视化标记表达, 例如, 使用 seurat 的特征点功能, 表示巨噬细胞 (紫色) 的 cd68 基因。这表明此数据集的第2和第4组 (在面板 d 中) 表示巨噬细胞。请点击这里查看此图的较大版本.
图 5: 使用 monocle 工具包沿 pudotepoctocp 轨迹进行单元分类和排序.(a) 检查样品中所有细胞的 mrna 分布 (根据 umi 计数推断)。仅使用具有 0 ~ 20, 000 之间 mrna 的细胞进行下游分析。(b, c)根据已知的沿袭单元标记分配和计数单元格类型。例如, 表示 pdgf 受体α或成纤维细胞特异性蛋白1的细胞被分配到细胞类型 #1 代表泛成纤维细胞使用单核细胞的新细胞类型。不同单元格类型的数量可以可视化为饼图 (b) 和表 (c)。(d) 以细胞型 #1 (成纤维细胞) 为例, 可以使用显示基因分散与平均表达的散点图来可视化用于订购细胞的基因。红色曲线显示了用于排序的基因的截止时间, 该模型使用单核细胞的估计色散函数由均值方差模型计算。满足这种截止日期的基因用于下游伪时间排序。(e, f)在减少的二维空间中可视化细胞轨迹, 由单元格的 "状态" (e) 和由单点分配的 "伪时间" (f) 着色。请点击这里查看此图的较大版本.
该协议演示了单个细胞的适当制备如何揭示数千个单个细胞的转录异质性, 并区分组织内的功能状态或独特的细胞身份。该协议不需要荧光记者蛋白或转基因工具, 可应用于从各种感兴趣的组织 (包括人类组织) 中分离单个细胞;请记住每个组织是独特的, 这个协议将需要一定程度的调整/修改。
细胞内多样化和高度动态的转录程序强调了单细胞基因组学的价值。除了分离高质量的 rna 外, 高质量数据集所必需的一个关键样品制备步骤是确保细胞完全从组织中释放, 并确保细胞健康和完整。这对于收集容易释放的细胞来说是相对直接的, 例如循环细胞或细胞松散保留的组织中, 如淋巴组织中。但这对其他成人组织来说可能是具有挑战性的, 因为高度发达的细胞结构跨越很远的距离, 周围的细胞外基质和经常涉及维持细胞结构的刚性细胞骨架蛋白。即使有适当的分离技术来完全释放细胞, 严格的和往往需要的处理也有可能改变 mrna 的质量和细胞的完整性。此外, 用于酶辅助解离的高温也会影响转录特征29,30。该协议的目的是提出质量控制检查, 使用组织, 如髓鞘成人神经和细胞外基质丰富的成人皮肤, 以证明如何优化可以帮助克服这些障碍。
设计任何 scrna-seq 实验时的一个主要考虑因素是测序深度的选择。测序可以高度多路复用, 读取深度可以从使用 drop-seq2非常低到使用全长 rna-seq 方法 (如 smat-seq) 的多达500万个读数单元14不等。大多数 srna-seq 实验都能检测到中高表达记录, 测序低至 10, 000个读数/细胞, 这通常足以进行细胞类型分类41,42。在试图检测复杂组织中的罕见细胞群时, 浅层测序深度对于节省测序成本很有价值, 在这些组织中, 可能需要数千个细胞来自信地归因稀有人群。但是, 当需要关于基因表达和与微妙转录特征相关的过程的详细信息时, 浅层测序是不够的。目前, 据估计, 细胞中的绝大多数基因是用50万个读基因检测的, 但这可能因协议和组织类型43,44的不同而不同。虽然全长记录测序绕过了组装的需要, 因此可以检测到新的或罕见的拼接变种, 测序成本往往限制了缩放这种方法, 以检查由复杂的组织系统组成的数千个细胞。相反, 3 ' 标记的单细胞库 (如本协议中描述的库) 通常具有较低的复杂性, 需要较浅的排序。需要注意的是, 使用所述协议生成的库可以在五个受支持的序列器之一上进行排序: 1) novaseq, 2) hiseq 000千瓦, 3) hiseq 2500 快速运行和高输出, 4) nextseq 500/, 和 5) miseq。
单细胞 rna-seq 的另一种方法是分析单核45中的 rna, 它减少了对精细组织和细胞处理的需求, 同时又保持了单细胞 rna-seq 的一些好处。这种方法可以更快速地处理, 减少 rna 降解, 并采取更极端的措施, 以确保充分释放细胞核, 从而有可能更有信心地捕获代表特定组织内所有细胞的转录剖面。当然, 这只能提供特定细胞内存在的转录活性的一部分, 因此取决于这种方法可能是适当的, 也可能不是适当的实验目标。
除了对给定组织内的细胞身份进行完整的表征外, 对 scrna-seq 数据集最有价值的分析之一是评估 "定义" 细胞群的中间转录状态。这些中介状态可以深入了解已确定群体中细胞之间的谱系关系, 这在传统的批量 rna-seq 方法中是不可能的。目前已经开发了几种 scrna-seq 生物信息工具来阐明这一点。这些工具可以评估癌细胞过渡到癌基因转移状态、干细胞成熟到不同的终命运或免疫细胞在活动状态和静止状态之间穿梭所涉及的过程。细胞中微妙的转录组差异也可能表明血统偏见, 最近开发的生物信息工具, 如 fateid, 可以推断47。由于过渡细胞之间的区别可能很难确定, 因为转录差异可能是微妙的, 更深入的测序可能是必要的46。幸运的是, 如果有兴趣通过在另一个流单元格上重新运行库来进一步探测数据集, 则可以增加浅排序库的覆盖范围。
总之, 该协议提供了一个易于适应的工作流程, 使用户能够在一个实验中对数百到数千个单细胞进行转录。scrna-seq 数据集的最终质量取决于优化的细胞分离、流式细胞仪、cdna 文库生成和原始基因条形码矩阵的解释。为此, 该协议全面概述了所有可以轻松修改的关键步骤, 以便能够对不同的组织类型进行研究。
无披露
我们感谢 ucsna 服务设施的支持人员以及卡尔加里大学的动物护理设施工作人员。我们感谢马特·沃伦廷的生物信息学支持和詹斯·杜鲁西的技术支持。这项工作的资金来自 cihr 赠款 (r. m. 和 j. b.)、cihr j. b. 新研究员奖和艾伯塔省儿童健康研究所研究金 (j. s.)。
Name | Company | Catalog Number | Comments |
Products | |||
RNAse out | Biosciences | 786-70 | |
Pentobarbital sodium | Euthanyl | 50mg/kg | |
HBSS | Gibco | 14175-095 | |
Dispase 5U/ml | StemCell Technologies | 7913 | 5 mg/ml |
Collagenase-4 125 CDU/mg | Sigma-Aldrich | C5138 | 2 mg/ml |
DNAse | Sigma-Aldrich | DN25 | 10mg/ml |
BSA | Sigma-Aldrich | A7906 | |
15 ml Narrow bottom tube VWR® High-Performance Centrifuge Tubes | VWR | 89039-666 | |
Sytox Orange Viability Dye | Molecular Probes | 11320972 | 1.3 nM/µl |
Nuc Blue Live ReadyProbes | Invitrogen | R37605 | |
Agilent 2100 Bioanalyzer High senitivity DNA Reagents | Agilent | 5067-4626 | |
Kapa DNA Quantification Kit | Kapa Biosystems | KK4844 | |
Chromium Single Cell 3' reagents | 10x Genomics | ||
Equipment | |||
BD FACSAria III | BD Biosciences | ||
Agilent 2100 Bioanalyzer Platform | Agilent | ||
Illumina® HiSeq 4000 | Illumina | ||
Illumina® MiSeq SR50 | Illumina | ||
10X Controller + accessories | 10x Genomics | ||
Software | |||
The Cell Ranger | 10x GENOMICS | support.10xgenomics.com/single-cell-gene-expression/software/overview/welcome | |
Loupe Cell Browser | 10x GENOMICS | support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest | |
R | https://anaconda.org/r/r |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。