移动元素是人类遗传不稳定的主要来源之一。了解它们在不同组织和条件下的表达对于了解它们对基因组的影响至关重要。大量的L1成绩单是被动地将L1相关序列包含在其他在L1生命周期中没有作用的成绩单的结果。
我们的方法消除了这种不相关的背景。该协议可以适应任何移动元素的研究,甚至任何序列基因组中的病毒。至少需要一些序列变化,以允许地位之间的区分。
此方法的可视化演示对于说明在特定位置级别自信地识别表达的 L1 重复元素所需的细致性和细要至关重要。从细胞质RNA提取和下一代测序开始,如文本协议中所述。通过选择细胞质RNA,在细胞核中表达的电子mRNA中发现的L1相关读取被显著耗尽。
在测序库准备中,为减少与L1无关的转录噪声采取了另一个步骤,包括选择多面体转录。这将消除非mRNA物种中发现的L1相关转录噪声。通过在 Linux 终端中键入命令行,使用 bowtie1 使用感兴趣的 RNA seq 样本运行对齐范例对 FASTQ 文件进行排序。
这种对齐策略要求转录本与详尽的基因组搜索保持唯一和共线性对齐。此策略提供了对读取映射的调用的信心,这些映射专门映射到单个 L1 位点。Strand 使用 SAMtools 和 Linux 命令分隔输出 BAM 文件,以选择上链和下链。
请注意,如果不使用标准的下一代排序协议,实际标志值可能会有所不同。此链分离步骤通过消除潜在的反义 L1 相关映射读取,用于过滤 L1 序列中生成的与 L1 逆转无关的转录噪声。使用床工具生成对 L1 位点注释的读取计数。
首先键入命令行以在上链上的感向为 L1 生成读取计数,然后键入命令行,在底部股的感向上生成 L1 的读取计数。用于标识 L1 的注释表示具有功能启动子区域的全长 L1,用于消除本来源自截断的 L1 的背景噪声。
复制为下链创建的生成的读取计数文本文件,并标记页面为minus_bottom。根据列 J.Copy 中找到的最高到最低读取数对所有列进行排序,以对为上链创建的生成的读取计数文本文件进行排序。根据列 J 中找到的最高到最低读取数对所有列进行排序,并标记页面为top_plus。
创建标记为组合的第三页,并添加所有位置,从页面和页面minus_bottom 10 plus_top读取。根据列 J.To 中发现的最高到最低读取数对所有列进行排序,以帮助基因组区域的可映射性,特别是在 L1 位点或附近,从 NCBI 下载全基因组配对和感兴趣的物种的测序文件,并转换为文本协议中描述的 FASTQ 文件。现在,在加载文件之前,对 BAM 文件进行索引,使其在综合基因组查看器(缩写 IGV)中查看。
在 IGV 加载感兴趣的参考基因组以可视化带注基因。还要加载全长 L1 元素的注释文件,以可视化 L1 注释、人类 RNA 表达的 BAM 文件、可视化感兴趣的样本的映射脚本和用于人类基因组可映射的 BAM 文件,以评估基因组区域的可映射性。删除与每个 BAM 文件关联的覆盖范围和交汇点行。
压缩 BAM 文件,用于人类 RNA 表达和人类基因组可映射性,以便所有 IGV 轨道都适合一个屏幕。消除与L1逆转无关的L1序列的转录噪声的最后一个关键步骤是手动创建确定已绘制RNA寻线转录图的全长L1。手动固化涉及在其周围基因组环境中对每个表达的 L1 位点进行可视化,以确认表达源自 L1 启动子。
使用电子表格组合页面上列出的 L1 位点坐标,通过检查 IGV 中其周围的基因组环境,手动绘制每个 L1 位点,并绘制唯一映射的转录本。如果 L1 方向上没有读取,则将一个点点进行真实表达,最多为 5 千基。将行标记为绿色,并注意为什么它是真实表示的 L1。如果 L1 上游的区域不可映射,则存在此规则的异常。
如果是这种情况,请将行标记为红色,并注意无法计算 L1 启动子上游区域的表达式,因此无法自信地确定 L1 的表达式。如果上游有高达五千基的读取,则固化一个点,不要真实地表示自己的启动器。将行标记为红色,并注意为什么它不是真实表示的 L1。如果一个位点在相同方向的表示基因的内创中表达,与L1的上游读取,如果该点位于同一方向的下游,与L1的上游读取,或对于L1上游的未注释的表达模式。则将位点视为假点。当 L1 启动启动站点的读取与 L1 启动启动站点略有重叠时,此规则的例外情况适用。如果 L1 案例的上游没有其他读取,请考虑此 L1 是真实表达的。
将行标记为绿色,并注意为什么它是真实表示的 L1。如果映射到位置的映射模式与特定的 L1 可映射区域不相关,那么将 L1 位点绘制为可能为 false。如果 L1 具有高度可映射性,但在 L1 中的压缩区域中只有大量读取,则它不太可能与 L1 表达式相关的自自身启动子,并且更有可能来自未注释的源(如 exons 或 LTR)。在这种情况下,将位点整理为橙色,并注意为什么位点可疑。
通过检查 UCSC 基因组浏览器中的 L1 位置,验证可疑堆积的来源。如果一个点位在零星表达的未注释区域的基因组环境中,就将一个点点固化,使它无法真实地表达。读取可以表示 L1 上游的 10 千基。但是,每 10 个千基大约,都有映射的读取,其中一些读取与 L1 对齐。由于基因组表达的未注释模式,这些L1可能具有映射读取。
在这种情况下,将位点描述为红色,并注意为什么该位点可疑。为了帮助每个 L1 位点的可映射性,使用床工具程序、FL-L1 注释和对齐的基因组序列数据确定到 L1 位点的唯一映射读取数。当 400 个唯一读取与它对齐时,指定 L1 位置具有全覆盖映射性。
确定将基因组DNA对齐读取量向上或向下扩展至每个单个 L1 所需的因子 400。要根据单个 L1 位值可映射性进行缩放的表达测量,请将因子乘以与单个真实表达的 L1 值对齐的 RNA 转录读取数。每个步骤都用于突出显示从自身启动子上表达的 L1 元素之间的差异,以及 L1 元素可能包含在与 L1 生命周期无关的其他成绩单中的所有方法之间的差异。此处显示的转录记录显示,在DU145前列腺肿瘤细胞系中表达的人类基因组中所有完整完整L1的映射是唯一的。
在黑色是特定位置标识为真实表达后手动固化。红色是手动固化后被拒绝为真实表示读取的特定位置。在灰色是位点与少于 10 读取映射到每个。
由于这些位置表示成绩单读取的一小部分,因此它们不是手动策划的。大约 4500 个点没有以图形方式显示,因为它们没有映射读取。手动绘制后,在 DU145 中唯一映射到真实表示特定 L1 位值的读取数范围从 175 次读取到任意选择的最小截止数 10 次读取。
读取根据每个位置的可映射分数进行调整后,大多数位置的表达式定量增加。在 DU145 中,唯一映射到真实表示的特定 L1 位值的读取数从 612 到 4 次读取,并且从最高到最低表示位值重新排序。每个步骤在降低高等级的转录背景噪声方面都起着至关重要的作用。
然而,最关键的步骤是手动固化每个L1位点,以确认其自己的启动子的转录。DU145细胞中约50%的L1位值被作为源自其他转录源的L1背景噪声而被拒绝,强调产生可靠结果所需的严格性。为了识别最年轻的L1,我们建议使用五总理的 RACE 选择 L1 成绩单和测序技术,如 PacBio,利用更长的读取时间,并允许更独特的映射。
通过这种方法,我们可以严格、自信地识别和量化 L1 表达式模式。这为更好地了解单个 L1 位位和潜在影响的监管铺平了道路。