Method Article
在这里, 我们提出了一个生物信息学方法和分析, 以识别 LINE-1 表达在位点特定的水平。
长插入元素-1 (Lines/l1) 是重复的元素, 可以复制并随机插入基因组, 导致基因组不稳定和突变。了解 L1 位点在个体层面的表达模式, 将有助于了解这种诱变元素的生物学。这种自主元素占人类基因组的很大一部分, 有超过 50万份, 尽管99% 被截断和有缺陷。然而, 它们丰富和占主导地位的有缺陷的副本数量使得从作为其他基因一部分表达的 L1 相关序列中真正表达的 L1 变得具有挑战性。由于元素的重复性质, 确定表达哪些特定 L1 位点也具有挑战性。克服这些挑战, 我们提出了一个 RNA-Seq 生物信息方法来识别 L1 表达在位点特定的水平。总之, 我们收集细胞质 rna, 选择多腺化转录, 并利用特异性 RNA-Seq 分析, 将读取唯一映射到人类参考基因组中的 L1 位点。我们用独特的映射读数直观地管理每个 L1 位点, 以确认从其自身的启动子中进行转录, 并调整映射的转录读数, 以考虑每个 L1 位点的映射能力。这种方法被应用于前列腺肿瘤细胞系 DU145, 以证明该方案检测出少量全长 L1 元素表达的能力。
逆转录酶是重复的 DNA 元素, 可以通过 RNA 中间体在复制和粘贴机制中 "跳" 在基因组中。后移子区的一个子集被称为 Long infos散元长-1 (LINEs/L1s), 占人类基因组的六分之一, 有超过 500, 000份副本1。尽管这些副本很多, 但它们大多是有缺陷的, 被截断的只有估计的 80-120 L1 元素被认为是活跃的 2。全长 l1 的长度约为 6 kb, 具有 5 ' 和 3 ' 未翻译的区域, 内部启动子和相关的反义启动子, 两个非重叠的开放阅读帧 (orf), 以及信号和多a 尾 3,4,5.在人类中, l1 是由因进化年龄而区分的亚系组成的, 与最年轻的亚科 L1s6,7 相比, 年龄较大的家庭随着时间的推移积累了更多独特的序列突变。L1 是唯一的自主的人的反转座子及其 Orf 编码逆转录酶, 内切酶, 和 RNPs 的 rna 结合和陪同活动所需的再转相和插入基因组在一个过程称为目标底漆逆转录酶8,9,10,11,12。
据报告, l1 的逆行通过各种机制导致人类生殖素疾病, 包括插入突变、靶点缺失和重新排列13、14、15、 16. 最近有人假设, l1 可能在肿瘤发生和肿瘤进展中发挥作用, 因为在各种上皮癌中观察到这种诱变元素的表达和插入事件增加 17,18.据估计, 每200个新生儿中就有一个新的 L1 插入率19。因此, 更好地理解主动表达 L1 的生物学是势在必行的。在其他基因的转录记录中发现的有缺陷的副本的重复性质和丰富, 使这一水平的分析具有挑战性。
幸运的是, 随着高通量测序技术的出现, 在特定于库的级别上解析和识别真实表达 L1 的方法取得了长足的进步。关于如何使用 RNA 下一代测序最好地识别表达的 L1, 有不同的理念。建议在特定于用户的层面绘制 L1 记录的方法只有两种。你只注重通过 L1 多腺苷酸信号读入侧翼序列20的潜在转录。我们的方法利用 L1 元素之间的微小序列差异, 只映射那些唯一映射到一个位置21的 RNA-Seq 读取。这两种方法在成绩单水平的定量方面都有局限性。通过为每个 L1 位点21的 "唯一映射性" 添加校正, 或者使用更复杂的算法来重新分配无法唯一映射到特定位点22的多映射读取, 可以潜在地改进量化。在这里, 我们将逐步详细介绍 RNA 提取和下一代测序和生物信息学协议, 以确定在特定于位置的级别上表达的 L1 元素。我们的方法最大限度地利用了我们对功能 L1 元素生物学的了解。这包括知道功能 L1 元素必须从 L1 启动子中生成, 在 L1 元素开始时启动, 必须在细胞质中转换, 并且它们的转录应与基因组呈线性关系。简单地说, 我们收集新鲜的细胞质 RNA, 选择多腺苷酸转录, 并利用特异性 RNA-Seq 分析, 将读取唯一映射到人类参考基因组中的 L1 位点。然后, 这些对齐的读取仍然需要广泛的手动策划, 以确定是否从 L1 启动子开始, 然后再指定一个轨迹作为一个真正表达的 L1。我们将此方法应用于 DU145 前列腺肿瘤细胞系样本, 以证明它如何从大量的非活性拷贝中识别相对较少的主动转录的 L1 成员。
1. 细胞质 RNA 提取
2. 下一代测序
3. 创建批注 (如果有现有批注, 则可选择)
4. 读取对齐管道, 以识别表示的 L1
选项 | 描述 |
–p | 这将详细说明计算机应使用运行对齐方式的线程数。较大的计算机内存将允许更多的线程, 并且应该是经验 d。 |
–m 1 | 这告诉程序只接受基因组中有一个比任何其他基因组匹配都要好的读数。 |
–y | 这是 tryhard 开关, 它使映射搜索所有可能的匹配, 不允许它退出后达到固定数量的匹配。 |
–v 3 | 这只允许程序利用内存映射读取3或更少的不匹配的基因组。 |
–X 600 | 这只允许在600个基内对地图进行配对读取。这确保了读取对在基因组中是共线性的, 并针对涉及经过加工的 RNA 分子的。 |
–chunkmbs 8184 | 此命令为处理每个与 L1 相关的读取可能的大量对齐分配额外的内存。 |
表 1: 鲍蒂的命令行选项。
5. 手动策划
6. 读取对齐策略, 以评估参考基因组中的可映射性 (如果有现有的对齐基因组 DNA 数据集, 则可选择)
上述步骤和图 1中的图形描述已应用于人类前列腺肿瘤细胞系 du145。RNA 样本是细胞质体准备的, 并在多 a 选择的、特异性的、配体的协议中进行了下一代测序。使用 Bowtie, 对配对端测序文件进行了对齐, 只允许唯一的匹配, 在这种匹配中, 与任何其他基因组位置相比, 配对端读取更适合一个基因组位置。DU145 序列文件与人类参考基因组对齐, 创建了一个 bam 文件, 可根据作者的请求使用。使用床工具, 从用于映射到全长 L1 的读取数的 DU145 带分隔的 bam 文件中提取数据。这些读数在电子表格中进行了从最大到最小的排序, 并通过检查 IGV 中每个 L1 位点周围的基因组环境进行手动管理, 以确认其真实性 (补充表 1)。如果一个样本被组织为真实地表示, 它被颜色编码绿色与解释为它的采纳在最右边的专栏。图 2a-b显示了建议按照方法部分中描述的准则真实表达的 l1 位点的示例。如果一个样本被拒绝, 以真实地表示, 它被颜色编码为红色与拒绝的原因在最右边的列。图 2c-e详细介绍了由于方法部分中描述的启动子以外的启动子的表达而被拒绝的 l1 位点的示例。
在这里, 只研究了具有完整启动子区域的全长 L1。如果不进行这种区分, 则引入了来自截断 L1 的大转录噪声源。在 DU145 中截断 L1 的示例如图 3a-b所示, 其中它们被标识为具有唯一映射的 RNA-Seq 读取。然而, 在 IGV 中, 这些记录显然不是从截断的 L1 开始的, 而是从基因中或从表达的基因下游纳入 L1 序列开始的。
总体而言, 在 DU145 中, 在人工管理后被拒绝为真实表达的 L1 位点的全长 L1 位点和读数的百分比约为 50% (补充表 2), 显示了高水平的 l1 映射记录, 这将否则, 无需人工策划, 则被记录为误报。具体而言, 在 DU145 有114个总全长 L1 位点有独特地映射读在感觉方向与总 3 152个读, 但仅有60个位点被确定被表达在他们自己的促进器在手工策展 1, 879 读以后 (补充表 1)。即使采取步骤通过选择细胞质 mRNA 来减少与 L1 生物学无关的表达时, 情况也是如此。请注意, 在 DU145 中映射的记录级别最高的位点被拒绝, 因为它不是真实表示的 L1 (图 4)。总体而言, 映射的记录数与特定 L1 位点的数量在被接受和被拒绝的 L1 位点之间相似地作为真实地表达在手工策展以后 (图 4)。
手动策划后, 地图唯一表示 du145 范围内的特定 L1 位点的读取次数从175个读取到任意选择的10个读取的最小切数 (图 5)。这种识别唯一映射到 L1 的记录读取的方法限制了准确量化表达的能力。为了说明这一点, 根据每个位点的映射能力创建了一个校正因子。为了创建此校正因子, 使用了第一个床工具从 HeLa 基因组 bam 文件中提取唯一映射的读取数, 这些读取与所有全长 L1 位点对齐, 并绘制了从最高到最低映射的记录读取的这些位点 (补充) 图 1)。它被任意地选定 L1 与400个读有充分的覆盖映射。能够映射到 HeLa 基因组测序样本中 L1 位点的读取数相对于400次读取进行了缩放, 然后将该缩放数量乘以映射到 DU145 中每个真实表达的 L1 位点的读取数 (补充表 2).不出所料, 具有较大的映射校正分数的 L1 元素来自像 L1PA2 这样的年轻亚科 (补充表 2)。一旦根据每个位点的映射分数调整了读取, 大多数位点的表达量的定量就会增加 (图 6)。在 DU145 中唯一映射到具有映射更正的真实表达的特定 L1 位点的读取数从612到4个读取不等, 并且有最高到最低表达位点的重新排序 (图 6)。
图 1: 工作流原理图。
图形描述的是识别人类样本中表达的 L1 的步骤。请注意, 如果相应的文件已经可用, 则不需要重复步骤1和2。这些适当的文件可以从补充文件1a-b 和补充文件 2下载。红色的框表示使用床工具覆盖程序在同一意义上计算映射到 L1 的读取数的步骤。这些具有面向感官的映射读取的位点是应该手动管理的 L1。请点击这里查看此图的较大版本.
图 2: DU145 中的计算 L1 位点的示例。
加载到 IGV 是参考基因组, 全长 L1 gff 注释文件匹配的参考基因组版本 (补充文件 1), du145 文件, 最后是基因组 heabam 文件, 以评估映射性, 这都是可在作者请求。添加了箭头以帮助显示带注释的 L1 的方向。红色的箭头和读取按顺序从右到左。蓝色的箭头和读取按从左到右的顺序定向。a) 在 igv 中, 这个 l1 位点似乎是由它自己的启动子表示出来的, 因为在 l1 的上游没有超过5kb 的感觉方向上的读取。这种 L1 具有较低的映射能力, 它不在基因中, 并有预期反义启动子活性的证据 26。b) 在 igv 中, 这个 l1 位点似乎是由它自己的启动子表示出来的, 因为在感觉方向超过5kb 的 l1 上游没有读取。这种 L1 具有较低的映射能力, 并且在相反方向的基因内。c) 在 igv 中, 此 l1 位点被拒绝为表示的 l1, 因为在5kb 范围内存在相同方向的上游读取。这个 L1 是在同一方向的基因内, 所以文字记录的阅读很可能源于表达的基因的启动子。(d) 在 igv 中, 此 l1 位点被拒绝为表示的 l1, 因为在5kb 范围内存在相同方向的上游读取。这个 L1 是一个高度表达的基因在同一方向的下游, 所以文字阅读很可能来自该表达的基因的启动子, 并延伸到正常的基因终止符之外。e) 在 igv 中, 此 l1 位点被拒绝为表示的 l1, 因为在5kb 范围内存在相同方向的上游读取。这个 L1 不在参考基因中的一个附加注释的基因之内或附近, 因此这些转录的起源在 L1 元素的内部和上游表明一个未附加注释的启动子。请点击这里查看此图的较大版本.
图 3: 背景噪声也来自截断的 L1。
我们的 L1 注释不包括截断的 L1, 因为它们是背景噪声的主要来源。添加了箭头以帮助显示带注释的 L1 的方向。蓝色的箭头和读取按从左到右的顺序定向。a) 演示的是 L1MB5 系列中的一个截断 l1 的例子, 该序列是 2706 bps。在 IGV 中, 读数显然源于表达的基因的下游延伸。b) 显示的是截断 l1 的另一个示例。此 L1 是一个 L1PA11, 长度为 4767 bps。在 IGV 中, 可以明显看出, 唯一映射到 L1 的读取映射来自于表示的外显子, L1 在其中。请点击这里查看此图的较大版本.
图 4: 在 DU145 前列腺肿瘤细胞系中表达的人类基因组中唯一完整的 L1 的读写器读取。
在黑色是具体的位点被确定为真实地表示在手工策展以后和在红色是具体位点将被拒绝作为真实地表示读在手工策展以后。在灰色是位点与少于十个读取映射到每个。由于这些位点代表了文字记录读取的一小部分, 因此它们不是手动策划的。X 轴刻度线表示每100个全长、完整的 L1. 大约 4, 500个位点没有以图形方式显示, 因为它们的映射读数为零。请点击这里查看此图的较大版本.
图 5: 在 DU145 前列腺肿瘤细胞系中, 独特地将地图映射到完整的 L1。
显示的是在人工策划后阅读到 DU145 单元中特定位点的文字记录的数量。请点击这里查看此图的较大版本.
图 6: 在按映射性调整时, 读取映射到真实表示的 L1。
显示的是记录读取的数量, 这些读数由特定于 l因为子的可映射分数调整, 这些分数映射到在 DU145 单元中手动计算 L1 位点。请点击这里查看此图的较大版本.
补充文件 1: 根据方向的全长完整的人类 L1 注释.Fl-l1-blast _ rm _ mins. gff。b) FL-L1-BLAST _ rm _ gff。请点击此处下载此文件.
补充文件 2: 用于自动化第4节详细介绍的生物信息学管道的超级计算机脚本.请点击此处下载此文件.
补充图 1: 用于确定 L1 映射能力的基因组 DNA 样本。
显示的是从 HeLa 细胞系样本中读取的基因组转录数, 这些样本独特地映射到基因组中的所有 5, 000个全长 L1 位点。当400次读取映射到 L1 时, 它被指定为具有完全覆盖映射。请点击此处下载此图.
补充表 1: DU145 中 L1 的手动饱和度.请点击此处下载此表格.
补充表 2: 在 DU145 中的计划 L1 与映射调整.请点击此处下载此表格.
L1 活动已被证明会造成遗传损害和不稳定, 导致疾病 27,28,29。在大约 5, 000份全长 L1 副本中, 只有几十份进化上年轻的 L1 占了逆转录数活动2的大部分。然而, 有证据表明, 即使是一些较老的、经后转移的 L1 仍然能够产生 DNA 破坏蛋白 30.为了充分理解 L1 在基因组不稳定和疾病中的作用, 必须了解 L1 在局部特定水平上的表达。然而, L1 相关序列的高背景包含在与 L1 反转换无关的其他 Rna 中, 这对解释真实的 L1 表达性提出了重大挑战。另一个挑战是识别并因此理解单个 L1 位点的表达模式, 这是因为它们的重复性质, 不允许许多简短的读取序列映射到一个唯一的位点。为了克服这些挑战, 我们开发了上述方法, 使用 RNA-Seq 数据识别单个 L1 位点的表达。
我们的方法过滤高水平 (超过 99%)通过采取一些步骤, 产生的与 L1 逆行无关的 L1 序列产生的转录噪声。第一步是制备细胞质 RNA。通过选择细胞质 RNA, 在细胞核中表达的内界 mRNA 中发现的 L1 相关读数被显著耗尽。在测序库准备中, 为减少与 L1 无关的转录噪声而采取的另一个步骤包括选择多腺苷酸化转录。这消除了在非 mrna 物种中发现的与 L1 相关的转录噪声。另一个步骤包括特定于结构的排序, 以识别和消除反义 L1 相关的记录。在识别映射到 L1 的 RNA-Seq 文字记录的数量时, 使用具有功能启动子区域的全长 L1 注释也消除了源自截断 L1 的背景噪声。最后, 消除与 L1 反转位无关的 L1 序列转录噪声的最后一个关键步骤是手动管理被确定为映射了 RNA-Seq 记录的全长 L1。手动策划涉及在其周围的基因组环境中对每个生物信息识别到表达的 L1 位点进行可视化, 以确认这种表达源自 L1 启动子。这种方法适用于 DU145, 前列腺肿瘤细胞系。即使采取了与准备有关的步骤来减少背景噪音, 在 DU145 中确定的生物信息 L1 位点中, 约有50% 被拒绝, 因为 L1 背景噪声来自其他转录源 (图 4),强调产生可靠结果所需的严谨性。这种使用人工策展的方法是劳动密集型的, 但在开发此管道时, 对于评估和了解全长 L1 周围的基因组环境是必要的。接下来的步骤包括通过自动化一些策展规则来减少必要的人工策展量, 不过由于基因组表达的性质尚不完全清楚, 参考基因组中没有注释的表达来源, 低区域映射性, 甚至是与参考基因组的构建相关的复杂因素, 在这个时候是不可能完全自动化的 L1 策展。
在识别具有排序的单个 L1 位点表达方面的第二个挑战涉及重复 L1 转录的映射。在此对齐策略中, 需要记录与参考基因组进行唯一一致的一致, 以便进行映射。通过选择一致绘制一致地图的配对端序列, 与参考基因组中的 L1 位点唯一对齐的转录量增加。这种唯一映射策略提供了对特定于单个 L1 位点的读取映射调用的信心, 尽管它可能低估了每个识别到真实表达的重复 L1 的表达量。为了大致纠正这种低估, 开发了基于每个 L1 位点的 "映射" 分数, 并将其应用于唯一映射的记录读取数 (图 6)。值得注意的是, 理想情况下, 映射性应根据匹配的 WGS 样本在全长 L1 中进行全覆盖读取。在这里, 我们使用 H但细胞的 WGS 来确定每个 L1 位点的映射分数, 以膨胀或降低读取映射到 DU145 前列腺肿瘤细胞系中的 L1 位点。这种映射计算是一个粗糙的校正评分, 但选择的 ' 完全覆盖映射 ' 的400次读数是在考虑肿瘤细胞系动态性质的情况下确定的。在补充图 1中可以看到, 有几个 l1 位点与 H过拉 wgs 具有非常高的映射读取数。这些可能来自在 HeLa 内的重复染色体序列, 这些序列不在参考基因组内, 这就是为什么这些位点没有被选择代表完全的映射覆盖。相反, 根据补充图 1 , 100% 阅读覆盖率的平均值发生在400次左右, 然后假定这一平均值也适用于 du145 肿瘤细胞系。
这种对齐策略与 100-200 bp 读取从 RNA-Seq 技术也优先选择在参考基因组中的进化上更老的 L1, 因为年龄较大的 L1 已经积累了独特的突变随着时间的推移, 使他们更可映射。因此, 这种方法在识别 L1 中最年轻的 L1 以及非引用的多态 L1 时的灵敏度有限。为了确定 L1 中最年轻的, 我们建议使用 5 ' RACE 选择 L1 文字记录和测序技术, 如 PacBio, 利用更长的读数21。这允许更独特的映射, 从而有信心地识别表达的年轻 L1. 使用 RNA-Seq 和 PacBio 方法可以共同产生更全面的真实表达 L1 的列表。为了识别真实表达的多态 L1, 接下来的第一步包括构建多态序列并将其插入参考基因组。
研究重复序列的生物和技术挑战是巨大的, 但通过上述严格的程序, 消除 L1 序列的转录噪声与重复转换无关, 我们开始筛选通过大水平的转录背景噪声, 并在单个位点水平上自信和严格地识别 L1 表达模式和数量。
作者没有什么可透露的。
我们要感谢严东博士的 DU145 前列腺肿瘤细胞。我们要感谢 Nathan Ungerleider 博士在创建超级计算机脚本方面的指导和建议。其中一些工作是由国家卫生研究院资助的, 向 PD 提供了 R01 gm121812, 将 R01 AG057597 授予 VPB, 将5TL1TR001418 授予了传统知识。我们还要感谢癌症十字军和图兰癌症中心生物信息学核心的支持。
Name | Company | Catalog Number | Comments |
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。