9.7K Views
•
11:04 min
•
May 19th, 2019
DOI :
May 19th, 2019
•Transcribir
Los elementos móviles son una de las principales fuentes de inestabilidad genética humana. Comprender su expresión en diferentes tejidos y condiciones es fundamental para entender su impacto en el genoma. La gran cantidad de transcripciones L1 son el resultado de la inclusión pasiva de secuencias relacionadas con L1 en otras transcripciones que no tienen ningún papel en el ciclo de vida L1.
Nuestro enfoque elimina este trasfondo irrelevante. Este protocolo se puede adaptar a estudios de cualquier elemento móvil, o incluso virus en cualquier genoma de secuencia. Debe haber al menos alguna variación de secuencia para permitir la discriminación entre loci.
La demostración visual de este método es fundamental para ilustrar la rigurosidad y el cuidado necesarios para identificar con confianza los elementos repetitivos L1 expresados en el nivel específico del locus. Comience este procedimiento con la extracción de ARN citoplasmático y la secuenciación de próxima generación como se describe en el protocolo de texto. Al seleccionar el ARN citoplasmático, las lecturas relacionadas con L1 que se encuentran dentro del ARNm intrónico expresado en el núcleo se agotan significativamente.
En la preparación de la biblioteca de secuenciación, otro paso dado para reducir el ruido transcripcional no relacionado con L1s incluye la selección de transcripciones poliadenadas. Esto elimina el ruido de transcripción relacionado con L1 que se encuentra en especies no MRNA. Ejecute la secuencia de paradigmas de alineación de archivos FASTQ con la muestra de RNA seq de interés mediante bowtie1 escribiendo la línea de comandos en el terminal Linux.
Esta estrategia de alineación requiere que las transcripciones estén alineadas de forma única y colineal con una búsqueda genómica exhaustiva. Esta estrategia proporciona confianza en la llamada de la asignación de lecturas específicamente a un solo locus L1. Strand separa los archivos BAM de salida usando los comandos SAMtools y Linux para seleccionar para la hebra superior y la hebra inferior.
Tenga en cuenta que los valores de marca reales pueden variar si uno no utiliza protocolos de secuenciación de próxima generación estándar. Este paso de separación de hebras trabaja para filtrar el ruido transcripcional generado dentro de las secuencias L1 que no están relacionados con la retrotransposición L1 mediante la eliminación de posibles lecturas asignadas relacionadas con antis sentido L1. Genere recuentos de lectura para anotaciones para loci L1 usando bedtools.
En primer lugar, escriba la línea de comandos para generar recuentos de lectura para L1s en la dirección de detección en el hilo superior y, a continuación, escriba la línea de comandos para generar recuento de lectura para L1s en la dirección de sentido en la hebra inferior. Las anotaciones utilizadas para identificar L1s denotan L1 de longitud completa con regiones promotoras funcionales que trabajan para eliminar el ruido de fondo que de otro modo se originan a partir de L1 truncados. Crear una hoja de cálculo para las lecturas asignadas a cada locus L1 anotado.
Copiar sobre el archivo de texto de lectura generado que se creó para la hebra inferior y etiquetar la página como minus_bottom. Ordene todas las columnas en función del número más alto a menor de lecturas encontradas en la columna J.Copy sobre el archivo de texto de recuento de lectura generado que se creó para la hebra superior. Ordene todas las columnas en función del número más alto a menor de lecturas que se encuentran en la columna J.Y etiquete la página como top_plus.
Crea una tercera página etiquetada como combinada y añade todos los loci con 10 o más lecturas de minus_bottom y páginas plus_top. Ordenar todas las columnas basadas en el mayor al menor número de lecturas encontradas en la columna J.To ayudar a la mapeabilidad de las regiones genómicas, específicamente en o cerca de L1 loci, archivos enteros emparejados y secuenciación de las especies de interés se descargaron de NCBI y se convirtieron en archivos FASTQ como se describe en el protocolo de texto. Ahora, indexe los archivos BAM para que sean visibles en el Visor De Genómica Integrativa, abreviado IGV, antes de cargar los archivos.
En IGV cargar el genoma de referencia de interés para visualizar genes anotados. Cargue también el archivo de anotación para elementos L1 de longitud completa para visualizar la anotación L1, el archivo BAM para la expresión de ARN humano, para visualizar las transcripciones asignadas a partir de la muestra de interés y el archivo BAM para la mapabilidad del genoma humano para evaluar la mapabilidad de las regiones genómicas. Elimine las filas de cobertura y unión asociadas a cada archivo BAM.
Comprima los archivos BAM para la expresión de ARN humano y para la mapabilidad del genoma humano para que todas las pistas IGV encajen en una pantalla. El último paso crítico para eliminar el ruido transcripcional de secuencias L1 no relacionadas con la retrotransposición L1 es la creación manual de L1 de longitud completa identificados para tener transcripciones de búsqueda de ARN mapeado. La curación manual implica la visualización de cada locus L1 expresado en el contexto de su entorno genómico circundante para confirmar que la expresión se origina en el promotor L1.
Usando coordenadas de loci L1 enumeradas en la página combinada de la hoja de cálculo, seleccione manualmente cada locus L1 con transcripciones asignadas de forma única examinando su entorno genómico circundante en IGV. Curar un locus para ser expresado auténticamente por sí mismo si no hay lecturas aguas arriba en la dirección L1 hasta cinco kilobases. Etiquete la fila en verde en color y observe por qué es un L1 auténticamente expresado. Existe una excepción a esta regla si la región aguas arriba del L1 no es asignable.
Si este es el caso, etiquete la fila de color rojo y tenga en cuenta que la expresión de la región aguas arriba del promotor L1 no se puede evaluar y, por lo tanto, la expresión del L1 no puede determinarse con confianza. Curar un locus para no ser expresado auténticamente fuera de su propio promotor si hay lecturas aguas arriba hasta cinco kilobases. Etiquete la fila en rojo en color y observe por qué no es una L1 auténticamente expresada. Curar un locus como falso si se expresa dentro de un intrón de un gen expresado en la misma dirección, con lecturas aguas arriba de la L1, si es aguas abajo de un gen expresado en la misma dirección con lecturas aguas arriba de la L1, o para patrones de expresión sin anotar con lecturas aguas arriba de la L1. Una excepción a esta regla se aplica cuando hay lecturas mínimas que se superponen directamente al sitio de inicio del promotor L1, pero ligeramente aguas arriba de la L1. Si no hay otras lecturas aguas arriba de un caso L1 como este, considere este L1 para ser expresado auténticamente.
Etiquete la fila en verde y observe por qué es un L1 auténticamente expresado. Curar un locus L1 como es probable que sea falso si el patrón de lecturas asignadas al locus no se correlaciona con las regiones específicas de mapeabilidad L1. Si un L1 es altamente mapeable, pero sólo tiene una pila de lecturas en una región condensada dentro de la L1, es menos probable que esté relacionado con la expresión L1 fuera de su propio promotor y más probable que provend de fuentes no anotadas como exones o LTR. En casos como este, cura el loci como naranja y observa por qué el locus es sospechoso.
Verifique las fuentes de los amontonamientos sospechosos marcando la ubicación L1 en el navegador del genoma UCSC. Curar un locus para no expresarse auténticamente si se encuentra dentro de un ambiente genómico de regiones esporádicamente expresadas sin anotar. Las lecturas pueden expresarse 10 kilobases aguas arriba de la L1. Pero cada 10 kilobases más o menos, hay lecturas asignadas y algunas de esas lecturas se alinean con la L1. Es probable que estos L1 tengan lecturas asignadas debido a patrones no anotados de expresión genómica.
En casos como este, cura los loci como rojo y observa por qué el locus es sospechoso. Para ayudar a la mapabilidad de cada loci L1 determinar el número de lecturas asignadas de forma única a L1 loci utilizando el programa bedtools, la anotación FL-L1 y los datos de secuencia genómica alineados. Designe un locus L1 para tener una capacidad de asignación de cobertura completa cuando 400 lecturas únicas estén alineadas con él.
Determinar el factor necesario para escalar o reducir el ADN genómico alineado lee a 400 para cada L1 individual. Para tener una medida de expresión escalada de acuerdo con la mapabilidad individual del locus L1, multiplique el factor por el número de lecturas de transcripción de ARN que se alinean con L1s expresados auténticamente individuales. Cada paso se utiliza para resaltar las diferencias entre los elementos L1 expresados fuera de su propio promotor, y todas las formas en que los elementos L1 pueden incluirse en otras transcripciones que no están relacionadas con el ciclo de vida L1. Aquí se muestran las lecturas de transcripción que se asignan de forma única a todos los L1 intactos de longitud completa en el genoma humano expresado en la línea celular del tumor de próstata DU145.
En negro están los loci específicos identificados como auténticamente expresados después de la curación manual. Y en rojo son los loci específicos rechazados como lecturas auténticamente expresadas después de la curación manual. En gris son loci con menos de 10 lecturas de asignación a cada uno.
Como estos loci representan una pequeña fracción de las lecturas de transcripción, no fueron curadas manualmente. Aproximadamente 4500 loci no se muestran gráficamente, ya que tenían cero lecturas asignadas. Después de la curación manual, el número de lecturas que se asignan de forma única a loci L1 específico expresado auténticamente en DU145 van desde 175 lecturas hasta un corte mínimo elegido arbitrariamente de 10 lecturas.
Una vez ajustadas las lecturas para las puntuaciones de mapabilidad en cada locus, la cuantificación para la expresión para la mayoría de los loci aumentó. El número de lecturas que se asignaron de forma única a loci L1 específico expresado auténticamente con correcciones de mappabilidad en DU145 osciló entre 612 y cuatro lecturas y hubo un reordenamiento de loci de expresión más alto a menor. Cada paso desempeña un papel crucial en la reducción del alto nivel de ruido de fondo transcripcional.
Sin embargo, el paso más crítico es la curación manual de cada locus L1 para confirmar la transcripción de su propio promotor. Aproximadamente el 50% de L1 loci identificado bioinformáticamente en las células DU145 fueron rechazados como L1 ruido de fondo procedente de otras fuentes de transcripción, haciendo hincapié en el rigor necesario para producir resultados confiables. Para identificar al más joven de los L1, sugerimos usar la selección RACE de cinco primos de transcripciones L1 y tecnología de secuenciación como PacBio que hacen uso de lecturas más largas y permiten un mapeo más único.
Con este enfoque, podemos identificar y cuantificar con estricta y confianza los patrones de expresión L1. Esto allana el camino hacia una mejor comprensión de la regulación de los loci L1 individuales y el impacto potencial.
Aquí presentamos un enfoque y análisis bioinformáticos para identificar la expresión LINE-1 en el nivel específico del locus.
Capítulos en este video
0:04
Title
0:52
Read Alignment Pipeline to Identify Expressed L1s
2:48
Manual Curation
7:48
Assess Mappability of Each L1 Loci to Factor in a Transcription Level Correction Score
8:42
Results: Identification of Full-length L1 Retroelements in the Human Prostate Tumor Cell Line, DU145
10:01
Conclusion
Videos relacionados
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados