Method Article
Aquí presentamos un enfoque y análisis bioinformáticos para identificar la expresión LINE-1 en el nivel específico del locus.
Los elementos intercalados largos-1 (LINEs/L1s) son elementos repetitivos que pueden copiarse e insertarse aleatoriamente en el genoma, resultando en inestabilidad genómica y mutagénesis. La comprensión de los patrones de expresión de los loci L1 a nivel individual prestará a la comprensión de la biología de este elemento mutagénico. Este elemento autónomo conforma una porción significativa del genoma humano con más de 500.000 ejemplares, aunque el 99% están truncados y defectuosos. Sin embargo, su abundancia y el número dominante de copias defectuosas hacen que sea difícil identificar auténticamente expresado L1s de secuencias relacionadas con L1 expresadas como parte de otros genes. También es difícil identificar qué locus L1 específico se expresa debido a la naturaleza repetitiva de los elementos. Superando estos desafíos, presentamos un enfoque Bioinformático de ARN-SEQ para identificar la expresión L1 en el nivel específico del locus. En Resumen, recogemos el ARN citoplasmático, seleccionamos para las transcripciones poliadeniladas, y utilizamos análisis de ARN-SEQ específicos de la hebra para mapear lecturas de forma única a loci L1 en el genoma de referencia humano. Se curan visualmente cada locus L1 con lecturas asignadas de forma única para confirmar la transcripción de su propio promotor y ajustar las lecturas de transcripción asignadas para tener en cuenta la capacidad de asignabilidad de cada locus L1 individual. Este enfoque se aplicó a una línea celular de tumor de próstata, DU145, para demostrar la capacidad de este protocolo para detectar la expresión a partir de un pequeño número de elementos L1 de longitud completa.
Los retrotransposones son elementos de ADN repetitivos que pueden "saltar" en el genoma en un mecanismo de copiado y pegado a través de los intermedios de ARN. Un subconjunto de retrotransposones se conoce como Long INterspersed Elements-1 (LINEs/L1s) y constituye una sexta parte del genoma humano con más de 500, 0000 copias1. A pesar de su abundancia, la mayoría de estas copias son defectuosas y truncadas con sólo un estimado 80-120 elementos L1 que se cree que son activos2. Una L1 de longitud completa tiene una longitud de aproximadamente 6 KB con regiones no traducidas de 5 ' y 3 ', un promotor interno y un promotor anti-sentido asociado, dos marcos de lectura abierta no solapados (ORFs) y una cola de señal y Polya3,4,5 . En los seres humanos, L1s se componen de subfamilias distinguidas por la edad evolutiva con las familias mayores que han acumulado más mutaciones de secuencia únicas en el tiempo en comparación con la subfamilia más joven, L1HS6,7. L1s son los únicos retrotransposones autónomos y humanos y sus ORFs codifican una transcriptasa inversa, endonuclease, y RNPs con las actividades de enlace de ARN y chaperona requeridas para retrotransponer e insertar en el genoma en un proceso referido como objetivo-cebado transcripción inversa8, 9,10,11,12.
Se ha notificado que la retrotransposición de L1s causó enfermedades de la línea germinal humana por una variedad de mecanismos que incluyen mutagénesis insercional, deleciones en el lugar de destino y rearreglos13,14,15, 16. recientemente se ha presumido que el L1s puede desempeñar un papel en la oncogénesis y/o progresión tumoral, ya que se han observado mayores manifestaciones y acontecimientos de inserción de este elemento mutagénico en una variedad de cánceres epiteliales17,18 . Se estima que hay una nueva inserción L1 en cada 200 nacimientos19. Por lo tanto, es imperativo entender mejor la biología de la expresión activa L1s. La naturaleza repetitiva y la abundancia de copias defectuosas encontradas en las transcripciones de otros genes han hecho que este nivel de análisis sea desafiante.
Afortunadamente, con el advenimiento de las tecnologías de secuenciación de alto rendimiento, se han hecho progresos para analizar e identificar auténticamente expresar L1s en el nivel específico del locus. Existen diferentes filosofías sobre cómo identificar mejor el L1s expresado usando la secuenciación de próxima generación de ARN. Sólo se han sugerido dos enfoques razonables para mapear transcripciones L1 en el nivel específico de locus. Uno se centra sólo en la transcripción potencial que lee a través de la señal de poliadenilación L1 y en las secuencias flanqueante20. Nuestro enfoque aprovecha las pequeñas diferencias de secuencia entre los elementos L1 y solo asigna las lecturas de ARN-SEQ que se asignan de forma única a un locus21. Ambos métodos tienen limitaciones en términos de cuantificación de los niveles de transcripción. La cuantificación se puede mejorar potencialmente añadiendo una corrección para la "asignabilidad única" de cada locus21L1, o usando algoritmos más complejos que redistribuyan las lecturas de múltiples mapeados que no podrían asignarse de forma única a un locus específico22. Aquí, detallaremos paso a paso la extracción de ARN y la secuenciación de última generación y el protocolo Bioinformático para identificar los elementos expresados en L1 en el nivel específico del locus. Nuestro enfoque aprovecha al máximo nuestro conocimiento de la biología de los elementos funcionales L1. Esto incluye saber que los elementos L1 funcionales deben generarse a partir del promotor L1, iniciado al principio del elemento L1, debe traducirse en el citoplasma y que sus transcripciones deben ser co-lineales con el genoma. Brevemente, recolectamos ARN citoplásmico fresco, seleccionamos para las transcripciones poliadeniladas, y utilizamos análisis de ARN-SEQ específicos de la hebra para mapear lecturas de forma única a loci L1 en el genoma de referencia humano. Estas lecturas alineadas todavía requieren una extensa curación manual para determinar si las lecturas de transcripción provienen del promotor L1 antes de designar un locus como un L1 auténticamente expresado. Aplicamos este enfoque en la muestra de la línea celular del tumor de próstata DU145 para demostrar cómo identifica a unos pocos miembros de L1 transcritos activamente de la masa de copias inactivas.
1. extracción del ARN citoplasmático
2. secuenciación de próxima generación
3. crear anotaciones (opcional si uno tiene una anotación existente)
4. leer canalización de alineación para identificar expresado L1s
extra | descripción |
– p | Esto detalla el número de subprocesos que el equipo debe usar para ejecutar la alineación. Mayor memoria del ordenador permitirá más hilos y debe ser empíricamente d. |
– m 1 | Esto le dice al programa que sólo acepte lecturas que tienen una coincidencia en el genoma que es mejor que cualquier otro fósforo del genoma. |
– y | Este es el interruptor de tryhard que hace la búsqueda de mapeo para todas las coincidencias posibles y no permitir que se salga después de que se alcance un número fijo de coincidencias. |
– v 3 | Esto sólo permite que el programa utilice la memoria para las lecturas asignadas con 3 o menos discrepancias al genoma. |
– X 600 | Esto sólo permite las lecturas emparejadas que se asignan dentro de 600 bases entre sí. Esto asegura que los pares leídos son co-lineales en el genoma y se seleccionan contra s que involucran moléculas de ARN procesado. |
– chunkmbs 8184 | Este comando asigna memoria adicional para controlar la gran cantidad de alineaciones posibles para cada lectura relacionada con L1. |
Tabla 1: opciones de línea de comandos para Bowtie.
5. la curación manual
6. Lea la estrategia de alineación para evaluar la asignabilidad en el genoma de referencia (opcional si uno tiene un DataSet de ADN genómico alineado existente)
Los pasos descritos anteriormente y descritos gráficamente en la figura 1 se aplicaron a una línea celular del tumor de próstata humano DU145. La muestra de ARN se preparó de forma citoplásmicamente y fue secuenciada de próxima generación en un protocolo poli-A seleccionado, específico de la hebra, del extremo emparejado. Con bowtie, los archivos de secuenciación de extremo emparejado se alinearon permitiendo solo coincidencias únicas en las que la lectura del extremo emparejado coincido mejor con una ubicación genómica en comparación con cualquier otra ubicación genómica. Los archivos de secuencia DU145 se alinearon con el genoma de referencia humano creando un archivo BAM, que está disponible a petición del autor. Utilizando bedtools, los datos se extrajeron de los archivos BAM separados por hebras DU145 en el número de lecturas que se asignaron a L1s de longitud completa. Esas lecturas se clasificaron en una hoja de cálculo de mayor a menor y se curaron manualmente examinando el entorno genómico alrededor de cada locus L1 en IGV para confirmar su autenticidad (tabla 1 suplementaria). Si se seleccionó una muestra para que se expresaba auténticamente, se codificó en color verde con una explicación para su aceptación en la columna de la derecha. En la figura 2a-bse muestran ejemplos de loci L1 aceptados para ser expresados auténticamente siguiendo las pautas descritas en la sección de métodos. Si se rechazó una muestra para que se expresara auténticamente, se codificó en color como rojo con el motivo del rechazo en la columna de la derecha. Los ejemplos de loci L1 rechazados debido a la expresión de un promotor que no sean sus propias pautas descritas en la sección de métodos se detallan en la figura 2c-e.
Aquí, solo se estudiaron L1s de longitud completa con una región promotora intacta. Si no se hace esta distinción, se introduce una gran fuente de ruido transcripcional procedente de la L1s truncada. Los ejemplos de L1s truncados en DU145 se muestran en la figura 3a-b , donde se identificaron como que tienen lecturas de ARN-SEQ asignadas de forma única. En IGV, sin embargo, es evidente que esas transcripciones no se iniciaron a partir de la L1 truncada, sino de la inclusión de la secuencia L1 en un gen o aguas abajo de un gen expresado.
En general, en DU145, el porcentaje de loci L1 de longitud completa y lecturas que se rechazan como L1s expresa auténticamente después de la curación manual es aproximadamente 50% (tabla complementaria 2) que demuestra el alto nivel de las lecturas de transcripción asignadas L1 que de lo contrario se registrará como falsos positivos sin la curación manual. Concretamente, en DU145 había 114 loci totales de L1 de longitud total para que las lecturas estuvieran asignadas de forma única en la dirección del sentido con un total de 3.152 lecturas, pero sólo había 60 loci identificados para ser expresados en su propio promotor después de la curación manual con 1.879 lecturas ( Tabla complementaria 1). Este es el caso incluso cuando se tomaron medidas para reducir la expresión irrelevante para la biología L1 mediante la selección de mRNA citoplasmática. Tenga en cuenta que el locus con el nivel más alto de transcripciones asignadas en DU145 fue rechazado porque no era un L1 auténticamente expresado (figura 4). En general, el número de transcripciones asignadas a rangos de loci L1 específicos se extiende de manera similar entre los loci L1 aceptados y rechazados como se expresan auténticamente después de la curación manual (figura 4).
Después de la curación manual, el número de lecturas que se asignan únicamente a loci L1 específicos expresados auténticamente en DU145 oscilan entre 175 lecturas y un recorte mínimo elegido arbitrariamente de 10 lecturas (figura 5). Este enfoque de identificar las lecturas de transcripción asignadas de forma exclusiva a L1s limita la capacidad de cuantificar con precisión la expresión. Para tener en cuenta esto, se creó un factor de corrección para cada locus basado en su capacidad de asignabilidad. Para crear este factor de corrección, se utilizaron las primeras herramientas para extraer el número de lecturas asignadas de forma exclusiva del archivo HeLa genomic de BAM que se alinearon con todos los loci de L1 de longitud completa y grafiaron esos loci de lecturas de transcripción asignadas de mayor a menor correlación (suplementario Figura 1). Se designó arbitrariamente que L1s con 400 lecturas tenían una capacidad de asignabilidad completa. El número de lecturas que se pueden asignar a un locus L1 en la muestra de secuenciación genómica HeLa se ha escalado en relación con 400 lecturas y ese número escalado se multiplicó entonces por el número de lecturas que se asignaban a cada loci L1 auténticamente expresado en DU145 (tabla complementaria 2) . Como era de esperar, los elementos L1 que tenían puntuaciones de corrección más grandes para la asignabilidad provenían de subfamilias más jóvenes como L1PA2 (tabla complementaria 2). Una vez que se ajustaron las lecturas para las puntuaciones de la asignabilidad en cada locus, aumentó la cuantificación de la expresión para la mayoría de los loci (figura 6). El número de lecturas que se asignaron de forma exclusiva a los loci L1 específicos auténticamente expresados con correcciones de mappability en DU145 varió de 612 a 4 lecturas y hubo una reorganización de loci de mayor a menor expresión (figura 6).
Figura 1: esquema de flujo de trabajo.
Se describen gráficamente los pasos para identificar el L1s expresado en una muestra humana. Tenga en cuenta que los pasos 1 y 2 no necesitan repetirse si los archivos apropiados ya están disponibles. Estos archivos apropiados se pueden descargar de suplemento archivo 1A-b y el suplemento de archivo 2. Las casillas en rojo indican los pasos donde el programa de cobertura de bedtools se utiliza para contar el número de lecturas de mapeo a L1s en la misma dirección de sentido. Estos loci con mapas orientados al sentido son los L1s que deben ser seleccionados manualmente. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Figura 2: ejemplos de loci L1 comisariadas en DU145.
Cargados en IGV son el genoma de referencia, el archivo de anotación L1 GFF de longitud completa que coincide con la versión del genoma de referencia (suplemento de archivo 1), el archivo BAM DU145 y, por último, el archivo de BAM de Hela para evaluar la asignabilidad, que están disponibles sobre el autor pedido. Se han añadido flechas para ayudar en la visualización de la dirección de la L1 anotada. Las flechas y las lecturas en rojo están orientadas en secuencia de derecha a izquierda. Las flechas y las lecturas en azul están orientadas en secuencia de izquierda a derecha. a) en IGV, este locus L1 parece estar expresado en su propio promotor, ya que no hay lecturas aguas arriba de la L1 en la orientación del sentido para más de 5 KB. Este L1 tiene baja capacidad de asignabilidad, no está en un gen, y tiene evidencia de la actividad de promotor de antisentido esperada26. b) en IGV, este locus L1 parece estar expresado en su propio promotor, ya que no hay lecturas aguas arriba de la L1 en la orientación del sentido para más de 5 KB. Esta L1 tiene una baja capacidad de asignabilidad y está dentro de un gen de dirección opuesta. c) en IGV, este locus L1 fue rechazado como un L1 expresado ya que hay lecturas ascendentes en la misma orientación dentro de 5 KB. Esta L1 está dentro de un gen de la misma dirección por lo que las lecturas de transcripción son más probables originadas por el promotor del gen expresado. d) en IGV, este locus L1 fue rechazado como un L1 expresado ya que hay lecturas ascendentes en la misma orientación dentro de 5 KB. Esta L1 está aguas abajo de un gen altamente expresado en la misma dirección por lo que las lecturas de transcripción son más probables originadas por el promotor de ese gen expresado y extendiéndose más allá del terminador genético normal. e) en IGV, este locus L1 fue rechazado como un L1 expresado ya que hay lecturas ascendentes en la misma orientación dentro de 5 KB. Esta L1 no está dentro ni cerca de un gen anotado en el gen de referencia, por lo que el origen de estas transcripciones dentro y arriba del elemento L1 sugiere un promotor no anotado. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Figura 3: el ruido de fondo se origina de L1s truncados también.
Nuestra anotación L1 no incluye L1s truncados, ya que son una fuente importante de ruido de fondo. Se han añadido flechas para ayudar en la visualización de la dirección de la L1 anotada. Las flechas y las lecturas en azul están orientadas en secuencia de izquierda a derecha. a) demostrado es un ejemplo de una L1 truncada en la SUFAMILIA L1MB5 que es 2706 bps. En la IGV es evidente que las lecturas proceden de la extensión descendente de un gen expresado. b) se muestra otro ejemplo de una L1 truncada. Este L1 es un L1PA11 que es 4767 bps de largo. En IGV es evidente que el mapeo de lecturas de forma exclusiva a la L1 se origina en el exón expresado, que el L1 está dentro. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Figura 4: la transcripción lee ese mapa de forma exclusiva para todos los L1s intactos de longitud completa en el genoma humano expresado en DU145 línea celular del tumor de próstata.
En negro son los loci específicos que se identifican como auténticamente expresados después de la curación manual y en rojo son los loci específicos que se rechazarán como lecturas auténticamente expresadas después de la curación manual. En gris son loci con menos de diez lecturas de mapeo a cada uno. Como estos loci representan una pequeña fracción de las lecturas de transcripción, no fueron curadas manualmente. Las marcas de graduación del eje x denotan cada 100 de longitud completa, intacto L1s. aproximadamente 4.500 loci no se muestran gráficamente ya que tenían cero lecturas asignadas. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Figura 5: la transcripción lee ese mapa de forma exclusiva para expresar auténticamente la longitud completa L1s intacta en DU145 línea celular del tumor prostático.
Se muestra el número de lecturas de transcripción que se asignan a loci específicos en DU145 celdas después de la curación manual. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Figura 6: Lee la asignación a L1 auténticamente expresada cuando se ajusta por asignabilidad.
Se muestra el número de lecturas de transcripción ajustadas por puntuaciones de asignabilidad específicas de loci que se asignan a loci L1 seleccionados manualmente en celdas DU145. Por favor, haga clic aquí para ver una versión más grande de esta figura.
Archivo suplementario 1: anotaciones para la L1s humana intacta de longitud completa según la orientación. a) FL-L1-BLAST_RM_minus. GFF. b) FL-L1-BLAST_RM_plus. GFF. Por favor haga clic aquí para descargar este archivo.
Archivo suplementario 2: guiones Superinformáticos utilizados para automatizar la canalización bioinformática detallada en la sección 4. Por favor haga clic aquí para descargar este archivo.
Figura complementaria 1: muestra de ADN genómica utilizada para determinar la asignabilidad L1.
Se muestra el número de lecturas de transcripción genómica de la muestra de línea de células HeLa que se asignan exclusivamente a todos los 5.000 loci L1 de longitud completa en el genoma. Se designó que una L1 tiene una capacidad de asignación de cobertura completa cuando 400 lee el mapa a la L1. Por favor haga clic aquí para descargar esta figura.
Tabla complementaria 1: curación manual de L1s en DU145. Por favor haga clic aquí para descargar esta tabla.
Tabla complementaria 2: comisariada L1s en DU145 con ajuste de asignabilidad. Por favor haga clic aquí para descargar esta tabla.
Se ha demostrado que la actividad L1 causa daño genético e inestabilidad que contribuyen a la enfermedad27,28,29. De las aproximadamente 5.000 copias completas de L1, sólo unas cuantas docenas de jóvenes evolutivamente L1s representan la mayoría de la actividad de retrotransposición2. Sin embargo, hay evidencia de que incluso algunos más antiguos, retrotransposicionalmente-incompentent L1s todavía son capaces de producir ADN perjudicial proteínas30. Para apreciar plenamente el papel de la L1s en la inestabilidad genómica y la enfermedad, se debe entender la expresión L1 en el nivel específico del locus. Sin embargo, el alto fondo de las secuencias relacionadas con L1 incorporadas en otros RNAs no relacionados con la retrotransposición L1 plantea un desafío significativo en la interpretación de la expresión L1 auténtica. Otro desafío en la identificación y por lo tanto la comprensión de los patrones de expresión de los loci L1 individuales se produce debido a su naturaleza repetitiva que no permite que muchas secuencias de lectura cortas se mapear a un único locus único. Para superar estos desafíos, desarrollamos el enfoque descrito anteriormente para identificar la expresión de loci L1 individuales utilizando datos de ARN-seq.
Nuestro enfoque filtra el nivel alto (más del 99%) de ruido transcripcional generado a partir de secuencias L1 que no están relacionadas con la retrotransposición L1 mediante la toma de una serie de pasos. El primer paso consiste en la preparación del ARN citoplásmico. Al seleccionar el ARN citoplásmico, las lecturas relacionadas con L1 encontradas dentro del mRNA intrónico expresado en el núcleo se agotan significativamente. En la preparación de la biblioteca de secuenciación, otro paso tomado para reducir el ruido transcripcional no relacionado con el L1s incluyen la selección de transcripciones poliadeniladas. Esto elimina el ruido de transcripción relacionado con L1 que se encuentra en especies que no son mRNA. Otro paso incluye la secuenciación específica de la hebra para identificar y eliminar las transcripciones relacionadas con el antisentido L1. El uso de una anotación para L1s de longitud completa con regiones promotoras funcionales al identificar el número de transcripciones de ARN-SEQ que se asignan a L1s también elimina el ruido de fondo que de otro modo se originan a partir de L1s truncados. Por último, el último paso crítico para eliminar el ruido transcripcional de las secuencias L1 no relacionadas con la retrotransposición de L1 es la curación manual de la longitud total de L1s identificada para haber mapeado transcripciones de ARN-seq. La curación manual implica la visualización de cada locus L1 identificado de manera bioinformáticamente en el contexto de su entorno genómico circundante para confirmar que la expresión proviene del promotor L1. Este enfoque se aplicó a DU145, una línea celular de tumor de próstata. Incluso con todas las medidas relacionadas con la preparación adoptadas para reducir el ruido de fondo, aproximadamente el 50% de los loci L1 identificados de manera bioinformáticamente en DU145 fueron rechazados como ruido de fondo L1 procedente de otras fuentes transcripcionales (figura 4), enfatizando el rigor necesario para producir resultados fiables. Este enfoque mediante la curación manual es laborioso, pero necesario en el desarrollo de esta tubería para evaluar y comprender el entorno genómico que rodea a un L1 de longitud completa. Los siguientes pasos incluyen la reducción de la cantidad de curación manual necesaria automatizando algunas de las reglas de curación, aunque debido a la naturaleza todavía no completamente conocida de la expresión genómica, las fuentes de expresión no anotadas en el genoma de referencia, las regiones de baja asignabilidad, e incluso factores que complican la construcción de un genoma de referencia, no es posible automatizar completamente la curación L1 en este momento.
El segundo desafío en la identificación de la expresión de loci L1 individuales con la secuenciación se relaciona con el mapeo de transcripciones L1 repetitivas. En esta estrategia de alineación, se requiere que una transcripción deba alinearse única y colinealmente con el genoma de referencia para que se asigne. Al seleccionar las secuencias de final emparejado que se asignan concordantemente, aumenta la cantidad de transcripciones que se alinean de forma única a los loci L1 que se encuentran en el genoma de referencia. Esta estrategia de mapeo único proporciona confianza en la llamada de lecturas que se mapear específicamente a un solo locus L1, aunque potencialmente subestima la cantidad de expresión de cada L1, repetitivo, expresado, a ser auténticamente, repetido. Para corregir aproximadamente esta infravaloración, se desarrolló una puntuación de "asignabilidad" para cada locus L1 basado en su capacidad de asignabilidad y se aplicó al número de lecturas de transcripción asignadas de forma exclusiva (figura 6). Es de notar que idealmente, la asignabilidad se debe anotar a las lecturas de la cobertura completa a través del L1 de longitud completa según la muestra emparejada WGS. Aquí, utilizamos WGS de células HeLa para determinar las puntuaciones de la asignación de cada loci L1 con el fin de inflar o DEFLATE lecturas de mapeo para L1 loci en DU145 líneas celulares de tumor de próstata. Este cálculo de la asignabilidad es una puntuación de corrección bruta, pero la "asignabilidad completa de la cobertura" de 400 lecturas se determinó con la naturaleza dinámica de las líneas celulares tumorales en mente. Puede observarse en la figura 1 suplementaria, que hay algunos loci L1 con Hela WGS con un número extremadamente alto de lecturas asignadas. Estos probablemente provienen de secuencias cromosómicas duplicadas dentro de HeLa que no están dentro del genoma de referencia, razón por la cual esos loci no fueron elegidos para ser representativos de la cobertura completa de la asignabilidad. En su lugar, se determinó que el promedio de 100% de cobertura de lectura se produce alrededor de 400 lecturas de acuerdo con la figura 1 suplementaria y luego se asumió que este promedio se aplica a la línea de la célula de próstata del tumor DU145, así.
Esta estrategia de alineación con 100-200 BP Lee de la tecnología RNA-SEQ también selecciona preferentemente para los L1s evolutivamente más antiguos dentro del genoma de referencia como mayores L1s han acumulado con el tiempo mutaciones únicas que los hacen más asignables. Este enfoque, por lo tanto, tiene una sensibilidad limitada a la hora de identificar al más joven de L1s, así como de no referencia, polimórfico L1s. Para identificar al más joven de L1s, sugerimos usar la selección 5 ' RACE de transcripciones L1 y tecnología de secuenciación como PacBio que hacen uso de lecturas más largas21. Esto permite un mapeo más singular y, por lo tanto, una identificación segura de los L1s expresados, jóvenes. el uso de ARN-SEQ y PacBio enfoques juntos puede conducir a una lista más completa de L1s expresa auténticamente. Para identificar el polimórfico L1s auténticamente expresado, los primeros pasos siguientes incluyen la construcción e inserción de secuencias polimórficas en el genoma de referencia.
Los desafíos biológicos y técnicos en el estudio de las secuencias repetidas son grandes, aunque con el procedimiento riguroso anterior para eliminar el ruido transcripcional de las secuencias L1 no relacionadas con la retrotransposición utilizando la tecnología de secuenciación de ARN, comenzamos a tamizar a través los grandes niveles de ruido de fondo transcripcional y la identificación segura y rigurosa de los patrones de expresión L1 y la cantidad a nivel de locus individual.
Los autores no tienen nada que revelar.
Nos gustaría agradecer al Dr. Yan dong por las células del tumor de próstata DU145. Nos gustaría agradecer al Dr. Nathan Ungerleider por su guía y Consejo en la creación de guiones de supercomputadoras. Parte de este trabajo fue financiado por NIH Grants r01 GM121812 a PD, r01 AG057597 a VPB, y 5TL1TR001418 a TK. También nos gustaría reconocer el apoyo de los cruzados del cáncer y el núcleo Bioinformático del centro oncológico Tulane.
Name | Company | Catalog Number | Comments |
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados