La interpretación de los datos de secuenciación generados por el experimento de perfilación de ribosomas es fundamental para medir cuantitativamente las actividades traslacionales de los ribosomas en el ARNm y para estudiar los mecanismos de regulación traslacional. En este protocolo, describiremos el procedimiento computacional para utilizar los datos de perfil de ribosomas y RiboCode, una herramienta de línea de comandos para decodificar la traducción de ARNm a escala de todo el genoma y resolución de nucleótido único. Este método permite buscar los nuevos péptidos que surgen de las regiones genómicas fuera de los genes codificantes de proteínas anotadas, y ofrece la oportunidad de cuantificar la tasa de traducción de ARNm.
Para comenzar, abra una ventana de terminal Linux y cree un entorno conda ejecutando el comando. Cambie al entorno creado e instale RiboCode y las dependencias ejecutando el comando. Para obtener los archivos de referencia del genoma para la secuencia de referencia, vaya al sitio web de Ensembl y, a continuación, haga clic en descargar, seguido de Descarga FTP.
Haga clic en la opción FASTA en la columna DNA FASTA y seleccione la fila donde la especie es humana, que se muestra en la tabla de la página del sitio web. En la página del sitio web de Ensembl, copie el enlace como se menciona en el texto, luego descargue y descomprima los archivos en el terminal ejecutando el comando. Para obtener una anotación de referencia, haga clic con el botón derecho en GTF en los conjuntos de genes de columna de la última página web abierta.
Copie el enlace y descárguelo mediante el comando. Para obtener secuencias de ARNr, abra el navegador del genoma UCSC, luego haga clic en herramientas y seleccione navegador de tabla en la lista desplegable. En la página del explorador del genoma UCSC, especifique mamífero para el clado, humano para el genoma, todas las tablas para el grupo, máscara R para la tabla y genoma para la región.
Para el filtro, haga clic en crear para ir a una nueva página y establezca la clase de representación como coincide con rRNA. Haga clic en enviar y, a continuación, establezca el formato de salida en secuencia y el nombre del archivo de salida como HG38_rRNA. FA. Finalmente, haga clic en obtener salida y, a continuación, seleccione obtener secuencia para recuperar la secuencia de ARNr.
Para obtener conjuntos de datos de perfiles de ribosomas del archivo de lectura de secuencia, descargue los ejemplos de réplica del grupo de tratamiento si-eIFe y cámbieles el nombre ejecutando el comando. A continuación, descargue los ejemplos de réplica del grupo de control y cámbieles el nombre ejecutando el comando. Para eliminar la contaminación de ARNr, comience a indexar secuencias de referencia de ARNr ejecutando el comando.
Después de la indexación, alinee las lecturas con la referencia rRNA para descartar las lecturas que se originan en rRNA ejecutando el comando. Comience por crear un índice del genoma ejecutando el comando. A continuación, alinee las lecturas limpias sin contaminación de ARNr con la referencia creada ejecutando el comando y, a continuación, ordene e indexe los archivos de alineación ejecutando el comando.
Prepare las anotaciones de transcripción ejecutando el comando. Seleccione fragmentos protegidos de ribosomas de longitudes específicas e identifique sus posiciones en el sitio P ejecutando el comando. Edite los archivos de configuración de cada ejemplo y combínelos.
A continuación, ejecute RiboCode ejecutando el comando. La distribución de frecuencia de las longitudes de las lecturas mostró que la mayoría de los fragmentos protegidos por ribosomas corresponden a 25 a 35 nucleótidos. Las ubicaciones del sitio P para diferentes longitudes de fragmentos protegidos por ribosomas se determinaron examinando las distancias desde sus cinco extremos primos hasta los codones de inicio y parada anotados.
Los resultados del mapeo muestran que 10, 394 genes codifican para marcos de lectura abiertos anotados. Además, los genes 509 y 168 codifican para marcos de lectura abiertos ascendentes y descendentes, mientras que 939 genes codifican para marcos de lectura abiertos ascendentes o posteriores, superpuestos con marcos de lectura abiertos anotados conocidos. Además, 68 genes codificantes de proteínas y 2.601 genes no codificantes codifican para nuevos marcos de lectura abiertos.
La distribución de la longitud mostró que los marcos de lectura abiertos aguas arriba, aguas abajo, novedosos y superpuestos eran más cortos que los marcos de lectura abiertos anotados. Se calcularon recuentos relativos de fragmentos protegidos por ribosomas para cada marco de lectura abierto, lo que revela que las densidades de ribosomas de los marcos de lectura abiertos aguas arriba fueron significativamente más altas en las células deficientes de eIF3e que en las células de control. El análisis metagénico reveló que una masa de ribosomas se estancó entre los codones 25 y 75 aguas abajo del codón de inicio, lo que sugiere que el alargamiento de la traducción podría bloquearse temprano en las células deficientes de eIF3e.
Se examinaron los perfiles de densidad de sitios P para marcos de lectura abiertos aguas arriba de PSMA6 y marcos de lectura abiertos aguas abajo del gen SENP3-EIF4A1, demostrando los patrones de periodicidad y densidades de fragmentos protegidos por ribosomas. Es necesario verificar las ubicaciones de las lecturas alrededor de los codones de inicio y parada de las regiones codificantes de proteínas conocidas para evaluar las propiedades periódicas de las lecturas para cada longitud. RiboCode, junto con otra herramienta de línea de comandos, RiboMiner también puede realizar control de calidad y múltiples análisis, como cuantificar y visualizar las ocupaciones de los ribosomas en los marcos de lectura abiertos previstos.
Esta herramienta computacional proporciona una forma de alto rendimiento para identificar eventos de traducción no canónicos con datos de perfiles de ribosomas en contextos fisiológicos específicos, y cómo la traducción se modula en respuesta al estímulo.