Tutorial de análisis computacional para ARN quimérico pequeño no codificante: bibliotecas de secuenciación de ARN diana

Sreenivas Eadara; Xinbei Li; Emily A. Eiss; Mollie K. Meffert

doi:10.3791/65779

Autores

Contáctenos

Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

Method Article

Tutorial de análisis computacional para ARN quimérico pequeño no codificante: bibliotecas de secuenciación de ARN diana

DOI:

10.3791/65779

⸱

December 1st, 2023

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert¹^,²

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Please note that all translations are automatically generated. Click here for the English version.

Resumen

Aquí, presentamos un protocolo que demuestra la instalación y el uso de una tubería bioinformática para analizar los datos de secuenciación de ARN quimérico utilizados en el estudio de las interacciones ARN:ARN in vivo .

Resumen

En los últimos años se ha avanzado en la comprensión de las interacciones reguladoras génicas in vivo de los pequeños ARN no codificantes (sncRNA), como los microARN (miARN), con sus ARN diana mediante enfoques bioquímicos que utilizan la reticulación seguida de la ligadura para capturar interacciones entre el ARN y el ARN diana a través de la formación de ARN quiméricos y las bibliotecas de secuenciación posteriores. Si bien los conjuntos de datos de secuenciación de ARN quimérico proporcionan información de todo el genoma y sustancialmente menos ambigua que el software de predicción de miARN, destilar estos datos en información significativa y procesable requiere análisis adicionales y puede disuadir a los investigadores que carecen de una formación computacional. Este informe proporciona un tutorial para ayudar a los biólogos computacionales de nivel básico a instalar y aplicar una herramienta de software de código abierto reciente: Small Chimeric RNA Analysis Pipeline (SCRAP). Se proporcionan los requisitos de la plataforma, las actualizaciones y una explicación de los pasos de la canalización y la manipulación de las variables clave de entrada del usuario. Reducir una barrera para que los biólogos obtengan información de los enfoques de secuenciación de ARN quimérico tiene el potencial de impulsar investigaciones basadas en el descubrimiento de interacciones reguladoras entre el ARNnc y el ARN objetivo en múltiples contextos biológicos.

Introducción

Los pequeños ARN no codificantes están muy estudiados por sus funciones postranscripcionales en la coordinación de la expresión de conjuntos de genes en diversos procesos como la diferenciación y el desarrollo, el procesamiento de señales y la enfermedad ^1,2,3. La capacidad de determinar con precisión las transcripciones diana de los pequeños ARN no codificantes (sncRNA) reguladores de genes, incluidos los microARN (miARN), es importante para los estudios de la biología del ARN tanto a nivel básico como traslacional. Los algoritmos bioinformáticos que explotan la complementariedad anticipada entre la secuencia de semillas de miARN y sus posibles dianas se han utilizado con frecuencia para la predicción de las interacciones entre el ARN y el ARN diana. Si bien estos algoritmos bioinformáticos han tenido éxito, también pueden albergar resultados falsos positivos y falsos negativos, como se ha revisado en otros lugares ^4,5,6. Recientemente, se han diseñado e implementado varios enfoques bioquímicos que permiten la determinación inequívoca y semicuantitativa de las interacciones in vivo entre el ARNnc y el ARN diana mediante reticulación in vivo y la consiguiente incorporación de un paso de ligadura para unir físicamente el ARNnc a su diana para formar un único ARN quimérico 4,5,7,8,9,10 . La preparación posterior de bibliotecas de secuenciación a partir de los ARN quiméricos permite la evaluación de las interacciones entre el ARN snc y el ARN diana mediante el procesamiento computacional de los datos de secuenciación. Este vídeo proporciona un tutorial para instalar y utilizar una canalización computacional denominada canalización de análisis de ARN quimérico pequeño (SCRAP), que está diseñada para permitir un análisis robusto y reproducible de las interacciones entre el ARNnc y el ARN diana a partir de bibliotecas de secuenciación de ARN quimérico⁶.

Uno de los objetivos de este tutorial es ayudar a los investigadores a evitar la dependencia excesiva de algoritmos bioinformáticos puramente predictivos mediante la reducción de las barreras para el análisis de los datos generados a través de enfoques bioquímicos que proporcionan lecturas moleculares quiméricas de las interacciones entre el ARN y el ARN objetivo. Este tutorial proporciona pasos prácticos y consejos para guiar a los científicos computacionales de nivel básico a través del uso de una tubería, SCRAP, desarrollada para analizar datos de secuenciación de ARN quimérico, que pueden ser generados por varios protocolos bioquímicos existentes, incluida la reticulación, ligadura y secuenciación de híbridos (CLASH) y la ligadura covalente de ARN endógenos unidos a argonauta, reticulación e inmunoprecipitación (CLEAR-CLIP)^7,9.

El uso de SCRAP ofrece varias ventajas para el análisis de datos de secuenciación de ARN quimérico, en comparación con otras tuberías computacionales⁶. Una ventaja destacada es su amplia anotación y la incorporación de llamadas a scripts bioinformáticos bien soportados y actualizados rutinariamente dentro de la canalización, en comparación con las canalizaciones alternativas que a menudo se basan en scripts personalizados y/o no admitidos para los pasos de la canalización. Esta característica le da estabilidad a SCRAP, lo que hace que valga más la pena que los investigadores se familiaricen con la canalización e incorporen su uso en su flujo de trabajo. También se ha demostrado que SCRAP supera a las canalizaciones alternativas en la llamada a los picos de las interacciones entre el ARNnc y el ARN diana y que tiene funcionalidad multiplataforma, como se detalla en una publicación anterior⁶.

Al final de este tutorial, los usuarios podrán (i) conocer los requisitos de la plataforma para SCRAP e instalar canalizaciones de SCRAP, (ii) instalar genomas de referencia y configurar parámetros de línea de comandos para SCRAP, y (iii) comprender los criterios de llamada de picos y realizar llamadas de picos y anotaciones de picos.

Este vídeo describirá en detalle práctico cómo los investigadores que estudian la biología del ARN pueden instalar y utilizar de forma óptima la tubería computacional, SCRAP, para analizar las interacciones del sncRNA con los ARN diana, como los ARN mensajeros, en los datos de secuenciación de ARN quimérico obtenidos a través de uno de los enfoques bioquímicos discutidos para la preparación de la biblioteca de secuenciación.

SCRAP es una utilidad de línea de comandos. Por lo general, siguiendo la guía que se indica a continuación, el usuario deberá (i) descargar e instalar SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) instalar genomas de referencia y ejecutar SCRAP, y (iii) realizar llamadas y anotaciones máximas.

Se pueden encontrar más detalles de los pasos computacionales de este procedimiento en https://github.com/Meffert-Lab/SCRAP. Este artículo proporcionará la configuración y la información básica para permitir a los investigadores con habilidades computacionales de nivel básico instalar, optimizar y usar SCRAP en conjuntos de datos de bibliotecas de secuenciación de ARN quimérico.

Access restricted. Please log in or start a trial to view this content.

Protocolo

NOTA: El protocolo comenzará con la descarga e instalación del software necesario para analizar las bibliotecas de secuenciación de ARN quimérico utilizando SCRAP.

1. Instalación

Antes de instalar SCRAP, instale las dependencias Git y Miniconda en la máquina que se utilizará para los análisis. Es probable que Git ya esté instalado. En la plataforma Mac OSX, por ejemplo, verifique esto usando qué git para ver que la utilidad " git " está presente e instalada en este directorio. Compruebe si Miniconda está instalado con qué conda. Si no se devuelve nada, instale Miniconda. Miniconda requiere 400 MB de espacio en disco para instalarse.
1. Hay algunos métodos para instalar Miniconda y difieren según la plataforma. Consulte el archivo de rebajas PLATFORM-SETUP en el repositorio de GitHub de Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md], donde hay más instrucciones para instalar en Windows, MacOS y Ubuntu. Para los usuarios de Linux, Linux tiene su propio administrador de paquetes predeterminado (apt). En el caso específico de este estudio, utilice el comando brew install Miniconda para instalar Miniconda utilizando un administrador de paquetes existente, brew.
  NOTA: 'Homebrew', denominado 'brew', es un sistema de gestión de paquetes de software de código abierto que simplifica la instalación de software en el sistema operativo de Apple, macOS.
2. Si conda se instala por primera vez, ejecute conda init para el shell concreto que está en uso. En el ejemplo aquí, ese shell en uso es zsh. A continuación, cierre y vuelva a abrir el cascarón. Si Conda se instaló correctamente, se verá el entorno base activado dentro de la sesión de terminal.
Descargue el código fuente de SCRAP e instale sus dependencias.
1. El método preferido para obtener el código fuente de SCRAP es usar Git. Para acceder a esto, ejecute git clone https://github.com/Meffert-Lab/SCRAP para obtener la copia más reciente del código fuente.
2. Instale mamba, un solucionador de paquetes mejorado para conda, e instale todas las dependencias de SCRAP desde SCRAP_environment.yml a su propio entorno de Conda mediante los siguientes comandos:
  conda install -n base conda-forge::mamba
  mamba env create -f SCRAP/SCRAP_environment.yml -n SCRAP
A continuación, ejecute la instalación de referencia para SCRAP. Los argumentos utilizados en la instalación de referencia serán específicos del organismo cuyas interacciones sncRNA-mRNA se están analizando.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m has -g hg38 -s human
1. Proporcione el directorio de la carpeta de origen de SCRAP para la instalación de referencia. A continuación, los pasos de instalación se realizarán utilizando los archivos de las carpetas fasta y annotation . Enumere la ruta completa sin ninguna taquigrafía. Termina con una barra oblicua.
2. Consulte las tablas de README.md para conocer las abreviaturas correctas de las especies de miRbase. Los genomas de referencia actualizados se pueden encontrar en https://genome.ucsc.edu/ o https://www.ncbi.nlm.nih.gov/data-hub/genome/. En este ejemplo, hg38 se usará para el genoma GRCm38 del ratón.
3. Las especies actualmente incluidas para la anotación son el ser humano, el ratón y el gusano. Vea los archivos species.annotation.bed correspondientes en el directorio de anotaciones de la carpeta de origen de SCRAP. Si se desea el uso de una especie diferente para el análisis, proporcione un archivo annotation.bed que siga el mismo esquema de nomenclatura species.annotation.bed.

2. Ejecución de SCRAP

Ahora que las dependencias y SCRAP están instalados, ejecute el script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/path/to/CLASH_Human/ -a full/path/to/CLASH_Human/CLASH_Human_Adapters.txt -p no -f yes -r full/path/to/SCRAP/ -m has -g hg38
1. Enumere la ruta completa a los directorios de ejemplo sin ninguna abreviatura. Dé formato a los directorios de ejemplo con el nombre de la carpeta que coincida exactamente con el nombre de la muestra, como se muestra en la figura 1.
2. Tenga en cuenta que la ruta de acceso que aparece en la lista es la ruta de acceso al directorio que contiene todas las carpetas de ejemplo, no la ruta de acceso a ninguna carpeta de ejemplo individual o a un archivo de muestra (consulte la línea de comandos en el paso 2.1).
3. A continuación, enumere la ruta de acceso completa al archivo de adaptador. Asegúrese de que los nombres de ejemplo en el archivo adaptador coincidan con los nombres de carpeta y los nombres de archivo mencionados anteriormente (consulte la línea de comandos en el paso 2.1).
4. Indique si las muestras están emparejadas y si se realizará o no el filtrado de pre-miRNAs y/o tRNAs. Agregue un filtro para la limpieza del ARNr si lo desea (consulte la línea de comandos en el paso 2.1).
  NOTA: Los usuarios pueden o no decidir utilizar estos filtros dependiendo de los tipos de muestra y los objetivos experimentales. Dependiendo del diseño experimental, los pre-miARN, los ARNt y los ARNr pueden consumir la profundidad de secuenciación disponible para quimeras reales de sncRNA:ARN diana y los usuarios pueden emplear filtros para excluirlos. Sin embargo, es posible que los usuarios deseen evitar dicho filtrado en ciertas circunstancias (por ejemplo, mapeando objetivos de sncRNA al genoma mitocondrial, que contiene ARNr mitocondriales).
5. A continuación, enumere la ruta completa al directorio de referencia, la abreviatura miRbase y la abreviatura del genoma de referencia (consulte la línea de comandos en el paso 2.1).
  NOTA: El script puede tardar unas horas en completarse, según el tamaño del conjunto de datos y la CPU del equipo que se esté utilizando.

3. Llamada de picos y anotación

Una vez que SCRAP haya terminado de ejecutarse, compruebe que la salida incluya, entre otros archivos, un archivo SAMPLE.aligned.unique.bam. Se trata de un archivo binario que contiene alineaciones de ARN diana en el genoma de referencia proporcionado por el usuario.
Ahora realice llamadas máximas ejecutando Peak_Calling.sh.
bash SCRAP/bin/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r SCRAP/ -m has -g hg38
NOTA: La llamada de picos es una característica de SCRAP, que está diseñada para permitir a los investigadores evaluar fácilmente las interacciones de ARN:ARN diana pequeñas más robustas y reproducibles dentro de sus bibliotecas de ARN quimérico. Esta característica, por ejemplo, puede ayudar a los investigadores a identificar las interacciones que pueden querer seleccionar para una mayor investigación. El paso 3.2.2 a continuación describe cómo el usuario establece los criterios que desea que se utilicen para definir la rigurosidad con la que se llama a un pico, esto incluye el número de interacciones únicas, o lecturas de secuenciación, que deben haber ocurrido para que se llame al pico, así como el número de bibliotecas en las que debe haber ocurrido esta interacción en particular.
1. De nuevo, enumere las rutas completas al directorio que contiene las carpetas de ejemplo y el archivo adaptador (consulte la línea de comandos en el paso 3.2).
2. A continuación, establezca el número mínimo de lecturas de secuenciación necesarias para que se llame a un pico (consulte la línea de comandos en el paso 3.2).
3. Establezca el número mínimo de bibliotecas de secuenciación distintas que deben contener un pico para que se llame (consulte la línea de comandos en el paso 3.2).
  NOTA: La elección de los valores para los puntos 3.2.2 y 3.2.3 dependerá de la naturaleza de las muestras secuenciadas y del número de muestras o tipos de muestras. Aquí, se requieren al menos 3 lecturas de secuenciación quimérica en una muestra para llamar a un pico, y el pico debe estar respaldado por al menos 2 muestras. Un investigador que evalúe un conjunto de datos en el que hay muchas réplicas de bibliotecas de secuenciación para una condición determinada, por ejemplo, podría decidir requerir la presencia de las lecturas en un mayor número de bibliotecas de secuenciación de muestras.
4. Indique si los sncRNAs de la misma familia deben contribuir al mismo pico. Por ejemplo, dado que los miARN de la misma familia comparten secuencias de semillas, estos miARN pueden unirse a conjuntos compartidos y superpuestos de dianas génicas; Es posible que un usuario desee identificar el impacto total de una familia en estos objetivos mediante la evaluación de sus picos colectivos (consulte la línea de comandos en el paso 3.2).
5. A continuación, indique la ruta completa al directorio de referencia, la abreviatura miRBase y la abreviatura del genoma de referencia (consulte la línea de comandos en el paso 3.2).
Una vez completada la llamada máxima, ejecute la anotación máxima.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s human
1. Enumere la ruta completa al archivo peaks.bed (o peaks.family.bed) resultante de la llamada a picos, la ruta completa al directorio de referencia y la especie deseada para la anotación.

4. Visualización de los datos

NOTA: Todos los pasos para el análisis con SCRAP ya se han completado. Para visualizar los datos, se recomiendan varios enfoques:

Combine todos los archivos .bam (archivo SAM binario) que se desea visualizar juntos (samtools merge).
Ordene el archivo .bam combinado resultante (samtools sort). El contenido de los archivos se ordena línea por línea para que samtools pueda indexarse.
Indexe el archivo .bam ordenado (índice samtools). Se genera un archivo BAI (índice de formato samtools binario) para permitir la visualización en el visor de genómica integrativa (IGV).
Por último, abra el archivo .bam e indexado .bai ordenado resultante en IGV.
NOTA: Las interacciones de ARN diana de interés pueden priorizarse para el seguimiento de varias maneras específicas de la investigación. Un enfoque inicial genérico consiste en evaluar las interacciones para las que los picos son compatibles con las lecturas de secuenciación más quiméricas. Las interacciones de interés también se pueden visualizar utilizando el servidor web DuplexFold del paquete RNAstructure ingresando la secuencia tanto para el sncRNA como para el ARN diana de la interacción detectada¹¹. Para cada pico, el cromosoma (primera columna) y las coordenadas genómicas (inicio: 1ª columna final: 2ª columna) se pueden encontrar dentro del archivo peaks.bed.species.annotation.txt generado en la anotación del pico. En el caso de los miARN en particular, mientras que las interacciones reproducibles y funcionales pueden carecer de una unión extensa a la compatibilidad con la semilla (por ejemplo, las interacciones pueden utilizar la unión compensatoria 3'), la presencia de sitios compatibles con la semilla en un motivo de unión afín del ARN diana puede, no obstante, evaluarse como una característica de validación de las interacciones detectadas funcionalmente importantes ^4,12. El procesamiento auxiliar de datos podría incluir comparaciones de la cobertura de lectura diferencial entre picos en distintas condiciones biológicas y, potencialmente, la evaluación de la agrupación de genes regulados en vías utilizando una herramienta de análisis de vías.

Access restricted. Please log in or start a trial to view this content.

Resultados

En la Figura 2 y en la Tabla 1 se muestran los resultados de sncRNA:ARN diana detectados por una versión modificada de SCRAP (versión 2.0 de SCRAP, que implementa modificaciones para el filtrado de ARNr) en conjuntos de datos de secuenciación publicados previamente preparados con CLEAR-CLIP⁹. Los usuarios pueden apreciar la disminución de las interacciones relativas de miARN de fracción con las regiones de intrones que se produce tras el aislamie...

Access restricted. Please log in or start a trial to view this content.

Discusión

Este protocolo sobre el uso de la canalización SCRAP para el análisis de las interacciones entre el ARN y el ARN objetivo está diseñado para ayudar a los investigadores que se adentran en el análisis computacional. Se espera que la finalización del tutorial guíe a los investigadores con experiencia computacional de nivel básico o superior a través de los pasos necesarios para la instalación y el uso de esta tubería y su aplicación para analizar los datos obtenidos de las bibliotecas de secuenciación de ARN q...

Access restricted. Please log in or start a trial to view this content.

Divulgaciones

Los autores no tienen nada que revelar.

Agradecimientos

Agradecemos a los miembros del laboratorio Meffert por sus útiles discusiones, incluidos BH Powell y WT Mills IV, por sus comentarios críticos sobre la descripción de la instalación e implementación del gasoducto. Este trabajo fue apoyado por un premio de la Fundación Braude, el Programa de Lanzamiento del Fondo de Investigación de Células Madre de Maryland, el premio Blaustein Endowment for Pain Research and Education, y el RO1NS103974 del NINDS y el RO1MH129292 del NIMH a M.K.M.

Access restricted. Please log in or start a trial to view this content.

Materiales

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

Referencias

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119(2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129(2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864(2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Access restricted. Please log in or start a trial to view this content.

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Este mes en JoVE n mero 202

This article has been published

Video Coming Soon

Keep me updated: