Bienvenido al protocolo de análisis de transcriptomas de alto rendimiento para investigar las interacciones huésped-patógeno. Este protocolo se divide en los siguientes pasos. Control de calidad para filtrar lecturas de baja calidad y también para eliminar secuencias adaptadoras Secuenciación y anotaciones, donde hay que mapear las lecturas en genomas de referencia y anotar las lecturas en los genes.
Análisis estadístico y de coexpresión, que define los genes expresados diferencialmente y también encuentra los módulos de coexpresión. Análisis del grado molecular de perturbación para encontrar posibles muestras atípicas. Y finalmente, el análisis funcional para determinar las funciones biológicas de los genes expresados diferencialmente.
Todas las herramientas que utilizan estas canalizaciones fueron preinstaladas en un sistema Linux y encapsuladas en un contenedor Docker. Las muestras que utilizan estos protocolos derivan de un artículo publicado por nuestro grupo en PLOS Pathogen. Las muestras comprenden 20 personas sanas y 39 pacientes infectados con el virus Chikungunya.
Se recogieron las muestras de sangre y se realizó la secuenciación del ARN. Para instalar Docker en el sistema Windows, debe seguir estos pasos. Vaya a la página web oficial de Docker y haga clic en Comenzar.
Busque el instalador de Docker Desktop para Windows. Descargue el archivo. Instale localmente en su máquina.
Asegúrese de que estas dos opciones estén marcadas. Después de instalar el programa, descarga la imagen de Docker para este protocolo. Vaya al terminal de Windows.
Ejecute los comandos para descargar la imagen. Después de descargar la imagen, puede ver el archivo en el escritorio de Docker, y desde esta imagen, podemos iniciar el contenedor. Después de hacer clic en el botón redondo, debe expandir los parámetros y opciones originales para definir el nombre del contenedor y asociar una carpeta en su computadora local con la carpeta dentro de Docker.
Después de esto, haga clic en Ejecutar para iniciar el contenedor. A continuación, puede acceder al terminal, que se encuentra en el sistema Linux dentro de Docker. Escriba los comandos bash y, a continuación, podrá ejecutar todos los comandos de este protocolo.
Primero, tenemos que ejecutar la fuente para que todas las herramientas de este protocolo estén disponibles. Debe acceder a los scripts del directorio. Para realizar un análisis transcriptómico, primero hay que descargar el genoma de referencia.
Para ello, hay que ejecutar los siguientes comandos. Después de descargar el genoma, debe descargar la anotación de los genes. Para ello, tienes que escribir los siguientes comandos.
A continuación, debe configurar el fastq-dump. Esto le permite descargar los archivos de secuenciación de los ejemplos. Después de escribir los siguientes comandos, debe usar el botón Tab para ir a la opción Herramientas y marcar el directorio options currents.
Utilice los botones Tab para guardar y, a continuación, aceptar. Y luego salga de la herramienta fastq-dump. Ahora podemos iniciar las descargas de las lecturas escribiendo los siguientes comandos.
El control de calidad consiste y evalúa gráficamente la probabilidad de errores en las lecturas de secuenciación. En este paso, también debe eliminar las secuencias técnicas, como los adaptadores. Para generar los gráficos de control de calidad, debe ejecutar el programa FastQC.
Para quitar las secuencias del adaptador y las secuencias de baja calidad, debe escribir los siguientes comandos. Con las lecturas de buena calidad, ahora tenemos que mapear las lecturas en el genoma de referencia. Después del mapeo, vamos a tener que anotar los genes de acuerdo con los genes humanos y luego contar el número de lecturas que coinciden con cada gen humano.
El primer paso es indexar el genoma de referencia escribiendo el siguiente comando. Y luego escribimos estos comandos para mapear las lecturas en el genoma humano. A continuación, debe ejecutar los scripts que anotan las lecturas.
Tras el mapeo y la anotación, se puede realizar el análisis de expresión diferencial que consiste en encontrar los genes cuya expresión es mayor o menor en un grupo en comparación con otro. Para identificar los genes expresados diferencialmente, o DEG, debe ejecutar los siguientes comandos. Después de esto, puede transferir los resultados de datos desde Docker a su computadora local.
Para ello, vaya al terminal y escriba los siguientes comandos para guardar todos los resultados en una carpeta local. Para realizar el análisis restante, también debe copiar todos los archivos de los datos del directorio en un directorio en su equipo local. En su computadora local, podrá ver los directorios donde guardó los datos de Docker.
Como puede ver, puede acceder a todas las bibliotecas. También puede abrir el archivo HTML que contiene los informes de control de calidad. También puede acceder a un directorio que contiene los genes expresados diferencialmente.
Y dentro de este directorio, encontrará las gráficas del volcán donde puede ver los genes que están regulados hacia arriba o hacia abajo en un grupo frente a otro, en este caso, pacientes infectados con el virus Chikungunya versus controles sanos. Todos los pasos restantes de este protocolo se ejecutarán en herramientas web utilizando su navegador. Comencemos primero con CEMiTool.
Vaya al navegador y escriba la siguiente dirección. CEMiTool identifica módulos de coexpresión a partir de conjuntos de datos de expresiones proporcionados por los usuarios. En la página principal, puede ir al menú y hacer clic en el botón Ejecutar.
Esto abrirá una nueva página donde puede cargar el archivo de expresión. Este archivo se encuentra en los datos del directorio del equipo local. Verás que hay tres archivos de expresión, y el que vamos a utilizar para el CEMiTool es una llamada de normalización tmm.
Luego debe seleccionar el archivo de fenodatos, lo mismo para el archivo que contiene las interacciones proteína-proteína, y finalmente, cargar el archivo que contiene los conjuntos de genes o vías. El archivo de conjuntos de genes permite a CEMiTool realizar análisis de enriquecimiento para cada uno de los módulos de coexpresión. A continuación, debe expandir la sección de parámetros y hacer clic en Aplicar VST.
Después de eso, puede hacer clic en Ejecutar CEMiTool. Después de ejecutar CEMiTool, verá que se identificaron 12 módulos de coexpresión. Haciendo clic aquí, puede descargar todos los resultados de estos análisis.
Otra herramienta que vamos a utilizar en este protocolo es MDP, o Grado Molecular de Perturbación. Simplemente escriba en su navegador mdp.sysbio.tools. MDP calcula la distancia molecular de cada muestra en comparación con un grupo de referencia de muestras, en este caso, los controles sanos, con el fin de encontrar no solo valores atípicos potenciales, sino también qué tan perturbadas están cada muestra en comparación con este grupo.
En la página Ejecutar, puede cargar el archivo de expresión haciendo clic en el botón y seleccionando el archivo. Luego tienes que subir el archivo phenodata. A continuación, debe definir qué columna contiene la información sobre el grupo o la clase y, a continuación, qué clase o grupo corresponde al grupo de control.
Después de esto, puede ejecutar MDP. El gráfico de barras muestra para cada una de las muestras como una barra la puntuación del grado molecular de perturbación, y los colores representan los diferentes grupos. Y el diagrama de caja es otra forma de visualizar los mismos resultados donde se ve en cada punto que es una muestra diferente separada por dos grupos.
Para realizar el análisis funcional, vamos a utilizar la herramienta Enrichr. Para esto, debe seleccionar la lista de genes que se expresaron diferencialmente, ya sea regulada hacia arriba o hacia abajo, y usarla como una lista de genes de entrada en la herramienta Enrichr. Verás que hay diferentes pestañas.
Todos los resultados también se pueden descargar en su computadora local. El entorno informático para el análisis del transcriptoma se ha colocado en la plataforma Docker. Este enfoque permite a los usuarios sin experiencia previa con el sistema Linux utilizar un terminal.
En este contenedor, hay una estructura de carpetas predefinida para el conjunto de datos y los scripts que son necesarios para todo el análisis. En la tubería, los usuarios utilizarán datos de transcriptoma de sangre de 20 individuos sanos y 39 pacientes infectados agudamente con el virus Chikungunya. La plataforma de secuenciación devuelve un conjunto de archivos FASTQ que contienen la secuencia de ADN, es decir,
las lecturas y la calidad asociada para cada base de nucleótidos. La escala de calidad de Phred indica la probabilidad de una lectura incorrecta para cada base. Las herramientas identifican y eliminan lecturas de baja calidad de las muestras y aumentan la probabilidad de lecturas de mapeo.
En este paso, el módulo de mapeo, las lecturas de alta calidad recuperadas se utilizan como entradas para alinearlas con el genoma humano de referencia. CEMiTool identifica y analiza módulos de coexpresión. Los genes dentro del mismo módulo se coexpresan, lo que significa que exhiben patrones similares de expresión en las muestras de los conjuntos de datos.
El análisis de red proporciona información sobre los genes más conectados, es decir, los hubs. Los nombres de esos genes se muestran en la red.
El tamaño de los nodos es proporcional a su grado de conectividad. Los resultados obtenidos del análisis DEG se resumieron en las gráficas de volcanes. El análisis del grado molecular de perturbación permite la identificación de muestras perturbadas de individuos sanos e infectados.
MDP sugiere qué muestras son valores atípicos biológicos potenciales. La eliminación de esas muestras afectará a los resultados posteriores. Se puede realizar un análisis de enriquecimiento funcional utilizando AURA con la herramienta Enrichr.
Estos pasos ayudan a interpretar los resultados al revelar las funciones funcionales comunes de varios genes que se expresaron de manera diferencial. El proceso biológico que se muestra en los gráficos de barras son los 10 mejores conjuntos de genes enriquecidos en función de su clasificación de valor p. En conclusión, estos protocolos cubren todos los pasos del análisis de ARN-Seq.
La tubería fue desarrollada y encapsulada en el sistema no comercial llamado Docker. En una imagen y puesta a disposición de la comunidad científica. Debido al sistema de contenedores, todos los scripts y herramientas están bajo la misma versión específica para garantizar la reproducibilidad.
Además, partes del análisis bioinformático se realizaron a través de herramientas web gratuitas y fáciles de usar.