Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Presentamos un flujo de trabajo flexible y extensible basado en Jupyter-lab para el análisis no supervisado de conjuntos de datos multiómicos complejos que combina diferentes pasos de preprocesamiento, estimación del modelo de análisis factorial multiómico y varios análisis posteriores.
Los mecanismos de las enfermedades suelen ser complejos y se rigen por la interacción de varios procesos moleculares distintos. Los conjuntos de datos complejos y multidimensionales son un recurso valioso para generar más información sobre esos procesos, pero el análisis de dichos conjuntos de datos puede ser un desafío debido a la alta dimensionalidad que resulta, por ejemplo, de diferentes condiciones de enfermedades, puntos de tiempo y ómicas que capturan el proceso a diferentes resoluciones.
Aquí, mostramos un enfoque para analizar y explorar un conjunto de datos multiómicos tan complejo de manera no supervisada mediante la aplicación del análisis factorial multiómico (MOFA) a un conjunto de datos generado a partir de muestras de sangre que capturan la respuesta inmune en síndromes coronarios agudos y crónicos. El conjunto de datos consta de varios ensayos con diferentes resoluciones, incluidos datos de citocinas a nivel de muestra, proteómica de plasma y secuenciación principal de neutrófilos, y datos de secuenciación de ARN de una sola célula (scRNA-seq). Se añade más complejidad al tener varios puntos de tiempo diferentes medidos por paciente y varios subgrupos de pacientes.
El flujo de trabajo de análisis describe cómo integrar y analizar los datos en varios pasos: (1) Preprocesamiento y armonización de datos, (2) Estimación del modelo MOFA, (3) Análisis posterior. En el paso 1 se describe cómo procesar las características de los diferentes tipos de datos, filtrar las características de baja calidad y normalizarlas para armonizar sus distribuciones para un análisis posterior. El paso 2 muestra cómo aplicar el modelo MOFA y explorar las principales fuentes de varianza dentro del conjunto de datos en todas las ómicas y características. En el paso 3 se presentan varias estrategias para el análisis posterior de los patrones capturados, vinculándolos a las condiciones de la enfermedad y a los posibles procesos moleculares que gobiernan esas condiciones.
En general, presentamos un flujo de trabajo para la exploración de datos no supervisada de conjuntos de datos multiómicos complejos para permitir la identificación de los principales ejes de variación compuestos por diferentes características moleculares que también se pueden aplicar a otros contextos y conjuntos de datos multiómicos (incluidos otros ensayos presentados en el caso de uso ejemplar).
Los mecanismos de las enfermedades suelen ser complejos y se rigen por la interacción de varios procesos moleculares distintos. Descifrar los complejos mecanismos moleculares que conducen a enfermedades específicas o gobiernan la evolución de una enfermedad es una tarea de gran relevancia médica, ya que podría revelar nuevos conocimientos para la comprensión y el tratamiento de las enfermedades.
Los avances tecnológicos recientes permiten medir esos procesos en una resolución más alta (por ejemplo, a nivel de una sola célula) y en varias capas biológicas (por ejemplo, ADN, ARNm, accesibilidad a la cromatina....
1. Preparativos: Configuración técnica e instalación
NOTA: Para ejecutar este programa, tenga wget, git y Apptainer preinstalados en el dispositivo. Aquí se proporciona una guía para instalar Apptainer en diferentes sistemas (Linux, Windows, Mac): https://apptainer.org/docs/admin/main/installation.html. La información de instalación de git se puede encontrar aquí: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. En función del tamaño de los diferentes conjuntos de datos de entrada, se recomienda ejecutar el flujo de trabajo en un equipo adecuado (16 CPU, 64 GB de memoria). Una p....
Después de la ejecución exitosa del flujo de trabajo, se generan varias tablas y figuras como se indica en la Figura 2. Las figuras se colocan en la carpeta /figures (Figura 6, Figura 7, Figura 8, Figura complementaria 1, Figura complementaria 2, Figura complementaria 3, Figura complementaria .......
Con el protocolo descrito, se presenta un flujo de trabajo modular y extensible basado en Jupyter-notebook que se puede utilizar para explorar rápidamente un conjunto de datos multiómico complejo. Las partes principales del flujo de trabajo consisten en la parte de preprocesamiento y armonización de datos (que ofrece diferentes pasos estándar para el filtrado y la normalización de los datos), la estimación del modelo MOFA9 y algunos ejemplos de análisis pos.......
Los autores declaran no tener ningún conflicto de intereses.
C.L. cuenta con el apoyo de la Asociación Helmholtz en el marco de la escuela de investigación conjunta "Munich School for Data Science - MUDS".
....Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoExplorar más artículos
This article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados