Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Nous présentons un flux de travail flexible et extensible basé sur Jupyter-lab pour l’analyse non supervisée d’ensembles de données multi-omiques complexes qui combine différentes étapes de prétraitement, l’estimation du modèle d’analyse factorielle multi-omique et plusieurs analyses en aval.
Les mécanismes de la maladie sont généralement complexes et régis par l’interaction de plusieurs processus moléculaires distincts. Les ensembles de données complexes et multidimensionnels sont une ressource précieuse pour générer davantage d’informations sur ces processus, mais l’analyse de ces ensembles de données peut être difficile en raison de la grande dimensionnalité résultant, par exemple, de différentes conditions de maladie, de points temporels et de données omiques capturant le processus à différentes résolutions.
Ici, nous présentons une approche permettant d’analyser et d’explorer un ensemble de données multiomiques aussi complexe de manière non supervisée en appliquant l’analyse factorielle multi-omique (MOFA) à un ensemble de données généré à partir d’échantillons de sang qui capturent la réponse immunitaire dans les syndromes coronariens aigus et chroniques. L’ensemble de données se compose de plusieurs tests à différentes résolutions, y compris des données sur les cytokines au niveau de l’échantillon, la protéomique plasmatique et le premier-seq des neutrophiles, et les données de séquençage de l’ARN sur cellule unique (scRNA-seq). À cela s’ajoute la nécessité de mesurer plusieurs points temporels différents par patient et plusieurs sous-groupes de patients.
Le flux de travail d’analyse décrit comment intégrer et analyser les données en plusieurs étapes : (1) Prétraitement et harmonisation des données, (2) Estimation du modèle MOFA, (3) Analyse en aval. L’étape 1 décrit comment traiter les caractéristiques des différents types de données, filtrer les caractéristiques de faible qualité et les normaliser afin d’harmoniser leurs distributions pour une analyse plus approfondie. L’étape 2 montre comment appliquer le modèle MOFA et explorer les principales sources de variance au sein de l’ensemble de données pour toutes les caractéristiques omiques. L’étape 3 présente plusieurs stratégies pour l’analyse en aval des motifs capturés, en les reliant aux conditions de la maladie et aux processus moléculaires potentiels régissant ces conditions.
Dans l’ensemble, nous présentons un flux de travail pour l’exploration non supervisée de données multi-omiques complexes afin de permettre l’identification des principaux axes de variation composés de différentes caractéristiques moléculaires qui peuvent également être appliquées à d’autres contextes et ensembles de données multi-omiques (y compris d’autres tests présentés dans le cas d’utilisation exemplaire).
Les mécanismes de la maladie sont généralement complexes et régis par l’interaction de plusieurs processus moléculaires distincts. Déchiffrer les mécanismes moléculaires complexes qui conduisent à des maladies spécifiques ou régissent l’évolution d’une maladie est une tâche d’une grande pertinence médicale car elle pourrait révéler de nouvelles perspectives pour la compréhension et le traitement des maladies.
Les progrès technologiques récents permettent de mesurer ces processus à une résolution plus élevée (par exemple, au niveau de la cellule unique) et à diverses couches biologiques (par exemple, l’ADN, ....
1. Préparatifs : Configuration technique et installation
REMARQUE : Pour exécuter ce programme, ayez wget, git et Apptainer préinstallés sur l’appareil. Un guide pour l’installation d’Apptainer sur différents systèmes (Linux, Windows, Mac) est donné ici : https://apptainer.org/docs/admin/main/installation.html. Les informations d’installation sur git peuvent être trouvées ici : https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. En fonction de la taille des différents jeux de données d’entrée, il est recommandé d’exécuter le flux de travail sur une machine appropriée (16 CPU, 64 Go....
Après l’exécution réussie du flux de travail, plusieurs tableaux et figures sont générés, comme l’indique la figure 2. Les figures sont placées dans le dossier /figures (Figure 6, Figure 7, Figure 8, Figure supplémentaire 1, Figure supplémentaire 2, Figure supplémentaire 3, Figure .......
Avec le protocole décrit, un flux de travail modulaire et extensible basé sur un bloc-notes Jupyter qui peut être utilisé pour explorer rapidement un ensemble de données multi-omiques complexe est présenté. Les principales parties du flux de travail consistent en la partie prétraitement et harmonisation des données (offrant différentes étapes standard pour le filtrage et la normalisation des données), l’estimation du modèle MOFA9 et une analyse en a.......
Les auteurs ne déclarent aucun conflit d’intérêts.
C.L. est soutenu par l’Association Helmholtz dans le cadre de l’école de recherche commune « Munich School for Data Science - MUDS ».
....Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationExplorer plus d’articles
This article has been published
Video Coming Soon