Ce protocole informatique est important car il permet d’étudier les associations entre les composants cellulaires, par exemple, les protéines mitochondriales et leurs associations avec la maladie, telles que rapportées dans les publications biomédicales. CaseOLAP LIFT permet aux enquêteurs d’extraire et d’intégrer des informations à partir de rapports biomédicaux et de bases de connaissances. Organisés sous la forme d’un graphe de connaissances, ces résultats peuvent être exploités pour prédire de nouvelles relations.
Ces résultats de recherche soutiennent la génération d’hypothèses en mettant en évidence une liste hiérarchisée d’associations protéiques et de maladies identifiées et prédites, utiles pour découvrir de nouvelles connaissances sur la pathologie et la thérapeutique de la maladie. Ce flux de travail hautement personnalisable peut être appliqué à n’importe quel composant cellulaire via leur terme GO à n’importe quelle liste de maladies via leur terme MeSH dans n’importe quelle plage de dates de publication. Ce protocole convivial minimise l’expertise informatique requise pour l’analyse.
Le logiciel est publié sous la forme d’un conteneur Docker, ne nécessitant qu’un stockage et des ressources de calcul suffisants pour s’exécuter. Pour commencer, ouvrez la fenêtre du terminal pour télécharger le conteneur docker CaseOLAP LIFT, puis tapez docker pull CaseOLAP slash CaseOLAP_LIFT latest. Créez un répertoire qui stockera toutes les données et la sortie du programme.
Démarrez le conteneur docker avec la commande affichée à l’écran, en remplaçant PATH_TO_FOLDER comme chemin d’accès complet au fichier pour le dossier. Pour lancer Elasticsearch dans le conteneur, ouvrez une nouvelle fenêtre de terminal et tapez la commande affichée à l’écran. Accédez au dossier CaseOLAP_LIFT.
Assurez-vous que les liens de téléchargement et la barre oblique de configuration knowledge_base_links. JSON sont à jour et précis pour la dernière version de chaque ressource de la base de connaissances. Pour déterminer l’ontologie génétique ou le terme GO, rendez-vous sur le site Web généontologie.
org, et trouvez les identificateurs de tous les termes GO. De même, trouvez les catégories de maladies via l’en-tête de sujet médical ou les identifiants MeSH du site Web affiché à l’écran. Pour exécuter le module de prétraitement, indiquez les termes GO étudiés par l’utilisateur à l’aide de l’indicateur C du tiret, les numéros de l’arbre MeSH de la maladie à l’aide de l’indicateur D du tiret, et spécifiez les abréviations à l’aide d’un indicateur de tiret A.
Pour exécuter le module d’exploration de texte, tapez Python, espace CaseOLAP_LIFT. py, espace, text_mining et ajoutez le tiret L pour imputer les sujets des documents non catégorisés, et le tiret T pour télécharger le texte intégral des documents relatifs à la maladie. Assurez-vous que les résultats de l’exploration de texte se trouvent dans le dossier de résultats.
Indiquez les résultats de l’exploration de texte à utiliser pour l’analyse en spécifiant soit analyser toutes les protéines pour inclure toutes les protéines fonctionnellement apparentées, soit analyser les protéines de base pour inclure uniquement les protéines liées au terme GO. Pour identifier les principales protéines et voies pour chaque maladie, les scores CaseOLAP sont transformés en Z-score au sein de chaque catégorie de maladie. Spécifiez l’indicateur Z du tiret pour indiquer un score de seuil spécifié au-dessus duquel les protéines seront considérées comme significatives.
Examinez les résultats de l’analyse et ajustez-les si nécessaire. Ouvrez le fichier z_score_cutoff_table. csv pour afficher le tableau Z-score généré qui contient le nombre de protéines significatives pour chaque catégorie de maladie.
Cela permet d’informer l’utilisateur de sélectionner un seuil de score Z approprié. Ouvrez le dossier de résultats et assurez-vous que les fichiers requis, y compris le dossier généré à partir du prétraitement, s’y trouvent. Vérifiez toutes les protéines dans les dossiers de protéines de base.
Pour concevoir le graphe de connaissances, incluez l’arbre de la maladie MeSH avec l’indicateur include MeSH. Les interactions protéine-protéine de la chaîne avec incluent l’indicateur PPI, les voies de réactome partagées avec l’indicateur include PW et la dépendance du facteur de transcription de GRNdb GTEx avec l’indicateur include TFD. Exécutez le module de construction du graphe de connaissances en spécifiant analyser les protéines de cœur pour n’inclure que les protéines liées au terme GO.
Pour mettre à l’échelle les pondérations des arêtes, utilisez le score Z de l’échelle pour les scores Z non négatifs au lieu des scores CaseOLAP par défaut. Vérifiez la sortie et assurez-vous que les fichiers du graphe de connaissances merged_edges. TSV et merged_nodes.
tsv sont présents. Enfin, tapez la commande affichée à l’écran pour exécuter le script de prédiction du graphe de connaissances afin de prédire les associations de maladies protéiques. Cette figure présente les protéines mitochondriales significatives pour chaque catégorie de maladie.
La transformation du score Z a été appliquée aux scores CaseOLAP dans chaque catégorie afin d’identifier les protéines significatives à l’aide d’un seuil de trois. Le nombre total de protéines significatives pour chaque catégorie de maladie est indiqué au-dessus de chaque diagramme de violon. L’analyse de la voie Reactome de ces protéines a révélé 12 voies significatives pour toutes les maladies.
Un exemple d’application de l’apprentissage profond à un graphe de connaissances spécifique à une maladie est présenté dans cette figure. Les relations cachées entre les protéines et la maladie sont prédites, et les probabilités calculées pour les deux prédictions sont affichées ici avec des valeurs allant de zéro à un, où une indique une prédiction forte. La séquence spécifiée est cruciale pour l’exécution de ce protocole, en particulier les modules de prétraitement et d’exploration de texte.
Ces deux étapes influencent directement l’identification des protéines et des voies supérieures pour chaque maladie, ainsi que la construction du graphe de connaissances spécifique à la maladie. Le graphe de connaissances qui en résulte est efficacement visualisé par des outils de graphe, tels que Neo4j et Cytoscape, et peut être exploité pour des prédictions avancées d’apprentissage profond de nouvelles relations. CaseOLAP LIFT permet d’étudier les associations entre n’importe quel composant cellulaire et n’importe quelle catégorie de maladie.
Le graphe de connaissances qui en résulte et les associations de maladies protéiques classées prennent en charge le traitement du langage naturel et les analyses de suivi basées sur des graphiques.