Notre protocole fournit une mesure étape par étape pour la construction d’une plate-forme d’extraction de phrases basée sur le cloud pour l’association de catégories d’entités définies par l’utilisateur, afin d’évaluer l’association de protéines, génomes ou produits chimiques avec des maladies spécifiques. Les principaux avantages de cette technique sont son efficacité accrue par rapport à l’évaluation manuelle des associations de catégories d’entités, l’amélioration de l’accessibilité et l’utilisation d’outils d’extraction de phrases pour des applications de recherche biomédicale généralisées. Les utilisateurs peuvent sélectionner des entités et des catégories d’intérêt dans des publications biomédicales, ou dans des documents texte associés à des mots clés spécifiques.
Les nouveaux utilisateurs peuvent suivre notre protocole et les références fournies dans le manuscrit, et ils peuvent soulever des questions techniques au sein de notre référentiel GitHub. La démonstration visuelle de cette question ajoute plus de clarté à la façon d’exécuter le protocole, et encourage la mise en œuvre de nouveaux outils d’exploration de texte. Pour créer un cube de texte, téléchargez d’abord les derniers titres de sujets médicaux disponibles, ou arbre à mailles.
Le code pour l’arbre à mailles 2018 est MESHTree2018. bin, et doit être entré dans le répertoire d’entrée. Définissez les catégories d’intérêt à l’aide d’un ou de plusieurs descripteurs en maille et recueillez des pièces d’état en maille pour une catégorie.
Enregistrez les noms des catégories dans le textcube_config. json fichier dans l’annuaire config, et ajouter les catégories collectées des ID maille dans une ligne séparée par un espace. Enregistrez le fichier de catégorie en tant que catégories.
txt dans le répertoire d’entrée. Cet algorithme sélectionne automatiquement tous les descripteurs en maille descendante. Assurez-vous que maille2pmid.
json est dans l’annuaire des données. Si l’arbre de maille a été mis à jour avec un nom différent dans le répertoire d’entrée, assurez-vous qu’il est correctement représenté dans le chemin de données d’entrée dans le run_textcube. fichier py.
Pour créer une structure de document appelée cube de texte, entrez python run_textcube. py dans le terminal pour créer une collection de documents pour chaque catégorie. Un seul document peut faire partie de plusieurs catégories.
Une fois l’étape de création du cube de texte terminée, assurez-vous qu’une cellule de la table PMID est enregistrée dans l’annuaire de données textcube_cell2pmid.json. Un PMID à la table de cartographie cellulaire est enregistré dans le répertoire de données textcube_pmid2cell.json. Une collection de tous les termes de maille descendante pour une cellule est enregistrée dans l’annuaire de données meshterms_per_cat.json.
Et les statistiques de données textuelles sont enregistrées dans l’annuaire des données textcube_stat.txt. Ensuite, rendez-vous à l’annuaire du journal pour lire les messages journaux dans textcube_log. txt, au cas où ce processus échouerait.
Si le processus est terminé avec succès, les messages de débogage de la création de cube de texte seront imprimés dans le fichier journal. Pour un nombre d’entités, créez des entités définies par l’utilisateur, plaçant une entité et ses abréviations en une seule ligne, séparées par le symbole de la ligne verticale. Enregistrez le fichier entité en tant qu’entités.
txt dans le répertoire d’entrée, et assurez-vous que le serveur Elasticsearch est en cours d’exécution. Si une base de données indexée appelée PubMed est présente dans le serveur Elasticsearch, confirmez la présence du textcube_pmid2cell. json fichier dans l’annuaire de données, et entrez python run_entitycount.
py dans le terminal pour effectuer une opération de comptage d’entité. Lorsque tous les documents de la base de données de l’indice et le nombre d’entités dans chaque document ont été comptés et que les PMID dans lesquels des entités ont été trouvées ont été collectés, enregistrez les résultats finaux en tant que compte d’entité. txt et entityfound_pmid2cell.
json dans l’annuaire des données. Ensuite, ouvrez l’annuaire journal pour lire les messages journaux dans le entitycount_log. txt, au cas où ce processus échouerait.
Si le processus est terminé avec succès, les messages de débogage du nombre d’entités seront imprimés dans le fichier journal. Assurez-vous que toutes les données d’entrée sont dans l’annuaire des données. Il s’des données d’entrée de la mise à jour des métadonnées.
Pour préparer une collection de métadonnées, entrez python run_metadata_update. py dans le terminal pour mettre à jour les métadonnées. Une fois la mise à jour des métadonnées terminée, assurez-vous que metadata_pmid2pcount.
json et metadata_cell2pmid. les fichiers json sont enregistrés dans l’annuaire de données. Rendez-vous à l’annuaire du journal pour lire les messages journaux dans le metadata_update_log.
fichier txt, en cas d’échec de ce processus. Si le processus est terminé avec succès, les messages de débogage de la mise à jour des métadonnées seront imprimés dans le fichier journal. Pour le calcul sémantique du score de traitement analytique en ligne conscient du contexte, confirmez la présence du metadata_pmid2pcount.
json et metadata_cell2pmid. fichiers json dans l’annuaire de données. Ce sont les données d’entrée pour le calcul du score.
Entrez python run_caseolap_score. py dans le terminal pour effectuer un calcul sémantique du score de traitement analytique en ligne conscient du contexte des entités en fonction des catégories définies par l’utilisateur. La partition est le produit de l’intégrité, de la popularité et du caractère distinctif.
Une fois le calcul de score terminé, confirmez que les résultats sont enregistrés dans l’annuaire des résultats. Ensuite, accédez à l’annuaire journal pour lire les messages journaux dans le caseolab_score_log. fichier txt, en cas d’échec de ce processus.
Si le processus est terminé avec succès, les messages de débogage du calcul du score caseolab seront imprimés dans le fichier journal. À l’aide des métadonnées obtenues et des statistiques des quatre sous-catégories du groupe d’âge des nourrissons, des enfants, des adolescents et des adultes, une comparaison du nombre de documents parmi les cellules textuelles peut être affichée. Ici, la sous-catégorie adulte contient le nombre le plus élevé dans toutes les cellules, les sous-catégories adultes et adolescents ayant le plus grand nombre de documents partagés, et contenant l’entité d’intérêt pour cette analyse représentative.
L’évaluation de l’association de groupe d’âge de protéine en tant que score sémantique context-conscient de traitement analytique en ligne, les 10 protéines principales liées aux sous-catégories infantiles, d’enfant, d’adolescent et d’adulte ont pu être déterminées. Ici, les métadonnées obtenues et les statistiques pour les sous-catégories de maladies nutritionnelles et métaboliques sont montrées. La maladie métabolique de sous-catégorie contient presque trois fois plus de documents que la sous-catégorie des troubles nutritionnels.
Les sous-catégories des maladies métaboliques et des troubles nutritionnels ont 7 101 documents partagés. Ces documents comprenaient notamment l’entité d’intérêt pour l’étude représentative. Plus de la moitié de toutes les protéines sont partagées entre les sous-catégories, avec près de la moitié de toutes les protéines associées dans la sous-catégorie des maladies métaboliques propres à cette sous-catégorie, et avec la sous-catégorie des troubles nutritionnels présentant seulement quelques protéines uniques.
Des catégories indépendantes et distinctes, ainsi qu’une collection de tous les synonymes et abréviations d’une entité fourniront les meilleurs résultats. Étant donné que l’association des catégories d’entités est présentée comme une valeur numérique, cela ouvre la porte à la mise en œuvre de techniques d’apprentissage manquantes telles que le regroupement et l’analyse des composantes principales. Cette technique facilite la découverte de relations cachées ou non identifiées au sein de ces associations, ouvrant la voie à une meilleure compréhension des processus biologiques.