Ons protocol biedt een stapsgewijze maatregel voor het bouwen van een cloudgebaseerd phrase mining-platform voor door de gebruiker gedefinieerde entiteitscategoriekoppeling, om de associatie van eiwitten, genomen of chemische stoffen met specifieke ziekten te evalueren. De belangrijkste voordelen van deze techniek zijn de verbeterde efficiëntie ten opzichte van handmatige entiteit categorie vereniging evaluatie, verbeterde toegankelijkheid en het gebruik van phrase mining tools voor wijdverbreide biomedische onderzoekstoepassingen. Gebruikers kunnen entiteiten en categorieën van belang selecteren in biomedische publicaties of in tekstdocumenten die zijn gekoppeld aan specifieke zoekwoorden.
Nieuwe gebruikers kunnen ons protocol en de referenties in het manuscript volgen, en ze kunnen technische problemen aan de orde stellen binnen onze GitHub-repository. Visuele demonstratie van deze kwestie voegt meer duidelijkheid toe aan hoe het protocol uit te voeren, en moedigt de implementatie van nieuwe tekstminningtools aan. Als u een tekstkubus wilt maken, downloadt u eerst de meest recente beschikbare medische onderwerpkoppen of een gaasstructuur.
De code voor mesh tree 2018 is MESHTree2018. opslaglocatie en moet worden ingevoerd in de invoermap. Definieer de interessecategorieën met behulp van een of meer mesh-beschrijvingen en verzamel mesh-id's voor een categorie.
Sla de namen van de categorieën in de textcube_config op. json-bestand in de config-map en voeg de verzamelde categorieën van de mesh-id's toe in een regel die is gescheiden door een spatie. Sla het categoriebestand op als categorieën.
txt in de invoermap. Dit algoritme selecteert automatisch alle afstammelingengaasbeschrijvingen. Zorg ervoor dat mesh2pmid.
json staat in de gegevensmap. Als de netstructuur is bijgewerkt met een andere naam in de invoermap, controleert u of dit correct wordt weergegeven in het invoergegevenspad in de run_textcube. py-bestand.
Als u een documentstructuur wilt maken die tekstkubus wordt genoemd, voert u python run_textcube in. py in de terminal om een verzameling van documenten voor elke categorie te maken. Een enkel document kan onder meerdere categorieën vallen.
Zodra de stap voor het maken van de tekstkubus is voltooid, moet u ervoor zorgen dat een cel in de PMID-tabel wordt opgeslagen in de gegevensmap als textcube_cell2pmid.json. Een PMID naar de celtoewijzingstabel wordt opgeslagen in de gegevensmap als textcube_pmid2cell.json. Een verzameling van alle nakomelingsgaastermen voor een cel wordt opgeslagen in de gegevensmap als meshterms_per_cat.json.
En de tekstkubusgegevensstatistieken worden opgeslagen in de gegevensmap als textcube_stat.txt. Ga vervolgens naar de logmap om de logboekberichten in textcube_log te lezen. txt, in het geval dit proces mislukt.
Als het proces is voltooid, worden de foutopsporingsberichten van de tekstkubuscreatie afgedrukt in het logboekbestand. Maak voor een entiteitstelling door gebruikers gedefinieerde entiteiten, waarbij één entiteit en de afkortingen ervan in één regel worden ingedeeld, gescheiden door het verticale lijnsymbool. Sla het entiteitsbestand op als entiteiten.
txt in de invoermap en zorg ervoor dat de Elasticsearch-server wordt uitgevoerd. Als er een geïndexeerde database met de naam PubMed aanwezig is in de Elasticsearch-server, bevestigt u de aanwezigheid van de textcube_pmid2cell. json-bestand in de gegevensmap en voer python-run_entitycount in.
py in de terminal om een entiteitstellingsbewerking uit te voeren. Wanneer alle documenten uit de indexdatabase en het aantal entiteiten in elk document zijn geteld en de PMID's waarin entiteiten zijn gevonden, zijn verzameld, slaat u de uiteindelijke resultaten op als entiteitentelling. txt en entityfound_pmid2cell.
json in de gegevensmap. Open vervolgens de logboekmap om de logboekberichten in de entitycount_log te lezen. txt, in het geval dit proces mislukt.
Als het proces is voltooid, worden de foutopsporingsberichten van het aantal entiteiten afgedrukt in het logboekbestand. Zorg ervoor dat alle invoergegevens zich in de gegevensmap bevinden. Dit zijn de invoergegevens voor de metadata-update.
Voer python-run_metadata_update in om een verzameling metagegevens voor te bereiden. py in de terminal om de metadata bij te werken. Zodra de metagegevens-update is voltooid, moet u ervoor zorgen dat de metadata_pmid2pcount.
json en metadata_cell2pmid. json-bestanden worden opgeslagen in de gegevensmap. Ga naar de logmap om de logboekberichten in de metadata_update_log te lezen.
txt-bestand, voor het geval dit proces mislukt. Als het proces is voltooid, worden de foutopsporingsberichten van de metagegevensupdate afgedrukt in het logboekbestand. Voor contextbewuste semantische online analytische verwerking score berekening, bevestig de aanwezigheid van de metadata_pmid2pcount.
json en metadata_cell2pmid. json-bestanden in de gegevensmap. Dit zijn de invoergegevens voor de scoreberekening.
Voer python run_caseolap_score. py in de terminal om een contextbewuste semantische online analytische verwerkingsscoreberekening van de entiteiten uit te voeren op basis van door de gebruiker gedefinieerde categorieën. De score is het product van integriteit, populariteit en onderscheidend vermogen.
Controleer of de resultaten zijn opgeslagen in de resultatenmap nadat de scoreberekening is voltooid. Ga vervolgens naar de logmap om de logboekberichten in de caseolab_score_log te lezen. txt-bestand, voor het geval dit proces mislukt.
Als het proces is voltooid, worden de foutopsporingsberichten van de caseolabscoreberekening afgedrukt in het logboekbestand. Aan de hand van de verkregen metadata en statistieken van de subcategorieën van de vier zuigelingen,kinderen, adolescenten en volwassenen kunnen een vergelijking worden weergegeven van het aantal documenten tussen de tekstkubuscellen. Hier bevat de subcategorie voor volwassenen het hoogste aantal in alle cellen, waarbij de subcategorieën voor volwassenen en adolescenten het hoogste aantal gedeelde documenten hebben en de entiteit van belang voor deze representatieve analyse bevatten.
Beoordeling van de eiwitleeftijdsgroep vereniging als een context-bewuste semantische online analytische verwerking score, de top 10 eiwitten in verband met de zuigeling, kind, adolescent en volwassen subcategorieën konden worden bepaald. Hier worden verkregen metadata en statistieken voor de subcategorieën voedings- en stofwisselingsziekten getoond. De subcategorie metabole ziekte bevat bijna drie keer zoveel documenten als de voedingsstoornissen subcategorie.
De stofwisselingsziekte en voedingsstoornissen subcategorieën hebben 7, 101 gedeelde documenten. Deze documenten omvatten met name de entiteit die van belang was voor de representatieve studie. Meer dan de helft van alle eiwitten wordt gedeeld tussen de subcategorieën, met bijna de helft van alle geassocieerde eiwitten in de stofwisselingsziekte subcategorie uniek voor die subcategorie, en met de voedingsstoornissen subcategorie vertonen slechts een paar unieke eiwitten.
Onafhankelijke en verschillende categorieën, en een verzameling van alle synoniemen en afkortingen van een entiteit zal de beste resultaten opleveren. Aangezien de koppeling van de entiteitscategorie wordt gepresenteerd als een numerieke waarde, opent dit de deur naar het implementeren van ontbrekende leertechnieken zoals clustering en analyse van principiële componenten. Deze techniek vergemakkelijkt de ontdekking van verborgen of niet eerder geïdentificeerde relaties binnen deze associaties, waardoor de weg wordt vrijgemaakt voor een dieper begrip van biologische processen.