Vores protokol giver en trinvis foranstaltning til opbygning af en cloud-baseret sætningsminedriftsplatform til brugerdefineret enhedskategoriforening for at evaluere sammenslutningen af proteiner, genomer eller kemikalier med specifikke sygdomme. De største fordele ved denne teknik er dens forbedrede effektivitet i forhold til manuel enhed kategori forening evaluering, forbedret tilgængelighed og brug af sætning minedrift værktøjer til udbredt biomedicinsk forskning applikationer. Brugerne kan vælge enheder og kategorier af interesse inden for biomedicinske publikationer eller i tekstdokumenter, der er knyttet til bestemte nøgleord.
Nye brugere kan følge vores protokol og referencerne i manuskriptet, og de kan rejse tekniske problemer i vores GitHub repository. Visuel demonstration af dette spørgsmål tilføjer mere klarhed til, hvordan man udfører protokollen, og tilskynder til gennemførelse af nye tekst minedrift værktøjer. Hvis du vil oprette en tekstkube, skal du først hente de seneste tilgængelige overskrifter for medicinske emner eller masketræ.
Koden for mesh træ 2018 er MESHTree2018. og skal indtastes i inputmappen. Definer de interessekategorier, der bruger en eller flere maskebeskrivelser, og saml maske-id'er for en kategori.
Gem navnene på kategorierne i textcube_config. json-filen i config-mappen, og tilføj de indsamlede kategorier af maske-id'er på en linje adskilt af et mellemrum. Gem kategorifilen som kategorier.
txt i inputmappen. Denne algoritme vælger automatisk alle underordnede maskebeskrivelser. Sørg for, at mesh2pmid.
json er i datamappen. Hvis masketræet er blevet opdateret med et andet navn i inputmappen, skal du kontrollere, at dette er korrekt repræsenteret i inputdatastien i run_textcube. py-filen.
Hvis du vil oprette en dokumentstruktur kaldet tekstkube, skal du angive python run_textcube. i terminalen for at oprette en samling dokumenter for hver kategori. Et enkelt dokument kan falde ind under flere kategorier.
Når trinnet til oprettelse af tekstkube er fuldført, skal du kontrollere, at en celle til PMID-tabellen er gemt i datamappen textcube_cell2pmid.json. Der gemmes et PMID til celletilknytningstabellen i datamappen textcube_pmid2cell.json. En samling af alle underordnede masketermer for en celle gemmes i datamappen meshterms_per_cat.json.
Og datastatistikken for tekstkube gemmes i datamappen textcube_stat.txt. Gå derefter til logmappen for at læse logmeddelelserne i textcube_log. txt, hvis denne proces mislykkes.
Hvis processen er fuldført, udskrives fejlfindingsmeddelelserne i oprettelsen af tekstkuben i logfilen. For et objektantal skal du oprette brugerdefinerede objekter, placere ét objekt og dets forkortelser på en enkelt linje adskilt af symbolet for den lodrette linje. Gem objektfilen som objekter.
txt i inputmappen, og sørg for, at Elasticsearch-serveren kører. Hvis der findes en indekseret database med titlen PubMed på Elasticsearch-serveren, skal du bekræfte tilstedeværelsen af textcube_pmid2cell. json-filen i datamappen, og indtast python run_entitycount.
i terminalen for at udføre en enhedsantaloperation. Når alle dokumenter fra indeksdatabasen og antallet af objekter i hvert dokument er talt op, og de PMID'er, som objekterne blev fundet i, er blevet indsamlet i, skal du gemme de endelige resultater som enhedsoptælle. txt og entityfound_pmid2cell.
json i datamappen. Åbn derefter logmappen for at læse logmeddelelserne i entitycount_log. txt, hvis denne proces mislykkes.
Hvis processen er fuldført, udskrives fejlfindingsmeddelelserne for objektoptællingen i logfilen. Sørg for, at alle inputdata findes i datamappen. Dette er inputdataene til metadataopdateringen.
Hvis du vil forberede en samling metadata, skal du angive python run_metadata_update. i terminalen for at opdatere metadataene. Når metadataopdateringen er fuldført, skal du sørge for, at metadata_pmid2pcount.
json og metadata_cell2pmid. json-filer gemmes i datamappen. Gå til logmappen for at læse logmeddelelserne i metadata_update_log.
txt-fil, hvis denne proces mislykkes. Hvis processen er fuldført, udskrives fejlfindingsmeddelelserne i metadataopdateringen i logfilen. For kontekstafhængig semantisk online analytisk behandling score beregning, bekræfte tilstedeværelsen af metadata_pmid2pcount.
json og metadata_cell2pmid. json-filer i datamappen. Dette er inputdataene for scoreberegningen.
Indtast python run_caseolap_score. i terminalen for at udføre en kontekstafhængig semantisk onlineanalyseberegning af enhederne baseret på brugerdefinerede kategorier. Scoren er et produkt af integritet, popularitet og særpræg.
Når scoreberegningen er fuldført, skal du bekræfte, at resultaterne gemmes i resultatmappen. Få derefter adgang til logmappen for at læse logmeddelelserne i caseolab_score_log. txt-fil, hvis denne proces mislykkes.
Hvis processen er fuldført, udskrives fejlfindingsmeddelelserne i caseolab-scoreberegningen i logfilen. Ved hjælp af de opnåede metadata og statistikker fra de fire børn, børn, unge og voksne aldersgrupper kan der vises en sammenligning af antallet af dokumenter mellem tekstkubecellerne. Her indeholder den voksne underkategori det højeste antal på tværs af alle celler, hvor underkategorierne voksne og unge har det højeste antal delte dokumenter, og som indeholder den enhed, der er af interesse for denne repræsentative analyse.
Vurdering af protein aldersgruppen forening som en kontekst-aware semantisk online analytisk behandling score, top 10 proteiner forbundet med spædbarn, barn, unge og voksne underkategorier var i stand til at bestemmes. Her vises opnåede metadata og statistikker for underkategorierne for ernærings- og metaboliske sygdomme. Underkategorien metaboliske sygdom indeholder næsten tre gange så mange dokumenter som de ernæringsmæssige lidelser underkategori.
De metaboliske sygdomme og ernæringsforstyrrelser underkategorier har 7, 101 delte dokumenter. Disse dokumenter omfattede navnlig den enhed, der var af interesse for den repræsentative undersøgelse. Mere end halvdelen af alle proteiner deles mellem underkategorierne, med næsten halvdelen af alle de tilknyttede proteiner i den metaboliske sygdom underkategori, der er unik for denne underkategori, og med underkategorien af ernæringsforstyrrelser, der kun udviser nogle få unikke proteiner.
Uafhængige og særskilte kategorier og en samling af alle synonymer og forkortelser for en enhed vil give de bedste resultater. Da enhedskategoritilknytning præsenteres som en numerisk værdi, åbner dette døren for implementering af manglende læringsteknikker som f.eks. Denne teknik letter opdagelsen af skjulte eller tidligere uidentificerede relationer inden for disse foreninger, hvilket baner vejen for en dybere forståelse af biologiske processer.