Abstract
Biochemistry
De hurtigt voksende og store mængder biomedicinske rapporter, der hver indeholder adskillige enheder og rig information, repræsenterer en rig ressource til biomedicinske tekstminingapplikationer. Disse værktøjer gør det muligt for efterforskere at integrere, konceptualisere og oversætte disse opdagelser for at afdække ny indsigt i sygdomspatologi og terapi. I denne protokol præsenterer vi CaseOLAP LIFT, en ny beregningspipeline til undersøgelse af cellulære komponenter og deres sygdomsforeninger ved at udtrække brugervalgte oplysninger fra tekstdatasæt (f.eks. Biomedicinsk litteratur). Softwaren identificerer subcellulære proteiner og deres funktionelle partnere i sygdomsrelevante dokumenter. Yderligere sygdomsrelevante dokumenter identificeres via softwarens etiketimputationsmetode. For at kontekstualisere de resulterende proteinsygdomsforeninger og integrere information fra flere relevante biomedicinske ressourcer konstrueres en vidensgraf automatisk til yderligere analyser. Vi præsenterer en brugssag med et korpus på ~ 34 millioner tekstdokumenter downloadet online for at give et eksempel på at belyse mitokondrieproteiners rolle i forskellige kardiovaskulære sygdomsfænotyper ved hjælp af denne metode. Desuden blev en dyb læringsmodel anvendt på den resulterende vidensgraf til at forudsige tidligere urapporterede forhold mellem proteiner og sygdom, hvilket resulterede i 1.583 foreninger med forudsagte sandsynligheder >0,90 og med et område under modtagerens driftskarakteristikkurve (AUROC) på 0,91 på testsættet. Denne software har en meget tilpasselig og automatiseret arbejdsgang med et bredt udvalg af rådata til rådighed til analyse; Derfor kan proteinsygdomsforeninger ved hjælp af denne metode identificeres med forbedret pålidelighed inden for et tekstkorpus.
ABOUT JoVE
Copyright © 2024 MyJoVE Corporation. All rights reserved