Abstract
Biochemistry
De raskt økende og store mengdene biomedisinske rapporter, som hver inneholder mange enheter og rik informasjon, representerer en rik ressurs for biomedisinske tekstutvinningsapplikasjoner. Disse verktøyene gjør det mulig for etterforskere å integrere, konseptualisere og oversette disse funnene for å avdekke ny innsikt i sykdomspatologi og terapi. I denne protokollen presenterer vi CaseOLAP LIFT, en ny beregningsrørledning for å undersøke cellulære komponenter og deres sykdomsforeninger ved å trekke ut brukervalgt informasjon fra tekstdatasett (f.eks. Biomedisinsk litteratur). Programvaren identifiserer subcellulære proteiner og deres funksjonelle partnere i sykdomsrelevante dokumenter. Ytterligere sykdomsrelevante dokumenter identifiseres ved hjelp av programvarens etikettimputeringsmetode. For å kontekstualisere de resulterende proteinsykdomsforeningene og integrere informasjon fra flere relevante biomedisinske ressurser, konstrueres det automatisk en kunnskapsgraf for videre analyser. Vi presenterer ett brukstilfelle med et korpus av ~ 34 millioner tekstdokumenter lastet ned på nettet for å gi et eksempel på å belyse rollen til mitokondrielle proteiner i forskjellige kardiovaskulære sykdomsfenotyper ved hjelp av denne metoden. Videre ble en dyp læringsmodell brukt på den resulterende kunnskapsgrafen for å forutsi tidligere urapporterte forhold mellom proteiner og sykdom, noe som resulterte i 1,583 assosiasjoner med forventede sannsynligheter >0,90 og med et område under mottakerens driftskarakteristikkkurve (AUROC) på 0,91 på testsettet. Denne programvaren har en svært tilpassbar og automatisert arbeidsflyt, med et bredt spekter av rådata tilgjengelig for analyse; Derfor, ved hjelp av denne metoden, kan proteinsykdomsforeninger identifiseres med forbedret pålitelighet i et tekstkorpus.
Explore More Videos
ABOUT JoVE
Copyright © 2024 MyJoVE Corporation. All rights reserved