Abstract
Biochemistry
De snabbt ökande och stora mängderna biomedicinska rapporter, som var och en innehåller många enheter och rik information, utgör en rik resurs för biomedicinska textutvinningstillämpningar. Dessa verktyg gör det möjligt för utredare att integrera, konceptualisera och översätta dessa upptäckter för att avslöja nya insikter om sjukdomspatologi och terapier. I detta protokoll presenterar vi CaseOLAP LIFT, en ny beräkningspipeline för att undersöka cellulära komponenter och deras sjukdomsassociationer genom att extrahera användarvald information från textdataset (t.ex. biomedicinsk litteratur). Programvaran identifierar subcellulära proteiner och deras funktionella partners i sjukdomsrelevanta dokument. Ytterligare sjukdomsrelevanta dokument identifieras via programvarans etikettimputeringsmetod. För att kontextualisera de resulterande protein-sjukdomsassociationerna och för att integrera information från flera relevanta biomedicinska resurser, konstrueras automatiskt en kunskapsgraf för vidare analyser. Vi presenterar ett användningsfall med en korpus av ~34 miljoner textdokument som laddats ner online för att ge ett exempel på att belysa mitokondriella proteiners roll i distinkta fenotyper av kardiovaskulära sjukdomar med hjälp av denna metod. Dessutom tillämpades en djupinlärningsmodell på den resulterande kunskapsgrafen för att förutsäga tidigare orapporterade samband mellan proteiner och sjukdom, vilket resulterade i 1 583 associationer med förutsagda sannolikheter >0,90 och med en area under mottagarens driftskarakteristik (AUROC) på 0,91 på testuppsättningen. Denna programvara har ett mycket anpassningsbart och automatiserat arbetsflöde, med ett brett utbud av rådata tillgängliga för analys; Med hjälp av denna metod kan därför protein-sjukdomsassociationer identifieras med ökad tillförlitlighet i en textkorpus.
Explore More Videos
ABOUT JoVE
Copyright © 2024 MyJoVE Corporation. All rights reserved