Biyomedikal raporlarda açıklandığı gibi mitokondriyal proteinleri ve bunların kardiyovasküler hastalıklarla ilişkilerini araştırmak için bir hesaplama protokolü olan CaseOLAP LIFT ve bir kullanım senaryosu sunulmaktadır. Bu protokol, kullanıcı tarafından seçilen hücresel bileşenleri ve hastalıkları incelemek için kolayca uyarlanabilir.
Her biri çok sayıda varlık ve zengin bilgi içeren, hızla artan ve çok sayıda biyomedikal rapor, biyomedikal metin madenciliği uygulamaları için zengin bir kaynak oluşturmaktadır. Bu araçlar, araştırmacıların hastalık patolojisi ve terapötiklerine ilişkin yeni içgörüleri ortaya çıkarmak için bu keşifleri entegre etmelerini, kavramsallaştırmalarını ve tercüme etmelerini sağlar. Bu protokolde, metin veri kümelerinden (örneğin, biyomedikal literatür) kullanıcı tarafından seçilen bilgileri çıkararak hücresel bileşenleri ve bunların hastalık ilişkilerini araştırmak için yeni bir hesaplama hattı olan CaseOLAP LIFT'i sunuyoruz. Yazılım, hastalıkla ilgili belgelerde hücre altı proteinleri ve bunların fonksiyonel ortaklarını tanımlar. Hastalıkla ilgili ek belgeler, yazılımın etiket atama yöntemiyle tanımlanır. Ortaya çıkan protein-hastalık ilişkilerini bağlamsallaştırmak ve birden fazla ilgili biyomedikal kaynaktan gelen bilgileri entegre etmek için, daha fazla analiz için otomatik olarak bir bilgi grafiği oluşturulur. Bu yöntemi kullanarak farklı kardiyovasküler hastalık fenotiplerinde mitokondriyal proteinlerin rolünü aydınlatmaya bir örnek sağlamak için çevrimiçi olarak indirilen ~34 milyon metin belgesinden oluşan bir derlem içeren bir kullanım durumu sunuyoruz. Ayrıca, proteinler ve hastalık arasında daha önce bildirilmemiş ilişkileri tahmin etmek için ortaya çıkan bilgi grafiğine bir derin öğrenme modeli uygulandı ve bu, tahmin edilen olasılıklarla >0.90 ve test setinde 0.91'lik alıcı işletim karakteristik eğrisinin (AUROC) altındaki bir alanla 1.583 ilişki ile sonuçlandı. Bu yazılım, analiz için geniş bir ham veri kapsamı ile son derece özelleştirilebilir ve otomatikleştirilmiş bir iş akışına sahiptir; Bu nedenle, bu yöntem kullanılarak, protein-hastalık ilişkileri, bir metin derlemi içinde gelişmiş güvenilirlikle tanımlanabilir.
Hastalıkla ilişkili proteinlerin incelenmesi, patogenezin bilimsel bilgisini geliştirir ve potansiyel terapötiklerin belirlenmesine yardımcı olur. PubMed'in yayın başlıkları, özetler ve tam metin belgeler içeren 34 milyon makalesi gibi biyomedikal yayınların birkaç büyük metin külliyatı, proteinleri hastalıklarla ilişkilendiren yeni bulgular bildirmektedir. Bununla birlikte, bu bulgular çeşitli kaynaklar arasında parçalanmıştır ve yeni biyomedikal anlayışlar oluşturmak için entegre edilmelidir. Protein-hastalık ilişkilerinientegre etmek için çeşitli biyomedikal kaynaklar mevcuttur 1,2,3,4,5,6,7. Bununla birlikte, bu küratörlü kaynaklar genellikle eksiktir ve en son araştırma bulgularını kapsamayabilir. Metin madenciliği yaklaşımları, büyük metin külliyatındaki protein-hastalık ilişkilerini çıkarmak ve sentezlemek için gereklidir, bu da bilimsel literatürde bu biyomedikal kavramların daha kapsamlı bir şekilde anlaşılmasına neden olacaktır.
Protein-hastalık ilişkilerini ortaya çıkarmak için çoklu biyomedikal metin madenciliği yaklaşımları mevcuttur 8,9,10,11,12,13,14 ve diğerleri, metin 13,15,16,17'de belirtilen proteinleri, hastalıkları veya diğer biyomedikal varlıkları tanımlayarak bu ilişkilerin belirlenmesine kısmen katkıda bulunur. 18,19. Bununla birlikte, bu araçların çoğu, periyodik olarak güncellenen birkaçı dışında, en güncel literatüre erişimden yoksundur 8,11,13,15. Benzer şekilde, birçok araç da önceden tanımlanmış geniş hastalıklar veya proteinlerle sınırlı oldukları için sınırlı bir çalışma alanına sahiptir 9,13. Metin içindeki yanlış pozitiflerin tanımlanmasına çeşitli yaklaşımlar da eğilimlidir; Diğerleri, bu sorunları yorumlanabilir ve küresel bir protein isimlerikara listesi 9,11 veya daha az yorumlanabilir isim varlığı tanıma teknikleri15,20 ile ele almıştır. Çoğu kaynak yalnızca önceden hesaplanmış sonuçlar sunarken, bazı araçlar web uygulamaları veya erişilebilir yazılım kodu 8,9,11 aracılığıyla etkileşim sunar.
Yukarıdaki sınırlamaları ele almak için, metin veri kümelerinden proteinler (örneğin, hücresel bir bileşenle ilişkili proteinler) ve hastalıklar arasındaki ilişkileri araştırmak için esnek ve özelleştirilebilir bir platform olarak etiket atama ve tam metin (CaseOLAP LIFT) ile CaseOLAP protokolünü sunuyoruz. Bu platform, gen ontolojisi (GO) terime özgü proteinlerin (örneğin, organele özgü proteinler) otomatik küratörlüğünü, eksik belge konu etiketlerinin atanmasını, tam metin belgelerin analizini, ayrıca analiz araçlarını ve tahmin araçlarını içerir (Şekil 1, Şekil 2 ve Tablo 1). CaseOLAP LIFT, kullanıcı tarafından sağlanan GO terimlerini (örneğin, organel bölmesi) ve STRING 21, Reactome22 ve GRNdb23'ü kullanarak işlevsel olarak ilişkili proteinleri kullanarak organele özgü proteinleri düzenler. Hastalık inceleme belgeleri, PubMed açıklamalı tıbbi konu başlığı (MeSH) etiketleriyle tanımlanır. Etiketlenmemiş belgelerin ~%15,1'i için, başlıkta en az bir MeSH terim eşanlamlısı bulunursa veya özette en az iki tane bulunursa etiketler atfedilir. Bu, daha önce kategorize edilmemiş yayınların metin madenciliği analizinde dikkate alınmasını sağlar. CaseOLAP LIFT ayrıca kullanıcının belirli bir zaman dilimi içinde (örneğin, 2012-2022) yayınların bölümlerini (örneğin, yalnızca başlıklar ve özetler, tam metin veya yöntemler hariç tam metin) seçmesine olanak tanır. Yazılım ayrıca, diğer yaklaşımlarda bulunan yanlış pozitif protein-hastalık ilişkilerini hayati derecede azaltarak, kullanım durumuna özgü protein adlarının kara listesini yarı otomatik olarak düzenler. Genel olarak, bu iyileştirmeler daha fazla özelleştirilebilirlik ve otomasyon sağlar, analiz için mevcut veri miktarını genişletir ve büyük biyomedikal metin külliyatından daha güvenli protein-hastalık ilişkileri sağlar.
CaseOLAP LIFT, biyomedikal bilgiyi içerir ve grafikteki gizli ilişkileri tahmin etmek için kullanılan bir bilgi grafiği kullanarak çeşitli biyomedikal kavramların ilişkisini temsil eder. Son zamanlarda, biyomedikal kavramların entegrasyonu ve düzenlenmesi 24,25, ilacın yeniden kullanımı ve geliştirilmesi 26,27,28 ve proteomik verilerden klinik karar verme 29 dahil olmak üzere biyolojik ortamlara grafik tabanlı hesaplama yöntemleri uygulanmıştır.
Bir bilgi grafiği oluşturma ortamında CaseOLAP LIFT'in faydalarını göstermek için, mitokondriyal proteinler ile sekiz kardiyovasküler hastalık kategorisi arasındaki ilişkilerin araştırılmasına ilişkin bir kullanım örneğini vurguluyoruz. Hastalıklarla ilişkili en iyi mitokondriyal proteinleri ve yolları belirlemek için ~ 362.000 hastalıkla ilgili belgeden elde edilen kanıtlar analiz edildi. Daha sonra, bu proteinler, işlevsel olarak ilişkili proteinleri ve metin madenciliği sonuçları bir bilgi grafiğine dahil edildi. Bu grafik, biyomedikal yayınlarda şimdiye kadar bildirilmemiş protein-hastalık ilişkilerini tahmin etmek için derin öğrenme tabanlı bir bağlantı tahmin analizinde kullanıldı.
Giriş bölümü, protokolümüzün arka plan bilgilerini ve hedeflerini açıklamaktadır. Aşağıdaki bölümde, hesaplama protokolünün adımları açıklanmaktadır. Daha sonra, bu protokolün temsili sonuçları açıklanmaktadır. Son olarak, hesaplama protokolü kullanım durumlarını, avantajlarını, dezavantajlarını ve gelecekteki uygulamalarını kısaca tartışıyoruz.
1. Docker kapsayıcısını çalıştırma
2. Hastalıkların ve proteinlerin hazırlanması
3. Metin madenciliği
4. Sonuçları analiz etme
5. Tahmine dayalı analiz
Mitokondriyal proteinler (Tablo 2) ve sekiz kardiyovasküler hastalık kategorisi (Tablo 3) arasındaki ilişkileri incelemek için bu protokolü takiben temsili sonuçlar üretildi. Bu kategorilerde, 2012'den Ekim 2022'ye kadar yayınlanmış 363.567 yayın bulduk (362.878'i MeSH meta verilerine göre kategorize edilmiş, 6.923'ü etiket atamasına göre kategorize edilmiştir). Tüm yayınların başlıkları, 276.524'ünün özetleri ve 51.065'inin tam metni mevcuttu. Genel olarak, sorgulanan 1.687 mitokondriyal proteinden 584'ü yayınlarda tanımlanırken, sorgulanan 8.026 fonksiyonel ilişkili proteinden 3.284'ü tanımlandı. Toplamda, tüm hastalık kategorilerinde anlamlı puanlarla 14 benzersiz protein tanımlandı ve z-skoru eşiği 3.0 idi (Şekil 5). Bu proteinlerin Reactome yolağı analizi, tüm hastalıklar için önemli olan 12 yolu ortaya çıkardı (Şekil 6). Tüm proteinler, yollar, hastalıklar ve puanlar bir bilgi grafiğine entegre edildi (Tablo 4). Bu bilgi grafiği, 12.688 yeni protein-hastalık ilişkisini tahmin etmek için kullanıldı ve 1.583 yüksek güvenilirlikli tahmin elde etmek için 0.90'lık bir olasılık puanıyla filtrelendi. İki protein-hastalık ilişkisinin vurgulanan bir örneği, proteinlerle işlevsel olarak ilişkili diğer ilgili biyolojik varlıklar bağlamında gösterilen Şekil 7'de gösterilmektedir. Model değerlendirme ölçümleri Tablo 5'te raporlanmıştır.
Şekil 1: İş akışının dinamik görünümü. Bu şekil, bu iş akışındaki dört ana adımı temsil eder. İlk olarak, ilgili proteinler, kullanıcı tarafından sağlanan GO terimlerine (örneğin, hücresel bileşenler) göre düzenlenir ve hastalık kategorileri, kullanıcı tarafından sağlanan hastalık MeSH tanımlayıcılarına göre hazırlanır. İkinci olarak, proteinler ve hastalıklar arasındaki ilişkiler metin madenciliği adımında hesaplanır. Belirli bir tarih aralığındaki yayınlar indirilir ve indekslenir. Hastalık inceleyen yayınlar tanımlanır (MeSH etiketleri ve isteğe bağlı olarak atfedilen etiketler aracılığıyla ) ve tam metinleri indirilir ve indekslenir. Protein isimleri yayınlarda sorgulanır ve protein-hastalık ilişki skorlarının hesaplanmasında kullanılır. Daha sonra, metin madenciliğini takiben, bu puanlar en iyi protein ve yol ilişkilerini belirlemeye yardımcı olur. Son olarak, bu proteinleri, hastalıkları ve bunların biyomedikal bilgi tabanı içindeki ilişkilerini kapsayan bir bilgi grafiği oluşturulur. Yeni protein-hastalık ilişkileri, oluşturulan bilgi grafiğine dayalı olarak tahmin edilir. Bu adımlar, biyomedikal bilgi tabanlarından ve PubMed'den elde edilen en son verileri kullanır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 2: İş akışının teknik mimarisi. Bu iş akışının teknik ayrıntıları bu şekilde gösterilmiştir. Kullanıcı, hastalık kategorilerinin ve GO terimlerinin MeSH ağaç numaralarını sağlar. Metin belgeleri PubMed'den indirilir, hastalıkla ilgili belgeler sağlanan MeSH etiketlerine göre tanımlanır ve konu belirten MeSH etiketleri olmayan belgeler atfedilen kategori etiketlerini alır. Sağlanan GO terimi (terimleri) ile ilişkili proteinler edinilir. Bu protein seti, protein-protein etkileşimleri, paylaşılan biyolojik yollar ve transkripsiyon faktörü bağımlılığı yoluyla işlevsel olarak ilişkili proteinleri içerecek şekilde genişletilir. Bu proteinler hastalıkla ilgili belgelerde sorgulanır ve CaseOLAP tarafından puanlanır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 3: İşlenmiş bir belge örneği. Ayrıştırılmış, dizine alınmış bir metin belgesi örneği burada sunulmuştur. Sırasıyla, ilgili alanlar dizin adını (_index, _type), PubMed ID'yi (_id, pmid), belge alt bölümlerini (başlık, özet, full_text, giriş, yöntemler, sonuçlar, tartışma) ve diğer meta verileri (yıl, MeSH, konum, dergi) gösterir. Yalnızca görüntüleme amacıyla, belge alt bölümleri üç nokta ile kesilir. MeSH alanı, bazen etiket atama adımımız tarafından sağlanabilecek belge konularını içerir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 4: Bilgi grafiği şeması ve biyomedikal kaynaklar. Bu şekilde bilgi grafiği şeması gösterilmektedir. Her düğüm ve kenar, sırasıyla bir düğüm veya kenar türünü temsil eder. Kardiyovasküler hastalıklar (KVH'ler) ve proteinler arasındaki kenarlar CaseOLAP skorları ile ağırlıklandırılır. Protein-protein etkileşimi (PPI) kenarları, STRING güven puanlarına göre ağırlıklandırılır. GRNdb/GTEx'ten türetilen transkripsiyon faktörü bağımlılığı (TFD) kenarları, MeSH'den türetilen hastalık ağacı kenarları ve reaktomdan türetilen yol kenarları ağırlıksızdır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 5: En iyi protein-hastalık ilişkileri. Bu şekil, her hastalık kategorisi için önemli olan mitokondriyal proteinleri sunar. 3.0 eşiği kullanılarak önemli proteinleri tanımlamak için her kategorideki CaseOLAP skorlarına Z-skoru dönüşümü uygulandı. (Yukarıya git) Her hastalık için önemli olan mitokondriyal proteinlerin sayısı: Bu keman grafikleri, her hastalık kategorisindeki proteinler için z-skorlarının dağılımını gösterir. Her hastalık kategorisi için önemli olan toplam protein sayısı, her keman grafiğinin üzerinde gösterilmiştir. Tüm hastalıklarda toplam 14 benzersiz protein önemli olarak tanımlandı ve bazı proteinler birden fazla hastalık için önemliydi. (Altta) En yüksek puan alan proteinler: Isı haritası, tüm hastalıklarda en yüksek ortalama z-skorlarını elde eden ilk 10 proteini gösterir. Boş değerler, protein ve hastalık arasında elde edilen bir skoru temsil etmez. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 6: En iyi yolak-hastalık ilişkileri. Bu şekil, reaktom yolu analizi ile belirlendiği üzere, incelenen hastalık kategorileriyle ilişkili en iyi biyolojik yolları göstermektedir. Tüm yolak analizleri p < 0.05 ile filtrelendi. Isı haritası değerleri, yoldaki tüm proteinlerin ortalama z-skorunu temsil eder. (Yukarıya git) Tüm hastalıklar arasında korunan yollar: Genel olarak, tüm hastalık kategorileri ile ilgili olarak 14 protein tanımlandı ve tüm hastalık kategorileri arasında 12 korunmuş yol ortaya çıkarıldı. Yolları benzer biyolojik işlevlerle birbirine bağlamak için yol hiyerarşik yapısına dayalı olarak bir dendrogram oluşturuldu. Dendrogram yüksekliği, yol hiyerarşisi içindeki göreli derinliği temsil eder; Geniş biyolojik işlevler daha uzun uzuvlara sahiptir ve daha spesifik yollar daha kısa uzuvlara sahiptir. (Altta) Bir hastalık kategorisine özgü yollar: Yol analizi, her hastalıkta anlamlı bir z-skoru elde eden proteinler kullanılarak gerçekleştirildi. Her hastalıkla ilişkili en düşük p değerlerine sahip ilk üç yol gösterilir ve yıldızlarla gösterilir. Yollar birden fazla hastalıkta ilk üç içinde olabilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 7: Bilgi grafiği tamamlama için derin öğrenme uygulaması. Hastalığa özgü bir bilgi grafiğine derin öğrenmenin uygulanmasına ilişkin bir örnek bu şekilde sunulmuştur. Proteinler ve hastalık arasındaki gizli ilişkiler tahmin edilir ve bunlar mavi ile gösterilir. Her iki tahmin için de hesaplanan olasılıklar, 0,0 ile 1,0 arasında değişen değerlerle ve 1,0 güçlü bir tahmini gösterecek şekilde görüntülenir. Protein-protein etkileşimlerini, transkripsiyon faktörü bağımlılığını ve paylaşılan biyolojik yolları temsil eden bilinen etkileşimlere sahip birkaç protein dahil edilmiştir. Görselleştirme için, vurgulanan örnekle ilgili birkaç düğümün alt grafiği gösterilir. Anahtar: IHD = iskemik kalp hastalığı; R-HSA-1430728 = metabolizma; O14949 = sitokrom b-c1 kompleksi alt birimi 8; P17568 = NADH dehidrojenaz (ubikinon) 1 beta alt kompleks alt birimi 7; Q9NYF8 Bcl-2 ile ilişkili transkripsiyon faktörü 1, skor: 7.24 x 10−7; P49821 = NADH dehidrojenaz (ubikinon) flavoprotein 1, mitokondriyal, skor: 1.06 x 10−5; P31930 = sitokrom b-c1 kompleks alt birimi 1, mitokondriyal, skor: 4.98 x 10−5; P99999 = sitokrom c, skor: 0.399. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Tablo 1: İş akışı ve hız sınırlama adımları. Bu tabloda, iş akışının her aşaması için hesaplama süresinin kabaca tahminleri sunulmaktadır. İşlem hattının bileşenlerini dahil etme seçenekleri, analizi tamamlamak için gereken toplam çalışma zamanını değiştirir. Toplam süre tahmini, donanım özellikleri ve yazılım ayarları dahil olmak üzere mevcut hesaplama kaynaklarına bağlı olarak değişir. Kaba bir tahmin olarak, protokolün altı çekirdek, 32 Gb RAM ve 2 Tb depolama ile hesaplama sunucumuzda yürütülmesi 36 saat aktif çalışma süresi aldı, ancak bu diğer cihazlarda daha hızlı veya daha yavaş olabilir. Bu Tabloyu indirmek için lütfen buraya tıklayın.
Tablo 2: Hücresel bileşen proteinlerinin otomatik montajı. Bu tablo, belirli bir hücresel bileşenle (yani GO terimi) ilişkili proteinlerin sayısını, protein-protein etkileşimleri (PPI), paylaşılan yollar (PW) ve transkripsiyon faktörü bağımlılığı (TFD) yoluyla işlevsel olarak bunlarla ilişkili proteinleri gösterir. Toplam protein sayısı, önceki tüm kategorilerin toplamından proteinlerin sayısıdır. İşlevsel olarak ilişkili tüm proteinler, CaseOLAP LIFT'in varsayılan parametreleri kullanılarak elde edildi. Bu Tabloyu indirmek için lütfen buraya tıklayın.
Tablo 3: MeSH etiket atama istatistikleri. Bu tablo, hastalık kategorilerini, kategoriye dahil edilen tüm hastalıkların ana terimi olarak kullanılan MeSH ağaç numaralarını, 2012-2022 yılları arasında her kategoride bulunan PubMed makalelerinin sayısını ve etiket atama adımına göre dahil edilen ek makalelerin sayısını gösterir. Bu Tabloyu indirmek için lütfen buraya tıklayın.
Tablo 4: Bilgi grafiği oluşturma istatistikleri. Bu tabloda, çeşitli düğümler ve kenar türleri de dahil olmak üzere oluşturulan bilgi grafiğinin boyutuna ilişkin istatistikler açıklanmaktadır. CaseOLAP skorları, bir protein ve bir kardiyovasküler hastalık (CVD) kategorisi arasındaki ilişkiyi temsil eder. Bu Tabloyu indirmek için lütfen buraya tıklayın.
Tablo 5: Bilgi grafiği tahmin istatistikleri ve doğrulamaları. Bu tablo, yeni/gizli protein-hastalık ilişkilerinin bilgi grafiği bağlantı tahmini için değerlendirme ölçümlerini rapor eder. Bilgi grafiği kenarları 70/30 eğitim ve test veri kümelerine bölündü ve kenarların grafik bağlantısı her iki veri kümesinde de korundu. Doğruluk, doğru sınıflandırılan tahminlerin oranını gösterirken, dengeli doğruluk, sınıf dengesizliğini düzeltir. Özgüllük, doğru sınıflandırılmış negatif tahminlerin oranını gösterir. Kesinlik, tüm olumlu tahminlerden doğru pozitif tahminlerin oranını gösterirken, geri çağırma, tüm pozitif kenarlardan (yani, metin madenciliği yoluyla tanımlanan protein-hastalık ilişkileri) doğru pozitif tahminlerin oranını gösterir. F1 puanı, kesinlik ve geri çağırmanın harmonik ortalamasıdır. Alıcı çalışma karakteristik eğrisinin (AUROC) altındaki alan, modelin pozitif ve negatif tahminler arasında ne kadar iyi ayrım yaptığını açıklar ve 1.0 mükemmel bir sınıflandırıcıyı gösterir. Kesinlik-geri çağırma eğrisinin (AUPRC) altındaki alan, değişen olasılık eşiklerinde kesinlik ve geri çağırma arasındaki dengeyi ölçer ve daha yüksek değerler daha iyi performansı gösterir. Bu Tabloyu indirmek için lütfen buraya tıklayın.
CaseOLAP LIFT, araştırmacılara fonksiyonel proteinler (örneğin, hücresel bir bileşen, biyolojik süreç veya moleküler işlevle ilişkili proteinler) ve biyolojik kategoriler (örneğin, hastalıklar) arasındaki ilişkileri araştırmaları için yetki verir. Protokol bölüm 4 ve protokol bölüm 5 sonuçlarına bağlı olduğundan, protokol bölüm 2 ve protokol bölüm 3 en kritik adımlar olmak üzere açıklanan protokol belirtilen sırayla yürütülmelidir. Protokol bölüm 1'e alternatif olarak, CaseOLAP LIFT kodu kopyalanabilir ve GitHub deposundan (https://github.com/CaseOLAP/caseolap_lift) erişilebilir. Yazılım geliştirme sırasında yapılan testlere rağmen hataların meydana gelebileceği unutulmamalıdır. Bu durumda, başarısız olan adım tekrarlanmalıdır. Sorun devam ederse, docker kapsayıcısının en son sürümünün kullanıldığından emin olmak için protokol bölüm 1'i tekrarlamanız önerilir. Ek destek için GitHub deposunda bir sorun oluşturarak daha fazla yardım alabilirsiniz.
Bu yöntem, araştırmacıların ilgilenilen varlıkları belirlemelerini ve mevcut biyomedikal kaynaklarda kolayca erişilemeyebilecek aralarındaki potansiyel ilişkileri ortaya çıkarmalarını sağlayarak hipotez üretimini destekler. Ortaya çıkan protein-hastalık ilişkileri, araştırmacıların puanların yorumlanabilir metrikleri aracılığıyla yeni bilgiler edinmelerini sağlar: popülerlik puanları, bir hastalıkla ilgili olarak en çok çalışılan proteinleri gösterir, ayırt edicilik puanları, bir proteine en özgü hastalıkları gösterir ve birleşik CaseOLAP skoru, ikisinin bir kombinasyonudur. Yanlış pozitif tanımlamaları önlemek için (örneğin, eş anlamlılar nedeniyle), bazı metin madenciliği araçları 9,11'den kaçınmak için bir kara terim listesi kullanır. Benzer şekilde, CaseOLAP LIFT de bir kara liste kullanır ancak kullanıcının kara listeyi kendi kullanım durumuna göre uyarlamasına olanak tanır. Örneğin, koroner arter hastalığı (CAD) incelenirken, "CAD", "kaspazla aktive olan deoksiribonükleaz" proteini için bir isim olarak düşünülmemelidir. Bununla birlikte, diğer konuları incelerken, "CAD" genellikle proteine atıfta bulunabilir.
CaseOLAP LIFT, metin madenciliği için mevcut veri miktarına uyum sağlar. Tarih aralığı işlevi, hesaplama yükünü hafifletir ve hipotez oluşturma için esneklik yaratır (örneğin, bir protein-hastalık ilişkisi hakkındaki bilimsel bilginin zaman içinde nasıl değiştiğini incelemek). Bu arada, etiket atama ve tam metin bileşenleri, metin madenciliği için mevcut verilerin kapsamını geliştirir. Hesaplama maliyetlerini azaltmak için her iki bileşen de varsayılan olarak devre dışıdır, ancak kullanıcı her iki bileşeni de dahil etmeye karar verebilir. Etiket ataması muhafazakardır ve çoğu yayını doğru bir şekilde kategorize eder (%87 kesinlik) ancak diğer kategori etiketlerini kaçırır (%2 hatırlama). Bu yöntem şu anda hastalık anahtar sözcükleriyle eşleşen kural tabanlı bir buluşsal yönteme dayanmaktadır ve belge konusu modelleme tekniklerinin kullanılmasıyla performansı artırma planları vardır. Kategorize edilmemiş raporların çoğu yeni yayınlar olma eğiliminde olduğundan, yakın bir tarih aralığını (örneğin, son 3 yıldaki tüm yayınlar) araştıran çalışmalar, etiket ataması devre dışı bırakılarak daha iyi sunulur. Tam metin bileşeni, çalışma zamanı ve depolama gereksinimlerini artırır. Özellikle, belgelerin yalnızca küçük bir kısmı tam metne sahiptir (çalışmamızdaki belgelerin ~%14'ü). Yayınların yöntemler bölümünde belirtilen protein isimlerinin hastalık konularıyla ilgili olma olasılığının daha düşük olduğu varsayılarak, yöntemler bölümü hariç tam metin makalelerin sorgulanması önerilir.
Elde edilen protein-hastalık ilişkilendirme puanları, kümeleme, boyutsallık azaltma veya zenginleştirme analizleri (örneğin, GO, yollar) gibi geleneksel analizler için yararlıdır ve bazı uygulamalar bu yazılım paketine dahil edilmiştir. Bu puanları mevcut biyomedikal bilgi içinde bağlamsallaştırmak için, bir bilgi grafiği otomatik olarak oluşturulur ve grafik görselleştirme araçları (örneğin, Neo4j32, Cytoscape33) kullanılarak keşfedilebilir. Bilgi grafiği ayrıca öngörücü analizler için de kullanılabilir (örneğin, bildirilmemiş protein-hastalık ilişkilerinin bağlantı tahmini, protein ağlarının topluluk tespiti, ödül toplama yol yürüme yöntemleri).
Tahmin edilen protein-hastalık ilişkileri için model değerlendirme metriklerini inceledik (Tablo 5). Model, her bir protein-hastalık ilişkisine 0.0 ile 1.0 arasında bir olasılık puanı atar ve 1.0'a yakın puanlar, tahminde daha yüksek bir güven düzeyini gösterir. AUROC, doğruluk, dengeli doğruluk, özgüllük ve hatırlama dahil olmak üzere çeşitli metriklere dayanan model performansının dahili değerlendirmesi, çalışmalarında mükemmel bir genel performans gösterdi. Bununla birlikte, değerlendirme aynı zamanda modelin kesinliği (0.15) için oldukça düşük bir puanı vurguladı ve bu da hem daha düşük bir AUPRC hem de F1 puanıyla sonuçlandı. Bu metriği geliştirmeye yönelik gelecekteki çalışmalar, modelin genel performansını yükseltmeye yardımcı olacaktır. Bunun, daha karmaşık bilgi grafiği yerleştirme ve grafik tahmin modelleri uygulayarak başarılabileceğini öngörüyoruz. Modelin 0.15'lik kesinliğine dayanarak, araştırmacılar yaklaşık% 15 pozitif tanımlama beklemelidir; Özellikle, model tarafından tahmin edilen 12.688 protein-hastalık ilişkisinin yaklaşık% 15'i gerçek pozitif ilişkilerdir. Bu, yalnızca yüksek olasılık puanına sahip protein-hastalık ilişkileri dikkate alınarak hafifletilebilir (örneğin, >0.90); Kullanım örneğimizde, 0,90 olasılık eşiği ile filtreleme, 1.583 ilişkilendirmenin yüksek güvenilirlikli tahminlerine yol açtı. Araştırmacılar, yüksek geçerlilik sağlamak için bu tahminleri manuel olarak incelemeyi de yararlı bulabilirler (örnek olarak Şekil 7'ye bakın). Tahminlerimizin dış değerlendirmesi, kapsamlı bir küratörlü veri tabanı DisGeNet19'dan 310 protein-hastalık ilişkisinden 103'ünün metin madenciliği çalışmamızda tanımlandığını ve 88 ek ilişkinin bilgi grafiği analizimiz tarafından >0.90 olasılık puanıyla tahmin edildiğini belirledi.
Genel olarak, CaseOLAP LIFT, büyük metin derleminde fonksiyonel protein grupları ve çoklu hastalık kategorileri arasındaki ilişkilerin özel analizlerinin tasarlanmasında gelişmiş esneklik ve kullanılabilirlik sunar. Bu paket, yeni bir kullanıcı dostu komut satırı arabiriminde kolaylaştırılmıştır ve bir docker kapsayıcısı olarak yayınlanır, böylece programlama ortamlarının ve yazılım bağımlılıklarının yapılandırılmasıyla ilgili sorunları azaltır. Kardiyovasküler hastalıklarda mitokondriyal proteinleri incelemek için CaseOLAP LIFT boru hattı kolayca uyarlanabilir; örneğin, bu tekniğin gelecekteki uygulamaları, herhangi bir GO terimi ile ilişkili herhangi bir protein ile herhangi bir biyomedikal kategori arasındaki ilişkilerin araştırılmasını içerebilir. Ayrıca, bu metin madenciliği platformu tarafından belirlenen sıralı protein-hastalık ilişkileri, gelişmiş doğal dil tekniklerinin kullanımı için veri setinin hazırlanmasında önemlidir. Ortaya çıkan bilgi grafiği, araştırmacıların bu bulguları biyolojik olarak bilgilendirici bilgilere dönüştürmelerini sağlar ve takip grafiği tabanlı analizler için temel oluşturur.
Yazarların açıklayacak hiçbir şeyi yok.
Bu çalışma, Ulusal Sağlık Enstitüleri (NIH) R35 HL135772 tarafından P.P.'ye, NIH T32 HL13945 A.R.P. ve DS'ye, NIH T32 EB016640 A.R.P.'ye, Ulusal Bilim Vakfı Araştırma Stajyerliği (NRT) 1829071 tarafından A.R.P. ve DS'ye, I.A., J.R., A.V., K.B. için NIH R01 HL146739 ve UCLA'da PP'ye TC Laubisch Bağışı.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır