Organel Yolaklarının Hastalıktaki Rolünü Biyomedikal Raporlarla Aydınlatmak İçin Bir Bilgi Grafiği Yaklaşımı

Alexander  R. Pelletier; Dylan Steinecke; Dibakar Sigdel; Irsyad Adam; J. Harry Caufield; Vladimir Guevara-Gonzalez; Joseph Ramirez; Aarushi Verma; Kaitlyn Bali; Katherine Downs; Wei Wang; Alex Bui; Peipei Ping

doi:10.3791/65084

Bu Makalede

Özet
Özet
Giriş
Protokol
Sonuçlar
Tartışmalar
Açıklamalar
Teşekkürler
Malzemeler
Referanslar
Yeniden Basımlar ve İzinler

Özet

Biyomedikal raporlarda açıklandığı gibi mitokondriyal proteinleri ve bunların kardiyovasküler hastalıklarla ilişkilerini araştırmak için bir hesaplama protokolü olan CaseOLAP LIFT ve bir kullanım senaryosu sunulmaktadır. Bu protokol, kullanıcı tarafından seçilen hücresel bileşenleri ve hastalıkları incelemek için kolayca uyarlanabilir.

Özet

Her biri çok sayıda varlık ve zengin bilgi içeren, hızla artan ve çok sayıda biyomedikal rapor, biyomedikal metin madenciliği uygulamaları için zengin bir kaynak oluşturmaktadır. Bu araçlar, araştırmacıların hastalık patolojisi ve terapötiklerine ilişkin yeni içgörüleri ortaya çıkarmak için bu keşifleri entegre etmelerini, kavramsallaştırmalarını ve tercüme etmelerini sağlar. Bu protokolde, metin veri kümelerinden (örneğin, biyomedikal literatür) kullanıcı tarafından seçilen bilgileri çıkararak hücresel bileşenleri ve bunların hastalık ilişkilerini araştırmak için yeni bir hesaplama hattı olan CaseOLAP LIFT'i sunuyoruz. Yazılım, hastalıkla ilgili belgelerde hücre altı proteinleri ve bunların fonksiyonel ortaklarını tanımlar. Hastalıkla ilgili ek belgeler, yazılımın etiket atama yöntemiyle tanımlanır. Ortaya çıkan protein-hastalık ilişkilerini bağlamsallaştırmak ve birden fazla ilgili biyomedikal kaynaktan gelen bilgileri entegre etmek için, daha fazla analiz için otomatik olarak bir bilgi grafiği oluşturulur. Bu yöntemi kullanarak farklı kardiyovasküler hastalık fenotiplerinde mitokondriyal proteinlerin rolünü aydınlatmaya bir örnek sağlamak için çevrimiçi olarak indirilen ~34 milyon metin belgesinden oluşan bir derlem içeren bir kullanım durumu sunuyoruz. Ayrıca, proteinler ve hastalık arasında daha önce bildirilmemiş ilişkileri tahmin etmek için ortaya çıkan bilgi grafiğine bir derin öğrenme modeli uygulandı ve bu, tahmin edilen olasılıklarla >0.90 ve test setinde 0.91'lik alıcı işletim karakteristik eğrisinin (AUROC) altındaki bir alanla 1.583 ilişki ile sonuçlandı. Bu yazılım, analiz için geniş bir ham veri kapsamı ile son derece özelleştirilebilir ve otomatikleştirilmiş bir iş akışına sahiptir; Bu nedenle, bu yöntem kullanılarak, protein-hastalık ilişkileri, bir metin derlemi içinde gelişmiş güvenilirlikle tanımlanabilir.

Giriş

Hastalıkla ilişkili proteinlerin incelenmesi, patogenezin bilimsel bilgisini geliştirir ve potansiyel terapötiklerin belirlenmesine yardımcı olur. PubMed'in yayın başlıkları, özetler ve tam metin belgeler içeren 34 milyon makalesi gibi biyomedikal yayınların birkaç büyük metin külliyatı, proteinleri hastalıklarla ilişkilendiren yeni bulgular bildirmektedir. Bununla birlikte, bu bulgular çeşitli kaynaklar arasında parçalanmıştır ve yeni biyomedikal anlayışlar oluşturmak için entegre edilmelidir. Protein-hastalık ilişkilerini^entegre etmek için çeşitli biyomedikal kaynaklar mevcuttur 1,2,3,4,5,6,7. Bununla birlikte, bu küratörlü kaynaklar genellikle eksiktir ve en son araştırma bulgularını kapsamayabilir. Metin madenciliği yaklaşımları, büyük metin külliyatındaki protein-hastalık ilişkilerini çıkarmak ve sentezlemek için gereklidir, bu da bilimsel literatürde bu biyomedikal kavramların daha kapsamlı bir şekilde anlaşılmasına neden olacaktır.

Protein-hastalık ilişkilerini ortaya çıkarmak için çoklu biyomedikal metin madenciliği yaklaşımları mevcuttur 8,9,10,11,12,13,14 ve diğerleri, metin 13,15,16,17'de belirtilen proteinleri, hastalıkları veya diğer biyomedikal varlıkları tanımlayarak bu ilişkilerin belirlenmesine kısmen katkıda bulunur^.^18,19. Bununla birlikte, bu araçların çoğu, periyodik olarak güncellenen birkaçı dışında, en güncel literatüre erişimden yoksundur 8,11,13,15. Benzer şekilde, birçok araç da önceden tanımlanmış geniş hastalıklar veya proteinlerle sınırlı oldukları için sınırlı bir çalışma alanına sahiptir ^9,13. Metin içindeki yanlış pozitiflerin tanımlanmasına çeşitli yaklaşımlar da eğilimlidir; Diğerleri, bu sorunları yorumlanabilir ve küresel bir protein isimleri^{kara listesi 9,11} veya daha az yorumlanabilir isim varlığı tanıma teknikleri^15,20 ile ele almıştır. Çoğu kaynak yalnızca önceden hesaplanmış sonuçlar sunarken, bazı araçlar web uygulamaları veya erişilebilir yazılım kodu ^8,9,11 aracılığıyla etkileşim sunar.

Yukarıdaki sınırlamaları ele almak için, metin veri kümelerinden proteinler (örneğin, hücresel bir bileşenle ilişkili proteinler) ve hastalıklar arasındaki ilişkileri araştırmak için esnek ve özelleştirilebilir bir platform olarak etiket atama ve tam metin (CaseOLAP LIFT) ile CaseOLAP protokolünü sunuyoruz. Bu platform, gen ontolojisi (GO) terime özgü proteinlerin (örneğin, organele özgü proteinler) otomatik küratörlüğünü, eksik belge konu etiketlerinin atanmasını, tam metin belgelerin analizini, ayrıca analiz araçlarını ve tahmin araçlarını içerir (Şekil 1, Şekil 2 ve Tablo 1). CaseOLAP LIFT, kullanıcı tarafından sağlanan GO terimlerini (örneğin, organel bölmesi) ve STRING 21, Reactome²² ve GRNdb^23'ü kullanarak işlevsel olarak ilişkili proteinleri kullanarak organele özgü proteinleri düzenler. Hastalık inceleme belgeleri, PubMed açıklamalı tıbbi konu başlığı (MeSH) etiketleriyle tanımlanır. Etiketlenmemiş belgelerin ~%15,1'i için, başlıkta en az bir MeSH terim eşanlamlısı bulunursa veya özette en az iki tane bulunursa etiketler atfedilir. Bu, daha önce kategorize edilmemiş yayınların metin madenciliği analizinde dikkate alınmasını sağlar. CaseOLAP LIFT ayrıca kullanıcının belirli bir zaman dilimi içinde (örneğin, 2012-2022) yayınların bölümlerini (örneğin, yalnızca başlıklar ve özetler, tam metin veya yöntemler hariç tam metin) seçmesine olanak tanır. Yazılım ayrıca, diğer yaklaşımlarda bulunan yanlış pozitif protein-hastalık ilişkilerini hayati derecede azaltarak, kullanım durumuna özgü protein adlarının kara listesini yarı otomatik olarak düzenler. Genel olarak, bu iyileştirmeler daha fazla özelleştirilebilirlik ve otomasyon sağlar, analiz için mevcut veri miktarını genişletir ve büyük biyomedikal metin külliyatından daha güvenli protein-hastalık ilişkileri sağlar.

CaseOLAP LIFT, biyomedikal bilgiyi içerir ve grafikteki gizli ilişkileri tahmin etmek için kullanılan bir bilgi grafiği kullanarak çeşitli biyomedikal kavramların ilişkisini temsil eder. Son zamanlarda, biyomedikal kavramların entegrasyonu ve düzenlenmesi 24,25, ilacın yeniden kullanımı ve geliştirilmesi 26,27,28 ve proteomik verilerden klinik karar verme ²⁹ dahil olmak üzere biyolojik ortamlara grafik tabanlı hesaplama yöntemleri uygulanmıştır.

Bir bilgi grafiği oluşturma ortamında CaseOLAP LIFT'in faydalarını göstermek için, mitokondriyal proteinler ile sekiz kardiyovasküler hastalık kategorisi arasındaki ilişkilerin araştırılmasına ilişkin bir kullanım örneğini vurguluyoruz. Hastalıklarla ilişkili en iyi mitokondriyal proteinleri ve yolları belirlemek için ~ 362.000 hastalıkla ilgili belgeden elde edilen kanıtlar analiz edildi. Daha sonra, bu proteinler, işlevsel olarak ilişkili proteinleri ve metin madenciliği sonuçları bir bilgi grafiğine dahil edildi. Bu grafik, biyomedikal yayınlarda şimdiye kadar bildirilmemiş protein-hastalık ilişkilerini tahmin etmek için derin öğrenme tabanlı bir bağlantı tahmin analizinde kullanıldı.

Giriş bölümü, protokolümüzün arka plan bilgilerini ve hedeflerini açıklamaktadır. Aşağıdaki bölümde, hesaplama protokolünün adımları açıklanmaktadır. Daha sonra, bu protokolün temsili sonuçları açıklanmaktadır. Son olarak, hesaplama protokolü kullanım durumlarını, avantajlarını, dezavantajlarını ve gelecekteki uygulamalarını kısaca tartışıyoruz.

Protokol

1. Docker kapsayıcısını çalıştırma

Terminal penceresini kullanarak ve docker pull caseolap/caseolap_lift:latest yazarak CaseOLAP LIFT docker kapsayıcısını indirin.
Tüm program verilerini ve çıktısını depolayacak bir dizin oluşturun (örn. mkdir caseolap_lift_shared_folder).
Docker kapsayıcısını docker run --name caseolap_lift -it -v PATH_TO_FOLDER :/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash komutuyla klasörün tam dosya yolu olarak PATH_TO_FOLDER ile başlatın (örneğin, / Users/caseolap/caseolap_lift_shared_folder). Bölüm 2'den gelecek komutlar bu terminal penceresinde verilecektir.
Kapsayıcı içinde elastik aramayı başlatın. Yeni bir terminal penceresinde docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh yazın.
NOT: Bu protokolde CaseOLAP LIFT, her adım sırayla gerçekleştirilerek etkileşimli olarak çalıştırılır. Bu analiz, bir parametre .txt dosyası olarak geçirilerek uçtan uca da yürütülebilir. Bu çalışmada kullanılan parametreler.txt / workspace/caseolap_lift/parameters.txt içinde yer almaktadır. Her adımla ilgili daha fazla ayrıntıya erişmek için bayrağıyla komutu çalıştırın --help veya GitHub deposundaki (https://github.com/CaseOLAP/caseolap_lift) belgeleri ziyaret edin.

2. Hastalıkların ve proteinlerin hazırlanması

cd /workspace/caseolap_lift ile caseolap_lift klasörüne gidin
config/knowledge_base_links.json dosyasındaki indirme bağlantılarının her bilgi bankası kaynağının en son sürümü için güncel ve doğru olduğundan emin olun. Varsayılan olarak, dosyalar yalnızca bir kez indirilir; Bu dosyaları güncelleştirmek ve yeniden indirmek için, adım 2.4'te -r ile ön işleme adımını çalıştırın.
Bu çalışma için kullanılacak GO terimini ve hastalık kategorilerini belirleyin. Tüm GO terimleri için tanımlayıcıları ve MeSH tanımlayıcılarını sırasıyla http://geneontology.org/ ve https://meshb.nlm.nih.gov/'da bulun.
Komut satırı seçeneklerini kullanarak ön işleme modülünü yürütün. Bu ön işleme adımı, belirli hastalıkları bir araya getirir, incelenecek proteinleri listeler ve metin madenciliği için protein eşanlamlılarını toplar. -c bayrağını kullanarak kullanıcı tanımlı çalışılan GO terimlerini ve - d bayrağını kullanarak hastalık MeSH ağacı numaralarını belirtin ve kısaltmaları -a ile belirtin.
Örnek komut:
python caseolap_lift.py ön işleme -a "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945, C14.280.459, C14.280.720" -c "GO: 0005739" - eşanlamlıları içerir - dahil et - ppi -k 1 -s 0.99 - dahil et - pw -n 4 -r 0.5 - dahil et - tfd
Çıktı klasöründe önceki adımdaki kategorileri.txt, core_proteins.txt ve proteins_of_interest.txt dosyalarını inceleyin. Kategoriler.txt deki tüm hastalık kategorilerinin doğru olduğundan ve core_proteins.txt ve proteins_of_interest.txt içinde makul miktarda proteinin tanımlandığından emin olun. Gerekirse, adım 2.4'ü tekrarlayın ve parametreleri daha fazla veya daha az sayıda protein içerecek şekilde değiştirin.
NOT: Çalışmaya dahil edilen proteinlerin sayısı, sırasıyla protein-protein etkileşimlerini, paylaşılan reaktom yollarına sahip proteinleri ve transkripsiyon faktörü bağımlılığı olan proteinleri içerecek şekilde --include-ppi, --include-pw ve --include-tfd bayrakları ile belirlenir. Belirli işlevleri -k, -s, -n ve -r gibi ek bayraklarla belirtilir (belgelere bakın).

3. Metin madenciliği

Önceki adımdaki kategorilerin.txt, core_proteins.txt ve proteins_of_interest.txt dosyalarının çıkış klasöründe bulunduğundan emin olun. Bu dosyaları metin madenciliği için girdi olarak kullanın. İsteğe bağlı olarak, yapılandırma klasöründe belge ayrıştırma ve dizin oluşturma ile ilgili yapılandırmaları ayarlayın. Yapılandırma ve sorun giderme hakkında daha fazla ayrıntı için CaseOLAP protokolünün önceki bir sürümüne bakın⁸.
Metin madenciliği modülünü python caseolap_lift.py text_mining ile çalıştırın. Kategorize edilmemiş belgelerin konularını belirtmek için -l bayrağını ve hastalıkla ilgili belgelerin tam metnini indirmek için -t bayrağını ekleyin. Diğer isteğe bağlı bayraklar, indirilecek yayınların tarih aralığını belirtir (-d) ve protein adlarını taramak için seçenekler sağlar (adım 3.3'te açıklanmıştır). Ayrıştırılmış bir belge örneği Şekil 3'te gösterilmektedir.
Örnek komut: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
NOT: Hesaplama protokolü süresinin büyük bir kısmı, potansiyel olarak 24 saatten fazla sürebilen adım 3.2'ye harcanır. Çalışma zamanı, indirilecek metin derleminin boyutuna bağlıdır ve bu da tarih aralığına ve etiket atama ve tam metin işlevselliğinin etkinleştirilip etkinleştirilmediğine bağlı olacaktır.
(Önerilen) Protein isimlerini tarayın. Hastalıkla ilgili yayınlarda tanımlanan protein isimleri, protein hastalığı ilişkilerine katkıda bulunur, ancak yanlış pozitiflere eğilimlidir (yani, diğer kelimelerle eş anlamlılar). Bunu ele almak için, bir kara listedeki (config/remove_these_synonyms.txt) olası eş anlamlıları numaralandırın, böylece aşağı akış adımlarının dışında tutulurlar.
1. İncelenecek adları bulun: Sonuç klasörünün altında, ilgilenilen puan(lar)a bağlı olarak all_proteins veya core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) altında en yüksek frekansa sahip protein adlarını ve ranked_proteins klasörlerin altında en yüksek puana sahip protein adlarını bulun. Çok sayıda isim varsa, en yüksek puanı alan isimlerin incelenmesine öncelik verin.
2. Adları inceleyin: En fazla 10 ad içeren yayını görüntülemek için python caseolap_lift.py text_mining -c ve ardından bir protein adı yazın. Ardından, her isim için, ismin proteine özgü olup olmadığını kontrol edin.
3. Puanları yeniden hesaplayın: python caseolap_lift.py text_mining -s yazın. Adım 3.1'deki adlar doğru görünene kadar adım 3.1, adım 3.2 ve adım 3.3'ü tekrarlayın.

4. Sonuçları analiz etme

Metin madenciliği sonuçlarının, analiz adımı için girdi olarak kullanılacak sonuç klasöründe (örneğin, sonuç/all_proteins ve sonuç/core_proteins dizinleri ve ilişkili dosyalar) olduğundan emin olun. Spesifik olarak, her bir protein-hastalık ilişkisinin gücünü gösteren bir skor, metin madenciliğinden elde edilen caseolap.csv sonuçlarında rapor edilir. Yalnızca GO terimi ile ilgili proteinleri dahil etmek için --analyze_core_proteins veya işlevsel olarak ilişkili tüm proteinleri dahil etmek için --analyze_all_proteins belirterek analiz için hangi metin madenciliği sonuçları kümesinin kullanılacağını belirtin.
Her hastalık için en iyi proteinleri ve yolları belirleyin. Önemli protein-hastalık ilişkileri, belirli bir eşiği aşan puanlara sahip olanlar olarak tanımlanır. Z-skoru, her bir hastalık kategorisindeki CaseOLAP skorlarını dönüştürür ve belirli bir eşiğin ( -z bayrağı ile gösterilir) üzerindeki skorlara sahip proteinleri anlamlı olarak kabul eder.
NOT: Her hastalık için önemli olan biyolojik yollar, reaktom yolu analizi için girdi olarak önemli proteinler kullanılarak otomatik olarak tanımlanır. Tüm bu proteinler analysis_results klasöründe ortaya çıkan result_table.csv raporlanır ve ilgili rakamlar ve yol analizi sonuçları analysis_results klasöründe otomatik olarak oluşturulur.
Örnek komut: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
Analiz sonuçlarını gözden geçirin ve gerektiği gibi ayarlayın. Proteinlerin sayısı ve dolayısıyla her bir hastalık kategorisi için önemli olan zenginleştirilmiş reaktom yolları, analizde kullanılan z-skoru eşiğine bağlıdır. Çıktı/analysis_results/zscore_cutoff_table.csv'de oluşturulan bir z-skoru tablosu, her bir hastalık kategorisi için önemli olan birkaç proteini verirken, mümkün olduğunca yüksek bir z-skoru eşiğinin seçilmesine yardımcı olmak için her bir hastalık kategorisi için önemli olan protein sayısını gösterir.

5. Tahmine dayalı analiz

Bir bilgi grafiği oluşturun.
1. Ön işlemeden oluşturulan kg klasörü (adım 2.4) ve all_proteins veya core_proteins klasörleri altındaki metin madenciliği sonuçlarından caseolap.csv dahil olmak üzere gerekli dosyaların sonuçlar klasöründe olduğundan emin olun.
2. Bilgi grafiğini tasarlayın. Aşağı akış görevine bağlı olarak, tam bilgi grafiğinin bileşenlerini dahil edin veya hariç tutun. Bilgi grafiği, metin madenciliğinden elde edilen protein-hastalık puanlarından ve adım 2.4'te kullanılan bilgi tabanı kaynaklarına bağlantılardan oluşur (Şekil 4). --include_mesh bayrağı ile MeSH hastalık ağacını, --include_ppi ile STRING'den protein-protein etkileşimlerini, --include_pw ile paylaşılan reaktom yollarını ve --include_tfd ile GRNdb/GTEx'ten transkripsiyon faktörü bağımlılığını ekleyin.
3. Bilgi grafiği oluşturma modülünü çalıştırın. Yalnızca GO terimi ile ilgili proteinleri dahil etmek için --analyze_core_proteins veya işlevsel olarak ilişkili tüm proteinleri dahil etmek için --analyze_all_proteins belirterek analiz için hangi metin madenciliği sonuçları kümesinin kullanılacağını belirtin. Varsayılan olarak, ham CaseOLAP puanları, protein ve hastalık düğümleri arasındaki kenar ağırlıkları olarak yüklenir; Kenar ağırlıklarını ölçeklendirmek için --use_z_score veya negatif olmayan z puanlarını --scale_z_score ile belirtin.
  Örnek komut: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
Yeni protein-hastalık ilişkilerini tahmin edin.
1. Bilgi grafiği dosyalarının (merged_edges.tsv ve merged_nodes.tsv) önceki adımdan (adım 5.1.3) çıktısının alındığından emin olun.
2. python kg_analysis/run_kg_analysis.py yazarak bilimsel literatürde şimdiye kadar bildirilmemiş protein-hastalık ilişkilerini tahmin etmek için bilgi grafiği tahmin komut dosyasını çalıştırın. Bu, GraPE³⁰ ile uygulanır ve çok katmanlı bir algılayıcının protein-hastalık ilişkilerini tahmin etmek için kullandığı bilgi grafiği yerleştirmelerini üretmek için DistMult^31'i kullanır. Çıktı/kg_analysis klasöründe, tahmin edilen olasılık >0,90 (tahminler.csv) ve model değerlendirme ölçümleri (eval_results.csv) olan tahminler kaydedilir.
  NOT: Bu çalışmada, seçilen model parametreleri (örneğin, gömme yöntemi, bağlantı tahmin modeli, hiperparametreler) temsili çalışma için uyarlanmıştır. Bu kod, diğer analizler için bir örnek ve başlangıç noktası görevi görür. Model parametrelerini keşfetmek için GraPE'nin belgelerine (https://github.com/AnacletoLAB/grape) bakın.

Sonuçlar

Mitokondriyal proteinler (Tablo 2) ve sekiz kardiyovasküler hastalık kategorisi (Tablo 3) arasındaki ilişkileri incelemek için bu protokolü takiben temsili sonuçlar üretildi. Bu kategorilerde, 2012'den Ekim 2022'ye kadar yayınlanmış 363.567 yayın bulduk (362.878'i MeSH meta verilerine göre kategorize edilmiş, 6.923'ü etiket atamasına göre kategorize edilmiştir). Tüm yayınların başlıkları, 276.524'ünün özetleri ve 51.065'inin tam metni mevcuttu. Genel olarak, sorgulanan 1.687 mitokondriyal proteinden 584'ü yayınlarda tanımlanırken, sorgulanan 8.026 fonksiyonel ilişkili proteinden 3.284'ü tanımlandı. Toplamda, tüm hastalık kategorilerinde anlamlı puanlarla 14 benzersiz protein tanımlandı ve z-skoru eşiği 3.0 idi (Şekil 5). Bu proteinlerin Reactome yolağı analizi, tüm hastalıklar için önemli olan 12 yolu ortaya çıkardı (Şekil 6). Tüm proteinler, yollar, hastalıklar ve puanlar bir bilgi grafiğine entegre edildi (Tablo 4). Bu bilgi grafiği, 12.688 yeni protein-hastalık ilişkisini tahmin etmek için kullanıldı ve 1.583 yüksek güvenilirlikli tahmin elde etmek için 0.90'lık bir olasılık puanıyla filtrelendi. İki protein-hastalık ilişkisinin vurgulanan bir örneği, proteinlerle işlevsel olarak ilişkili diğer ilgili biyolojik varlıklar bağlamında gösterilen Şekil 7'de gösterilmektedir. Model değerlendirme ölçümleri Tablo 5'te raporlanmıştır.

figure-results-1606
Şekil 1: İş akışının dinamik görünümü. Bu şekil, bu iş akışındaki dört ana adımı temsil eder. İlk olarak, ilgili proteinler, kullanıcı tarafından sağlanan GO terimlerine (örneğin, hücresel bileşenler) göre düzenlenir ve hastalık kategorileri, kullanıcı tarafından sağlanan hastalık MeSH tanımlayıcılarına göre hazırlanır. İkinci olarak, proteinler ve hastalıklar arasındaki ilişkiler metin madenciliği adımında hesaplanır. Belirli bir tarih aralığındaki yayınlar indirilir ve indekslenir. Hastalık inceleyen yayınlar tanımlanır (MeSH etiketleri ve isteğe bağlı olarak atfedilen etiketler aracılığıyla ) ve tam metinleri indirilir ve indekslenir. Protein isimleri yayınlarda sorgulanır ve protein-hastalık ilişki skorlarının hesaplanmasında kullanılır. Daha sonra, metin madenciliğini takiben, bu puanlar en iyi protein ve yol ilişkilerini belirlemeye yardımcı olur. Son olarak, bu proteinleri, hastalıkları ve bunların biyomedikal bilgi tabanı içindeki ilişkilerini kapsayan bir bilgi grafiği oluşturulur. Yeni protein-hastalık ilişkileri, oluşturulan bilgi grafiğine dayalı olarak tahmin edilir. Bu adımlar, biyomedikal bilgi tabanlarından ve PubMed'den elde edilen en son verileri kullanır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-3191
Şekil 2: İş akışının teknik mimarisi. Bu iş akışının teknik ayrıntıları bu şekilde gösterilmiştir. Kullanıcı, hastalık kategorilerinin ve GO terimlerinin MeSH ağaç numaralarını sağlar. Metin belgeleri PubMed'den indirilir, hastalıkla ilgili belgeler sağlanan MeSH etiketlerine göre tanımlanır ve konu belirten MeSH etiketleri olmayan belgeler atfedilen kategori etiketlerini alır. Sağlanan GO terimi (terimleri) ile ilişkili proteinler edinilir. Bu protein seti, protein-protein etkileşimleri, paylaşılan biyolojik yollar ve transkripsiyon faktörü bağımlılığı yoluyla işlevsel olarak ilişkili proteinleri içerecek şekilde genişletilir. Bu proteinler hastalıkla ilgili belgelerde sorgulanır ve CaseOLAP tarafından puanlanır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-4298
Şekil 3: İşlenmiş bir belge örneği. Ayrıştırılmış, dizine alınmış bir metin belgesi örneği burada sunulmuştur. Sırasıyla, ilgili alanlar dizin adını (_index, _type), PubMed ID'yi (_id, pmid), belge alt bölümlerini (başlık, özet, full_text, giriş, yöntemler, sonuçlar, tartışma) ve diğer meta verileri (yıl, MeSH, konum, dergi) gösterir. Yalnızca görüntüleme amacıyla, belge alt bölümleri üç nokta ile kesilir. MeSH alanı, bazen etiket atama adımımız tarafından sağlanabilecek belge konularını içerir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-5173
Şekil 4: Bilgi grafiği şeması ve biyomedikal kaynaklar. Bu şekilde bilgi grafiği şeması gösterilmektedir. Her düğüm ve kenar, sırasıyla bir düğüm veya kenar türünü temsil eder. Kardiyovasküler hastalıklar (KVH'ler) ve proteinler arasındaki kenarlar CaseOLAP skorları ile ağırlıklandırılır. Protein-protein etkileşimi (PPI) kenarları, STRING güven puanlarına göre ağırlıklandırılır. GRNdb/GTEx'ten türetilen transkripsiyon faktörü bağımlılığı (TFD) kenarları, MeSH'den türetilen hastalık ağacı kenarları ve reaktomdan türetilen yol kenarları ağırlıksızdır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-6103
Şekil 5: En iyi protein-hastalık ilişkileri. Bu şekil, her hastalık kategorisi için önemli olan mitokondriyal proteinleri sunar. 3.0 eşiği kullanılarak önemli proteinleri tanımlamak için her kategorideki CaseOLAP skorlarına Z-skoru dönüşümü uygulandı. (Yukarıya git) Her hastalık için önemli olan mitokondriyal proteinlerin sayısı: Bu keman grafikleri, her hastalık kategorisindeki proteinler için z-skorlarının dağılımını gösterir. Her hastalık kategorisi için önemli olan toplam protein sayısı, her keman grafiğinin üzerinde gösterilmiştir. Tüm hastalıklarda toplam 14 benzersiz protein önemli olarak tanımlandı ve bazı proteinler birden fazla hastalık için önemliydi. (Altta) En yüksek puan alan proteinler: Isı haritası, tüm hastalıklarda en yüksek ortalama z-skorlarını elde eden ilk 10 proteini gösterir. Boş değerler, protein ve hastalık arasında elde edilen bir skoru temsil etmez. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-7401
Şekil 6: En iyi yolak-hastalık ilişkileri. Bu şekil, reaktom yolu analizi ile belirlendiği üzere, incelenen hastalık kategorileriyle ilişkili en iyi biyolojik yolları göstermektedir. Tüm yolak analizleri p < 0.05 ile filtrelendi. Isı haritası değerleri, yoldaki tüm proteinlerin ortalama z-skorunu temsil eder. (Yukarıya git) Tüm hastalıklar arasında korunan yollar: Genel olarak, tüm hastalık kategorileri ile ilgili olarak 14 protein tanımlandı ve tüm hastalık kategorileri arasında 12 korunmuş yol ortaya çıkarıldı. Yolları benzer biyolojik işlevlerle birbirine bağlamak için yol hiyerarşik yapısına dayalı olarak bir dendrogram oluşturuldu. Dendrogram yüksekliği, yol hiyerarşisi içindeki göreli derinliği temsil eder; Geniş biyolojik işlevler daha uzun uzuvlara sahiptir ve daha spesifik yollar daha kısa uzuvlara sahiptir. (Altta) Bir hastalık kategorisine özgü yollar: Yol analizi, her hastalıkta anlamlı bir z-skoru elde eden proteinler kullanılarak gerçekleştirildi. Her hastalıkla ilişkili en düşük p değerlerine sahip ilk üç yol gösterilir ve yıldızlarla gösterilir. Yollar birden fazla hastalıkta ilk üç içinde olabilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

figure-results-8969
Şekil 7: Bilgi grafiği tamamlama için derin öğrenme uygulaması. Hastalığa özgü bir bilgi grafiğine derin öğrenmenin uygulanmasına ilişkin bir örnek bu şekilde sunulmuştur. Proteinler ve hastalık arasındaki gizli ilişkiler tahmin edilir ve bunlar mavi ile gösterilir. Her iki tahmin için de hesaplanan olasılıklar, 0,0 ile 1,0 arasında değişen değerlerle ve 1,0 güçlü bir tahmini gösterecek şekilde görüntülenir. Protein-protein etkileşimlerini, transkripsiyon faktörü bağımlılığını ve paylaşılan biyolojik yolları temsil eden bilinen etkileşimlere sahip birkaç protein dahil edilmiştir. Görselleştirme için, vurgulanan örnekle ilgili birkaç düğümün alt grafiği gösterilir. Anahtar: IHD = iskemik kalp hastalığı; R-HSA-1430728 = metabolizma; O14949 = sitokrom b-c1 kompleksi alt birimi 8; P17568 = NADH dehidrojenaz (ubikinon) 1 beta alt kompleks alt birimi 7; Q9NYF8 Bcl-2 ile ilişkili transkripsiyon faktörü 1, skor: 7.24 x 10⁻⁷; P49821 = NADH dehidrojenaz (ubikinon) flavoprotein 1, mitokondriyal, skor: 1.06 x 10⁻⁵; P31930 = sitokrom b-c1 kompleks alt birimi 1, mitokondriyal, skor: 4.98 x 10⁻⁵; P99999 = sitokrom c, skor: 0.399. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.

Tablo 1: İş akışı ve hız sınırlama adımları. Bu tabloda, iş akışının her aşaması için hesaplama süresinin kabaca tahminleri sunulmaktadır. İşlem hattının bileşenlerini dahil etme seçenekleri, analizi tamamlamak için gereken toplam çalışma zamanını değiştirir. Toplam süre tahmini, donanım özellikleri ve yazılım ayarları dahil olmak üzere mevcut hesaplama kaynaklarına bağlı olarak değişir. Kaba bir tahmin olarak, protokolün altı çekirdek, 32 Gb RAM ve 2 Tb depolama ile hesaplama sunucumuzda yürütülmesi 36 saat aktif çalışma süresi aldı, ancak bu diğer cihazlarda daha hızlı veya daha yavaş olabilir. Bu Tabloyu indirmek için lütfen buraya tıklayın.

Tablo 2: Hücresel bileşen proteinlerinin otomatik montajı. Bu tablo, belirli bir hücresel bileşenle (yani GO terimi) ilişkili proteinlerin sayısını, protein-protein etkileşimleri (PPI), paylaşılan yollar (PW) ve transkripsiyon faktörü bağımlılığı (TFD) yoluyla işlevsel olarak bunlarla ilişkili proteinleri gösterir. Toplam protein sayısı, önceki tüm kategorilerin toplamından proteinlerin sayısıdır. İşlevsel olarak ilişkili tüm proteinler, CaseOLAP LIFT'in varsayılan parametreleri kullanılarak elde edildi. Bu Tabloyu indirmek için lütfen buraya tıklayın.

Tablo 3: MeSH etiket atama istatistikleri. Bu tablo, hastalık kategorilerini, kategoriye dahil edilen tüm hastalıkların ana terimi olarak kullanılan MeSH ağaç numaralarını, 2012-2022 yılları arasında her kategoride bulunan PubMed makalelerinin sayısını ve etiket atama adımına göre dahil edilen ek makalelerin sayısını gösterir. Bu Tabloyu indirmek için lütfen buraya tıklayın.

Tablo 4: Bilgi grafiği oluşturma istatistikleri. Bu tabloda, çeşitli düğümler ve kenar türleri de dahil olmak üzere oluşturulan bilgi grafiğinin boyutuna ilişkin istatistikler açıklanmaktadır. CaseOLAP skorları, bir protein ve bir kardiyovasküler hastalık (CVD) kategorisi arasındaki ilişkiyi temsil eder. Bu Tabloyu indirmek için lütfen buraya tıklayın.

Tablo 5: Bilgi grafiği tahmin istatistikleri ve doğrulamaları. Bu tablo, yeni/gizli protein-hastalık ilişkilerinin bilgi grafiği bağlantı tahmini için değerlendirme ölçümlerini rapor eder. Bilgi grafiği kenarları 70/30 eğitim ve test veri kümelerine bölündü ve kenarların grafik bağlantısı her iki veri kümesinde de korundu. Doğruluk, doğru sınıflandırılan tahminlerin oranını gösterirken, dengeli doğruluk, sınıf dengesizliğini düzeltir. Özgüllük, doğru sınıflandırılmış negatif tahminlerin oranını gösterir. Kesinlik, tüm olumlu tahminlerden doğru pozitif tahminlerin oranını gösterirken, geri çağırma, tüm pozitif kenarlardan (yani, metin madenciliği yoluyla tanımlanan protein-hastalık ilişkileri) doğru pozitif tahminlerin oranını gösterir. F1 puanı, kesinlik ve geri çağırmanın harmonik ortalamasıdır. Alıcı çalışma karakteristik eğrisinin (AUROC) altındaki alan, modelin pozitif ve negatif tahminler arasında ne kadar iyi ayrım yaptığını açıklar ve 1.0 mükemmel bir sınıflandırıcıyı gösterir. Kesinlik-geri çağırma eğrisinin (AUPRC) altındaki alan, değişen olasılık eşiklerinde kesinlik ve geri çağırma arasındaki dengeyi ölçer ve daha yüksek değerler daha iyi performansı gösterir. Bu Tabloyu indirmek için lütfen buraya tıklayın.

Tartışmalar

CaseOLAP LIFT, araştırmacılara fonksiyonel proteinler (örneğin, hücresel bir bileşen, biyolojik süreç veya moleküler işlevle ilişkili proteinler) ve biyolojik kategoriler (örneğin, hastalıklar) arasındaki ilişkileri araştırmaları için yetki verir. Protokol bölüm 4 ve protokol bölüm 5 sonuçlarına bağlı olduğundan, protokol bölüm 2 ve protokol bölüm 3 en kritik adımlar olmak üzere açıklanan protokol belirtilen sırayla yürütülmelidir. Protokol bölüm 1'e alternatif olarak, CaseOLAP LIFT kodu kopyalanabilir ve GitHub deposundan (https://github.com/CaseOLAP/caseolap_lift) erişilebilir. Yazılım geliştirme sırasında yapılan testlere rağmen hataların meydana gelebileceği unutulmamalıdır. Bu durumda, başarısız olan adım tekrarlanmalıdır. Sorun devam ederse, docker kapsayıcısının en son sürümünün kullanıldığından emin olmak için protokol bölüm 1'i tekrarlamanız önerilir. Ek destek için GitHub deposunda bir sorun oluşturarak daha fazla yardım alabilirsiniz.

Bu yöntem, araştırmacıların ilgilenilen varlıkları belirlemelerini ve mevcut biyomedikal kaynaklarda kolayca erişilemeyebilecek aralarındaki potansiyel ilişkileri ortaya çıkarmalarını sağlayarak hipotez üretimini destekler. Ortaya çıkan protein-hastalık ilişkileri, araştırmacıların puanların yorumlanabilir metrikleri aracılığıyla yeni bilgiler edinmelerini sağlar: popülerlik puanları, bir hastalıkla ilgili olarak en çok çalışılan proteinleri gösterir, ayırt edicilik puanları, bir proteine en özgü hastalıkları gösterir ve birleşik CaseOLAP skoru, ikisinin bir kombinasyonudur. Yanlış pozitif tanımlamaları önlemek için (örneğin, eş anlamlılar nedeniyle), bazı metin madenciliği araçları ^9,11'den kaçınmak için bir kara terim listesi kullanır. Benzer şekilde, CaseOLAP LIFT de bir kara liste kullanır ancak kullanıcının kara listeyi kendi kullanım durumuna göre uyarlamasına olanak tanır. Örneğin, koroner arter hastalığı (CAD) incelenirken, "CAD", "kaspazla aktive olan deoksiribonükleaz" proteini için bir isim olarak düşünülmemelidir. Bununla birlikte, diğer konuları incelerken, "CAD" genellikle proteine atıfta bulunabilir.

CaseOLAP LIFT, metin madenciliği için mevcut veri miktarına uyum sağlar. Tarih aralığı işlevi, hesaplama yükünü hafifletir ve hipotez oluşturma için esneklik yaratır (örneğin, bir protein-hastalık ilişkisi hakkındaki bilimsel bilginin zaman içinde nasıl değiştiğini incelemek). Bu arada, etiket atama ve tam metin bileşenleri, metin madenciliği için mevcut verilerin kapsamını geliştirir. Hesaplama maliyetlerini azaltmak için her iki bileşen de varsayılan olarak devre dışıdır, ancak kullanıcı her iki bileşeni de dahil etmeye karar verebilir. Etiket ataması muhafazakardır ve çoğu yayını doğru bir şekilde kategorize eder (%87 kesinlik) ancak diğer kategori etiketlerini kaçırır (%2 hatırlama). Bu yöntem şu anda hastalık anahtar sözcükleriyle eşleşen kural tabanlı bir buluşsal yönteme dayanmaktadır ve belge konusu modelleme tekniklerinin kullanılmasıyla performansı artırma planları vardır. Kategorize edilmemiş raporların çoğu yeni yayınlar olma eğiliminde olduğundan, yakın bir tarih aralığını (örneğin, son 3 yıldaki tüm yayınlar) araştıran çalışmalar, etiket ataması devre dışı bırakılarak daha iyi sunulur. Tam metin bileşeni, çalışma zamanı ve depolama gereksinimlerini artırır. Özellikle, belgelerin yalnızca küçük bir kısmı tam metne sahiptir (çalışmamızdaki belgelerin ~%14'ü). Yayınların yöntemler bölümünde belirtilen protein isimlerinin hastalık konularıyla ilgili olma olasılığının daha düşük olduğu varsayılarak, yöntemler bölümü hariç tam metin makalelerin sorgulanması önerilir.

Elde edilen protein-hastalık ilişkilendirme puanları, kümeleme, boyutsallık azaltma veya zenginleştirme analizleri (örneğin, GO, yollar) gibi geleneksel analizler için yararlıdır ve bazı uygulamalar bu yazılım paketine dahil edilmiştir. Bu puanları mevcut biyomedikal bilgi içinde bağlamsallaştırmak için, bir bilgi grafiği otomatik olarak oluşturulur ve grafik görselleştirme araçları (örneğin, Neo4j³², Cytoscape³³) kullanılarak keşfedilebilir. Bilgi grafiği ayrıca öngörücü analizler için de kullanılabilir (örneğin, bildirilmemiş protein-hastalık ilişkilerinin bağlantı tahmini, protein ağlarının topluluk tespiti, ödül toplama yol yürüme yöntemleri).

Tahmin edilen protein-hastalık ilişkileri için model değerlendirme metriklerini inceledik (Tablo 5). Model, her bir protein-hastalık ilişkisine 0.0 ile 1.0 arasında bir olasılık puanı atar ve 1.0'a yakın puanlar, tahminde daha yüksek bir güven düzeyini gösterir. AUROC, doğruluk, dengeli doğruluk, özgüllük ve hatırlama dahil olmak üzere çeşitli metriklere dayanan model performansının dahili değerlendirmesi, çalışmalarında mükemmel bir genel performans gösterdi. Bununla birlikte, değerlendirme aynı zamanda modelin kesinliği (0.15) için oldukça düşük bir puanı vurguladı ve bu da hem daha düşük bir AUPRC hem de F1 puanıyla sonuçlandı. Bu metriği geliştirmeye yönelik gelecekteki çalışmalar, modelin genel performansını yükseltmeye yardımcı olacaktır. Bunun, daha karmaşık bilgi grafiği yerleştirme ve grafik tahmin modelleri uygulayarak başarılabileceğini öngörüyoruz. Modelin 0.15'lik kesinliğine dayanarak, araştırmacılar yaklaşık% 15 pozitif tanımlama beklemelidir; Özellikle, model tarafından tahmin edilen 12.688 protein-hastalık ilişkisinin yaklaşık% 15'i gerçek pozitif ilişkilerdir. Bu, yalnızca yüksek olasılık puanına sahip protein-hastalık ilişkileri dikkate alınarak hafifletilebilir (örneğin, >0.90); Kullanım örneğimizde, 0,90 olasılık eşiği ile filtreleme, 1.583 ilişkilendirmenin yüksek güvenilirlikli tahminlerine yol açtı. Araştırmacılar, yüksek geçerlilik sağlamak için bu tahminleri manuel olarak incelemeyi de yararlı bulabilirler (örnek olarak Şekil 7'ye bakın). Tahminlerimizin dış değerlendirmesi, kapsamlı bir küratörlü veri tabanı DisGeNet^19'dan 310 protein-hastalık ilişkisinden 103'ünün metin madenciliği çalışmamızda tanımlandığını ve 88 ek ilişkinin bilgi grafiği analizimiz tarafından >0.90 olasılık puanıyla tahmin edildiğini belirledi.

Genel olarak, CaseOLAP LIFT, büyük metin derleminde fonksiyonel protein grupları ve çoklu hastalık kategorileri arasındaki ilişkilerin özel analizlerinin tasarlanmasında gelişmiş esneklik ve kullanılabilirlik sunar. Bu paket, yeni bir kullanıcı dostu komut satırı arabiriminde kolaylaştırılmıştır ve bir docker kapsayıcısı olarak yayınlanır, böylece programlama ortamlarının ve yazılım bağımlılıklarının yapılandırılmasıyla ilgili sorunları azaltır. Kardiyovasküler hastalıklarda mitokondriyal proteinleri incelemek için CaseOLAP LIFT boru hattı kolayca uyarlanabilir; örneğin, bu tekniğin gelecekteki uygulamaları, herhangi bir GO terimi ile ilişkili herhangi bir protein ile herhangi bir biyomedikal kategori arasındaki ilişkilerin araştırılmasını içerebilir. Ayrıca, bu metin madenciliği platformu tarafından belirlenen sıralı protein-hastalık ilişkileri, gelişmiş doğal dil tekniklerinin kullanımı için veri setinin hazırlanmasında önemlidir. Ortaya çıkan bilgi grafiği, araştırmacıların bu bulguları biyolojik olarak bilgilendirici bilgilere dönüştürmelerini sağlar ve takip grafiği tabanlı analizler için temel oluşturur.

Açıklamalar

Yazarların açıklayacak hiçbir şeyi yok.

Teşekkürler

Bu çalışma, Ulusal Sağlık Enstitüleri (NIH) R35 HL135772 tarafından P.P.'ye, NIH T32 HL13945 A.R.P. ve DS'ye, NIH T32 EB016640 A.R.P.'ye, Ulusal Bilim Vakfı Araştırma Stajyerliği (NRT) 1829071 tarafından A.R.P. ve DS'ye, I.A., J.R., A.V., K.B. için NIH R01 HL146739 ve UCLA'da PP'ye TC Laubisch Bağışı.

Malzemeler

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

Referanslar

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043(2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108(2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135(2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680(2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171(2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96(2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304(2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118(2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Yeniden Basımlar ve İzinler

Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi

Izin talebi

Daha Fazla Makale Keşfet

Biyokimya Say 200

This article has been published

Video Coming Soon

Keep me updated: