Protokolümüz, protein, genom veya kimyasalların belirli hastalıklarla ilişkisini değerlendirmek için, kullanıcı tanımlı varlık kategorisi ilişkisi için bulut tabanlı bir ifade madenciliği platformu oluşturmak için adım adım bir ölçü sağlar. Bu tekniğin başlıca avantajları manuel varlık kategorisi dernek değerlendirmesi, gelişmiş erişilebilirlik ve yaygın biyomedikal araştırma uygulamaları için ifade madencilik araçlarının kullanımı üzerinde geliştirilmiş verimlilik vardır. Kullanıcılar, biyomedikal yayınlarda veya belirli anahtar kelimelerle ilişkili metin belgelerde yer alan varlıkları ve ilgi çekici kategorileri seçebilir.
Yeni kullanıcılar protokolümüzü ve makalede sağlanan referansları takip edebilir ve GitHub depomuzda teknik sorunları gündeme getirebilirler. Bu konunun görsel gösterimi protokolün nasıl gerçekleştirilece daha fazla açıklık katar ve yeni metin madenciliği araçlarının uygulanmasını teşvik eder. Bir metin küpü oluşturmak için, önce mevcut en son tıbbi konu başlıklarını veya kafes ağacını indirin.
Mesh ağacı 2018'in kodu MESHTree2018'dir. ve giriş dizinine girilmelidir. Bir veya daha fazla kafes tanımlayıcısını kullanarak ilgi alan kategorilerini tanımlayın ve bir kategori için kafes tanımları toplayın.
textcube_config kategorilerin adlarını kaydedin. config dizininde json dosyası ve bir boşluk tarafından ayrılmış bir satırda kafes iLikleri toplanan kategorileri ekleyin. Kategori dosyasını kategoriler olarak kaydedin.
giriş dizininde txt. Bu algoritma otomatik olarak tüm soyundan gelen örgü tanımlayıcıları seçer. Mesh2pmid'den emin ol.
json veri dizininde. Kafes ağacı giriş dizininde farklı bir adla güncelleştirildiyse, bunun run_textcube giriş veri yolunda düzgün şekilde temsil edildiğinden emin olun. py dosyası.
Metin küpü adı verilen bir belge yapısı oluşturmak için python run_textcube girin. terminalde py her kategori için belgelerin bir koleksiyon oluşturmak için. Tek bir belge birden çok kategoriye düşebilir.
Metin küpü oluşturma adımı tamamlandıktan sonra, PMID tablosuna bir hücrenin veri dizinine textcube_cell2pmid.json olarak kaydedildiğinden emin olun. Hücre eşleme tablosuna bir PMID veri dizininde textcube_pmid2cell.json olarak kaydedilir. Bir hücre için tüm soyundan gelen kafes terimleri koleksiyonu meshterms_per_cat.json olarak veri dizinine kaydedilir.
Ve metin küpü veri istatistikleri textcube_stat.txt olarak veri dizinine kaydedilir. Ardından, textcube_log'daki günlük iletilerini okumak için günlük dizinine gidin. txt, bu işlem başarısız olursa.
İşlem başarıyla tamamlanırsa, metin küpü oluşturma hata ayıklama iletileri günlük dosyasında yazdırılır. Bir varlık sayısı için, bir varlığı ve kısaltmalarını dikey çizgi simgesiyle ayrılmış tek bir satıra yerleştirerek kullanıcı tanımlı varlıklar oluşturun. Varlık dosyasını varlık olarak kaydedin.
giriş dizininde txt ve Elasticsearch sunucusunun çalıştığını unutmayın. Elasticsearch sunucusunda PubMed adlı dizinlenmiş bir veritabanı varsa, textcube_pmid2cell varlığını onaylayın. veri dizininde json dosyası ve python run_entitycount girin.
terminalde py bir varlık sayımı işlemi gerçekleştirmek için. Dizin veritabanındaki tüm belgeler ve her belgedeki varlık sayısı sayıldığında ve varlıkların bulunduğu PMD'ler toplandığında, nihai sonuçları varlık sayısı olarak kaydedin. txt ve entityfound_pmid2cell.
veri dizininde json. Ardından, entitycount_log günlük iletilerini okumak için günlük dizinini açın. txt, bu işlem başarısız olursa.
İşlem başarıyla tamamlanırsa, varlık sayısının hata ayıklama iletileri günlük dosyasında yazdırılır. Tüm giriş verilerinin veri dizininde olduğundan emin olun. Bunlar meta veri güncelleştirmesi için giriş verileridir.
Meta veri koleksiyonu hazırlamak için python run_metadata_update girin. py terminalinde meta verileri güncelleştirmek için. Meta veri güncelleştirmesi tamamlandıktan sonra, metadata_pmid2pcount emin olun.
json ve metadata_cell2pmid. json dosyaları veri dizinine kaydedilir. metadata_update_log günlük iletilerini okumak için günlük dizinine gidin.
txt dosyası, bu işlem başarısız olursa. İşlem başarıyla tamamlanırsa, meta veri güncelleştirmesinin hata ayıklama iletileri günlük dosyasında yazdırılır. Bağlam bilincine duyarlı anlamsal çevrimiçi analitik işlem puanı hesaplaması için, metadata_pmid2pcount varlığını doğrulayın.
json ve metadata_cell2pmid. veri dizinindeki json dosyaları. Bunlar puan hesaplaması için giriş verileridir.
Python run_caseolap_score girin. py terminalinde kullanıcı tanımlı kategorilere dayalı varlıkların bağlam farkında semantik bir online analitik işlem puanı hesaplaması yapmak. Puan bütünlük, popülerlik ve ayırt edicilik ürünüdür.
Puan hesaplaması tamamlandıktan sonra, sonuçların sonuç dizinine kaydettiğini doğrulayın. Ardından, caseolab_score_log günlük iletilerini okumak için günlük dizinine erişin. txt dosyası, bu işlem başarısız olursa.
İşlem başarıyla tamamlanırsa, caseolab puan hesaplamasının hata ayıklama iletileri günlük dosyasına yazdırılır. Dört bebek, çocuk, ergen ve yetişkin yaş grubu alt kategorisinden elde edilen meta veriler ve istatistikler kullanılarak, metin küpü hücreleri arasında belge sayısının karşılaştırılması görüntülenebilir. Burada, yetişkin alt kategorisi tüm hücreler arasında en yüksek sayıyı içerir ve yetişkin ve ergen alt kategorileri en yüksek paylaşılan belge sayısına sahip ve bu temsili çözümlemesi için ilgi sahibi varlığı içerir.
Protein yaş grubu ilişkisinin bağlam bilincine sahip bir online analitik işlem skoru olarak değerlendirilmesiyle, bebek, çocuk, ergen ve erişkin alt kategorileri ile ilişkili ilk 10 protein belirlenebildi. Burada elde edilen meta veriler ve beslenme ve metabolik hastalıklar alt kategorilerine ait istatistikler gösterilmiştir. Alt kategori metabolik hastalık, beslenme bozuklukları alt kategorisinden neredeyse üç kat daha fazla belge içerir.
Metabolik hastalık ve beslenme bozuklukları alt kategorilerinde 7,101 paylaşılan belge bulunmaktadır. Özellikle, bu belgeler temsili çalışma için ilgi varlık dahil. Proteinlerin yarısından fazlası alt kategoriler arasında paylaşılır, metabolik hastalık alt kategorisinde ki ilişkili proteinlerin neredeyse yarısı bu alt kategoriye özgüdür ve beslenme bozuklukları alt kategorisinde sadece birkaç benzersiz protein sergilenmektedir.
Bağımsız ve farklı kategoriler ve bir varlığın tüm eşanlamlıve kısaltmalarının bir koleksiyonu en iyi sonuçları sağlar. Varlık kategorisi ilişkisi sayısal bir değer olarak sunulduğundan, kümeleme ve ilke bileşen analizi gibi eksik öğrenme tekniklerinin uygulanmasının kapısı açılır. Bu teknik, bu dernekler içinde gizli veya daha önce tanımlanamayan ilişkilerin keşfini kolaylaştırarak biyolojik süreçlerin daha derin bir şekilde anlaşılmasının önünü açar.