Method Article
* Bu yazarlar eşit katkıda bulunmuştur
Biz bir iletişim kuralı ve ilişkili programlama kodu aynı zamanda bir bulut tabanlı otomatik kimliği kullanıcı seçili bilgi etki Biyomedikal edebiyat alanındaki benzersiz kavramları temsil eden ifadeler-Kategori Derneği desteklemek için meta veri örnekleri mevcut. Bu iletişim kuralı tarafından sayısal ifade-Kategori Derneği derinlik analizi seçili bilgi etki alanındaki kolaylaştırabilir.
Biyomedikal metinsel veri hızlı birikimi çok insan kapasitesi manuel küratörlüğü ve analiz, biyolojik anlayışlar bilimsel raporlar çok sayıda ayıklamak için roman metin madenciliği araçları gerektiren aştı. 2016 yılında geliştirilen bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) boru hattı, başarıyla metinsel veri analizi sayesinde kullanıcı tanımlı tümcecik-Kategori ilişkilerini quantifies. CaseOLAP birçok Biyomedikal uygulamalar vardır.
Uçtan uca ifade-araştırma ve analizler platformu destekleyen bir bulut tabanlı ortamı için bir protokol geliştirdik. Bizim iletişim kuralı veri (örneğin, indirme, ayıklama ve metin belgeleri ayrıştırma) ön işleme içerir, dizin oluşturma ve işlevsel belge yapısı oluşturma Elasticsearch ile arama metin-küp ve ifade-Kategori ilişkileri miktarının denilen çekirdek CaseOLAP algoritmasıyla.
Bizim veri ön işleme tüm belgeler dahil için anahtar-değer eşlemeleri oluşturur. Önişlenmiş veri metin-küp oluşturma ve CaseOLAP puanı hesaplama daha da kolaylaştıran bir arama varlıklar, dahil olmak üzere belgelerin taşımak için dizine alınır. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal, dahil olmak üzere bütünleştirici analizleri ve coğrafi analizi bir dizi kullanarak yorumlanır. Ayrıca, CaseOLAP puanları belgelerinin anlamsal eşleme sağlar grafik bir veritabanı oluşturmak için kullanılır.
CaseOLAP ifade-Kategori ilişkileri bir doğru (tanımlayan ilişkiler) tanımlar, tutarlı (son derece tekrarlanabilir) ve verimli biçimde (süreçleri 100.000 kelime/sn). Bu iletişim kuralı kullanıcılar kendi yapılandırmalarını ve CaseOLAP uygulamaları desteklemek için bir bulut bilgi işlem ortamı erişebilir. Bu platform geliştirilmiş erişilebilirlik sunmaktadır ve Biyomedikal topluluğu yaygın Biyomedikal Araştırma uygulamaları için ifade-madencilik araçları ile güçlendiriyor.
Metin dosyaları ifade-Kategori Derneği incelenmesi için milyonlarca el ile değerlendirilmesi (e.g., yaş grubu için protein Derneği) otomatik hesaplama yöntemi tarafından sağlanan verimlilik ile eşsiz olduğu. İfade-Kategori Derneği Biyomedikal bağlamında otomatik hesaplama için bir ifade-araştırma yöntemi olarak bulut tabanlı bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) platform tanıtmak istiyorum.
İlk 20161' de tanımlanan, CaseOLAP platformu metin-küp2,3gördü onun işlevsel belge yönetimi nedeniyle veri yönetimi ve hesaplama geleneksel yöntemlerle karşılaştırıldığında çok etkilidir, temel hiyerarşi ve mahalleler koruyarak belgeleri dağıtan 4,. Varlık-Kategori Derneği çalışmaya Biyomedikal Araştırma5 ' te uygulanmıştır. CaseOLAP platformu indirme ve veri, ayrıştırma, dizin oluşturma, metin-küp oluşturma, varlık sayısı ve CaseOLAP puanı hesaplama çıkarılması da dahil olmak üzere altı önemli adımlardan oluşur; (Resim 1, Resim 2, Tablo 1) protokolünün ana odak olduğu.
CaseOLAP algoritması uygulamak için kullanıcı kategorileri ilginç (e.g., hastalık, belirti ve bulgular, yaş grupları, Tanı) ve faiz (örneğin, proteinler, uyuşturucu) varlığı kadar ayarlar. Bu makalede bulunan bir kategori bir örnek olarak hücreleri metin-küp ve protein adları (eş anlamlı) ve kısaltmaların varlıklar olarak 'Yaş grupları' sahip 'Bebek', 'çocuk', 'gençlik' ve 'yetişkin' alt kategorileri olduğunu. Medical Subject Headings (MeSH) tanımlanmış kategoriler (Tablo 2) karşılık gelen yayınları almak için geçerli olur. Kafes tanımlayıcıları arama ( şekil 3' te gösterilen bir örnek) özgüllük düzeyleri değişen, yayınlar için izin vermek için bir hiyerarşik ağaç yapısında düzenlenir. CaseOLAP platformu küratörlüğü daha da kolaylaştırmak belge varlık sayısı eşleme ve CaseOLAP puanı hesaplama belgelerin bir varlıkla ilişkili veri dizin oluşturma ve arama işlevini kullanır.
CaseOLAP puanı hesaplama ayrıntılarını önceki yayınları1,5' te kullanılabilir. Bu puanı temel metin-küp belge yapısına göre belirli sıralama ölçütleri kullanarak hesaplanır. Final skoru bütünlük, popülerlikve açıklıkürünüdür. Bütünlüğü temsil edici bir varlık topluca anlamlı bir kavram ifade eder ayrılmaz bir anlamsal birimi olup açıklar. Kullanıcı tanımlı tümcecik bütünlük literatürde standart bir ifade gibi duruyor çünkü 1.0 için alınır. Farklılığını bir ifade içinde bir alt belge diğer hücreler diğerleri ile karşılaştırıldığında farklıdır göreceli uygunluğunu gösterir. İlk hedef veri kümesindeki protein adı geçtiği karşılaştırarak bir varlık alaka özel bir hücreye hesaplar ve normalleştirilmiş bir açıklık Puan sağlar. Popülerlik temsil daha yüksek popülerlik puan ile ifade aslında daha sık belgeleri bir alt kümede görüntülenir. Bir artış söz onların frekans frekans Logaritmik fonksiyonu uygulanması nedeniyle azalan bir dönüş varken bir hücre adlarında nadir protein düşük, sıralanır. Bu üç kavram kantitatif ölçüm varlık (1) Dönem sıklığı bir hücre ve hücre ve (2) Bu varlığın (belge frekans) hücre içinde ve hücreler üzerinde olan belge sayısı bağlıdır.
PubMed veri kümesi ve bizim algoritma kullanarak iki temsilci senaryoları inceledik. Biz ilgilenen nasıl mitokondrial proteinler MeSH tanımlayıcıları; iki benzersiz kategori ile ilişkili "Yaş grupları" ve "beslenme ve metabolik hastalıklar". Özellikle, aralarında 15,728,250 yayınlar PubMed (1998-2018) tarafından toplanan 20 yıl yayınlardan alındı, 8,123,458 benzersiz özetleri full MeSH tanımlayıcıları oldu. UniProt (uniprot.org) hem de MitoCarta2.0 alınan buna göre 1,842 insan mitokondriyal protein adı (dahil kısaltmalar ve eş anlamlı), (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), sistematik inceledi. Bu 8,899,019 yayınlar ve varlıkları ile onların dernekler bizim iletişim kuralı kullanılarak incelenmiştir; Biz metin küp inşa ve ilgili CaseOLAP puanları hesaplanır.
Not: Bu protokol Python programlama diline bağlı geliştirdik. Bu programı çalıştırmak için Anaconda piton ve Git aygıtta önceden yüklü. Bu protokol için sağlanan komutlar UNIX ortamı üzerinde temel alır. Bu iletişim kuralı PubMed (MEDLINE) veritabanından veri indiriyor, verilerin ayrıştırılması ve bir bulut ifade incelemesi ve kullanıcı tanımlı varlık-Kategori Derneği miktar için platform bilgisayar kurma ayrıntı sağlar.
1. kodu ve python ortam kurulumu Başlarken
2. belgeler indirme
3. belgeler ayrıştırma
4. mesh PMID eşleme
5. belge dizin oluşturma
6. metin-küp oluşturma
7. varlık sayısı
8. meta veri güncelleştirmesi
9. CaseOLAP puanı hesaplama
Örnek sonuçlar üretmek için biz hayata CaseOLAP algoritması iki konu başlıkları/tanımlayıcılar içinde: "Yaş grupları" ve "Beslenme ve metabolik kullanım örnekleri gibi hastalıklar".
Yaş grupları. 4 alt kategorileri, "Yaş gruplarının" (bebek, çocuk, ergen ve Yetişkin) metin küp hücrelerde olarak seçildi. Elde edilen meta veriler ve istatistikler tablo 3Aiçinde gösterilir. Metin-küp hücreleri arasında belge sayısı karşılaştırılması şekil 6Aiçinde görüntülenir. Yetişkin tüm hücreler arasında en yüksek sayı olan 172,394 belgeleri içerir. Yetişkin ve ergen alt kategorileri paylaşılan belgeler (26,858 belgeleri) en yüksek sayıda olması. Özellikle, bu belgeleri bizim ilgi sadece (yani, mitokondrial proteinler) varlık dahil. Venn Şeması şekil 6B ' her hücre içinde ve hücreler arasında birden çok örtüştüğü içinde bulunan varlıklar (yani, mitokondrial proteinler) sayısını gösterir. Tüm yaş grupları alt kategorileri içinde paylaşılan proteinler 162 sayısıdır. Yetişkin alt kategori benzersiz proteinler (151) çocuk (16), Bebek (8) ve ergen (1) tarafından takip en yüksek sayısını gösteren. Protein-yaş grubu Derneği bir CaseOLAP puan olarak hesaplanır. Bebek, çocuk, ergen ve yetişkin alt kategorileri ile ilişkili (onların ortalama CaseOLAP puanı göre) en iyi 10 proteinler vardır Sterol 26-hidroksilaz, Alfa-kristalin B zinciri, 25-hydroxyvitamin D-1 alfa-hidroksilaz, Serotransferrin, sitrat sentaz, L-seryl-tRNA, sodyum/potasyum-taşıma ATPaz alt birimi alpha-3, glutatyon S-transferaz omega-1, NADPH: adrenodoxin oxidoreductase ve mitokondrial peptid metiyonin sülfoksit redüktaz ( şekil 6Ciçinde gösterilmiştir). Yetişkin alt kategori ergen, çocuk ve bebek alt kategorisi, en iyi 10 mitokondrial proteinler yetişkin alt kategori için en güçlü ilişkileri sergi gösteren heatmap hücrelere kıyasla daha yüksek bir yoğunluk ile 10 heatmap hücreleri görüntüler. Mitokondrial protein Sterol 26-hidroksilaz hangi heatmap hücreleri tarafından diğer 9 mitokondrial proteinler heatmap hücrelere kıyasla daha yüksek yoğunluklarda ile gösterdi tüm yaş alt kategorileri yüksek dernekler var. İki grup arasındaki Puan farkı mutlak istatistiksel dağılımı % 99 güven aralığı ile ortalama fark için aşağıdaki aralığı gösterir: (1) 'ADLT' ve 'INFT' arasında ortalama fark aralığı (0.029 0.042 için), (2) ortalama yatıyor arasındaki aralığı (0.021 0.030 için), (3) 'ADLT' ve 'CHLD' yalan 'ADLT' arasındaki ortalama fark fark ve 'ADOL' içinde belgili tanımlık sıra (0.020-0.029) (4) aralığı (0,015-0.022) (5) 'ADOL' ve 'INFT' yatıyor arasındaki ortalama fark ortalama fark yatıyor 'ADOL' ve 'CHLD' aralığı (0,007-0.010) (6) (0.011 için 0.016) aralığında 'CHLD' ve 'INFT' yalan arasındaki ortalama fark yatıyor.
Beslenme ve metabolik hastalıklar. Biz hastalıkların"beslenme ve metabolik bir metin-küp 2 hücreleri oluşturmak için" (yani, metabolik hastalığı ve beslenme bozuklukları) 2 alt kategorileri seçildi. Tablo 3B' alınan meta veriler ve istatistikler gösterilir. Metin-küp hücreleri arasında belge sayısı karşılaştırılması şekil 7Aiçinde görüntülenir. Alt kategori metabolik hastalık beslenme bozuklukları 19,181 belgelerde ardından 54,762 belgeleri içerir. Alt kategorileri metabolik hastalık ve beslenme bozuklukları 7,101 paylaşılan belgeler var. Özellikle, bu belgeleri bizim ilgi sadece (yani, mitokondrial proteinler) varlık dahil. Şekil 7B Venn diyagramında her hücre içinde ve hücreler arasında birden çok örtüştüğü içinde bulunan varlıklar sayısını temsil eder. Protein-"Beslenme ve metabolik hastalıklar" dernek CaseOLAP puan olarak hesaplanır. Bu kullanım örneği ile ilişkili (onların ortalama CaseOLAP puanı göre) en iyi 10 Sterol 26-hidroksilaz, Alfa-kristalin B proteinlerdir zincir, L-seryl-tRNA, sitrat sentaz, tRNA pseudouridine synthase A, 25-hydroxyvitamin D-1 alfa-hidroksilaz, Glutatyon S-transferaz omega-1, NADPH: adrenodoxin oxidoreductase, mitokondrial peptid metiyonin sülfoksit redüktaz, plazminojen aktivatör inhibitörü ( şekil 7Ciçinde gösterilmiştir) 1. Yarısından fazlası (% 54) Tüm proteinlerin alt kategorileri metabolik hastalıklar ve beslenme bozuklukları (397 proteinler) arasında paylaşılır. İlginçtir, neredeyse yarısı (% 43) Sadece birkaç benzersiz proteinler (35) beslenme bozuklukları sergi ise metabolik hastalık alt kategori içinde tüm ilişkili proteinlerin benzersiz (300), proteinlerdir. Alfa-kristalin B zincirini alt kategori metabolik hastalıklar için güçlü ilişkiyi görüntüler. Sterol 26-hidroksilaz, mitokondrial mitokondrial bu protein beslenme bozuklukları açıklayan çalışmalarda son derece alakalı olduğunu belirten beslenme bozuklukları alt kategori güçlü ilişkiyi görüntüler. İki grup 'MBD' ve 'Nöral tüp defekti' arasındaki Puan farkı mutlak istatistiksel dağılım aralığı (0.046 0,061) % 99 güven aralığı olarak kötü farkı gösterir.
Şekil 1. CaseOLAP iş akışı dinamik görünümünü. Bu rakam 5 büyük adım CaseOLAP iş akışı içinde temsil eder. 1. adımda karşıdan yükleyip metin belgeleri (örneğin, PubMed) açılan iş akışı başlar. 2. adımda ayıklanan veriler veri sözlüğü her belgenin yanı sıra PMID eşleme için bir kafes oluşturmak için ayrıştırıldı. 3. adımda, veri dizin oluşturma hızlı ve verimli varlık arama kolaylaştırmak için yapılır. Adım 4'te, kullanıcı tarafından sağlanan kategori bilgileri (e.g., her hücre için kök MeSH) uygulanması bir metin küpünün gerçekleştirilir. Adım 5'te, CaseOLAP puanları hesaplamak için dizin verilerinde varlık sayısı işlemi uygulanır. Aşağıdaki adımları sistemi genel bir veritabanında (örneğin, PubMed) kullanılabilen en son bilgilerle güncelleştirmek için yinelemeli bir şekilde tekrarlanır. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 2. CaseOLAP iş akışı teknik mimarisi. Bu rakam CaseOLAP iş akışı teknik ayrıntılarını gösterir. PubMed deposundan veri PubMed FTP sunucusundan elde edilir. Kullanıcı yolu ile onların aygıt bulut sunucusuna (örneğin, AWS bağlantısı) bağlanır ve bir Download indirme ve bulut içinde yerel bir havuz için veri ayıklayan boru hattı oluşturur. Ayıklanan veriler doğrulandı, yapılandırılmış ve bir veri ayrıştırma boru hattı ile uygun bir biçim için getirdim. Aynı anda, bir kafes PMID eşleşme tablosu için metin-küp yapımı için kullanılan ayrıştırma adım sırasında oluşturulur. Ayrıştırılmış veri anahtar-değer sözlük biçimiyle Belge meta verileri (örneğin, PMID, kafes, yayımlama yıl) gibi bir JSON olarak depolanır. Dizin oluşturma adım daha ileri veri toplu veri işlemek için Elasticsearch uygulayarak geliştirir. Ardından, metin-küp kategoriler kullanıcı tanımlı PMID eşleştirmeye MeSH uygulayarak oluşturulur. Metin-küp oluşumu ve dizin oluşturma adımları tamamlandığında, bir varlık sayımı yapılır. Varlık sayısı verileri metin-küp meta veriler için geçerli olur. Son olarak, CaseOLAP puan tabanlı metin-küp yapısını hesaplanır. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 3. Ayrýþtýrýlmýþ belge örneği. Bir örnek çözümlü veri bu şekilde sunulur. Ayrıştırılmış veri dizin oluşturma ve Belge meta veriler oluşturma ile uyumlu olan bir anahtar-değer çifti olarak düzenlenir. Bu şekilde, bir PMID (örneğin, "25896987") bir anahtar olarak hizmet vermektedir ve ilgili bilgileri (örneğin, başlık, dergisi, veriliş tarihi, soyut, kafes, maddeler, bölüm ve konumu) koleksiyon değeri olarak bulunmaktadır. PMID kafese inşaatı gibi belge meta veriler ilk uygulamadır metin-küp oluşturmak ve kullanıcı tarafından sağlanan varlıkları ile CaseOLAP Puanını hesaplamak için daha sonra uygulanan eşleme (şekil 5 ve Tablo 2), ve Kategoriler. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 4. Bir kafes ağaç örneği. 'Yaş gruplarına ait MeSH ağaç ağaç veri yapısı NIH veritabanında kullanılabilen adapte (ağaç 2018, MeSH < https://meshb.nlm.nih.gov/treeView>). Kafes tanımlayıcıları ile düğüm kimliklerine (örneğin, kişiler [M01], yaş grupları [M01.060], ergen [M01.060.057], Yetişkin [M01.060.116], çocuk [M01.060.406], Bebek [M01.060.703]) belirli bir ağ tanımlayıcısı ( ilgili belgeleri toplamak için uygulanır Tablo 3A). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 5. Yaş gruplarındaki PMID eşleme için kafes. Bu rakam bir kabarcık Arsa olarak MeSH tanımlayıcılar içinde "Yaş grupları" altında toplanan metin belgesi (her bir PMID ile bağlantılı) sayısı sunar. PMID eşleme için kafes kafes tanımlayıcıları altında toplanan belgelerin tam sayısı sağlamak için oluşturulur. Toplam 3,062,143 benzersiz belge sayısı (bkz. Tablo 2) 18 soyundan MeSH tanımlayıcıları altında toplanmıştır. Yüksek PMIDs sayısı bir belirli ağ tanımlayıcısı altında büyük kafes tanımlayıcısı temsil eden kabarcık yarıçapı seçili. Örneğin, belge en yüksek sayısı kafes tanımlayıcısı "Yetişkin" altında toplanmıştır (1,786,371 belgeleri), metin belgeleri en az sayıda MeSH tanımlayıcısı "Bebek, Postmature" altında toplanmıştır ise (62 belgeleri).
MeSH PMID eşleme için bir ek örnek "Beslenme ve metabolik hastalıklar için" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html) verilir. Toplam 422,039 benzersiz belge sayısı 361 soyundan MeSH tanımlayıcılar içinde "Beslenme ve metabolik hastalıklar" altında toplanmıştır. Belge en yüksek sayısı kafes tanımlayıcısı "Obezite" altında toplanmıştır (77,881 belgeleri) tarafından izlenen "Diabetes Mellitus, yazın 2" (61,901 belgeleri), oysa "glikojen depo hastalığı, yazın VIII" belgeleri (1 belgesi en az sayıda sergiledi ). İlişkili bir tabloda aynı zamanda çevrimiçi (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv) kullanılabilir. Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 6. "Yaş grupları" kullanım örneği olarak. Bu rakam CaseOLAP platform kullanım örneği sonuçlarını sunar. Bu durumda, protein adları ve onların kısaltmalar (bkz: örnek Tablo4) varlıklar ve hücreleri de dahil olmak üzere "yaş grupları" uygulanır: Bebek (INFT), çocuk (CHLD), ergen (ADOL) ve yetişkin (ADLT), (bkz: alt kategorileri gerçekleştirilir Tablo 3A). (A) "Yaş gruplarındaki" belge sayısı: Bu ısı haritası "Gruplar" yaşlı hücreler arasında dağıtılmış belge sayısı (metin-küp oluşturma bkz: Protokolü 4 ve tablo 3Ailgili ayrıntılar) gösterir. Belgeleri daha yüksek bir dizi daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Tek bir belgede birden fazla hücreye eklenebilir. Çapraz pozisyon boyunca hücre içindeki belge sayısı heatmap sunar (örneğin, ADLT 172,394 belgeleri tüm hücreler arasında en yüksek sayı olan içerir). Nondiagonal pozisyon iki hücreleri (örneğin, ADLT ve ADOL var 26,858 paylaşılan belgeler) düşen belge sayısını temsil eder. (B) . Varlık sayısı "Yaş gruplarındaki": Venn Şeması "Yaş grupları" (INFT, CHLD, ADOL ve ADLT) temsil eden dört hücrelerde bulunan proteinler sayısını temsil eder. Tüm hücreleri içinde paylaşılan proteinler 162 sayısıdır. Yaş grubu ADLT benzersiz proteinler (151) ardından CHLD (16), INFT (8) ve ADOL (1) en yüksek sayısını gösteren. (C) CaseOLAP Puan sunum "Yaş gruplarındaki": En iyi 10 proteinler ile en yüksek ortalama CaseOLAP puanları her grupta bir ısı haritası sunulmaktadır. Yüksek bir CaseOLAP puan daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Protein adları sol sütunda görüntülenir ve hücreler (INFT, CHLD, ADOL, ADLT) x-ekseni boyunca görüntülenir. Bazı proteinler (örneğin, Sterol 26-hidroksilaz, Alfa-kristalin B zincir ve L-seryl-tRNA ise sodyum/potasyum-taşıma ATPaz alt birimi alpha-3 güçlü bir ilişki ile ADLT, güçlü ilişkiye sahip belirli bir yaş grubu için güçlü bir ilişki göstermek INFT ile). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Şekil 7. "Beslenme ve metabolik hastalıklar" olarak kullanım örneği: bu rakam başka bir kullanım örneği CaseOLAP platformu sonuçlarını sunar. Bu durumda, protein adları ve onların kısaltmalar (bkz: örnek Tablo4) varlıklar ve "Beslenme ve metabolik iki hücre de dahil olmak üzere hastalık" uygulanır: metabolik hastalık (MBD) ve beslenme bozuklukları (NTD) olarak gerçekleştirilir (bkz. tablo 3B) alt kategorileri. (A). "Beslenme ve metabolik hastalıklar" belge sayısı: (bkz: metin-küp oluşturma hakkında ayrıntılı bilgi Protokolü 4 ve tablo 3B için "Beslenme ve metabolik hastalıklar" hücrelerdeki metin belgelerinin sayısı bu heatmap gösteriyor ). Belgeleri daha yüksek bir dizi daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Tek bir belgede birden fazla hücreye eklenebilir. Çapraz pozisyon boyunca hücre içindeki toplam belge sayısı heatmap sunar (örneğin, MBD 54,762 belgeleri iki hücreler arasında en yüksek sayı olan içerir). Nondiagonal konumu (örneğin, MBD Nöral tüp defekti 7,101 paylaşılan belgeler ve var) iki hücre tarafından paylaşılan belgeler sayısını temsil eder. (B). "Beslenme ve metabolik hastalıklar" sayıma varlık: Venn Şeması "Beslenme ve metabolik hastalıklar" (MBD ve Nöral tüp defekti) temsil eden iki hücrelerde bulunan proteinler sayısını temsil eder. İki hücre içinde paylaşılan proteinler 397 sayısıdır. 300 benzersiz proteinler MBD hücre gösteriyor ve Nöral tüp defekti hücre 35 benzersiz proteinler gösteriyor. (C). CaseOLAP puanı sunuda "Beslenme ve metabolik hastalıklar": "Beslenme ve metabolik hastalıklar" en yüksek ortalama CaseOLAP skorları ile top 10 proteinler bir ısı haritası sunulmaktadır. Yüksek bir CaseOLAP puan daha koyu bir heatmap yoğunluğu ile sunulur (bkz: Ölçek) hücre. Protein adları sol sütunda görüntülenir ve hücreler (MBD ve Nöral tüp defekti) x-ekseni boyunca görüntülenir. Bazı proteinler belirli hastalık kategori için güçlü bir ilişki göstermek (örn., Alfa-kristalin B zinciri metabolik hastalık ile yüksek bir dernek ve sterol 26-hidroksilaz beslenme bozuklukları ile yüksek bir Derneği). Bu rakam daha büyük bir versiyonunu görüntülemek için buraya tıklayınız.
Harcanan süre (Toplam sürenin yüzdesi) | Adımları CaseOLAP platformu | Algoritma ve veri yapısı CaseOLAP platformu | Algoritma ve veri yapısı | Adımları ayrıntılarını |
% 40 | İndirme ve Ayrıştırma | Yineleme ve algoritmaları Ayrıştırma ağacı | Yineleme ile iç içe döngü ve sürekli çarpma: O(n^2), O (günlük n). Nerede 'n' olduğunu Hayır, yineleme. | İndirme boru hattı her yordam birden çok dosya üzerinde sırayla dolaşır. Tek bir belge ayrıştırma her yordam ham XML veri ağaç yapısı üzerinde çalışır. |
% 30 | Dizin oluşturma, arama ve metin küp oluşturma | Yineleme, arama algoritmaları (sıralama, Lucene dizin, öncelik kuyruğu, sonlu durum makinaları, kesmek, düzenli ifade sorguları oynatarak bit) Elasticsearch tarafından | Elasticsearch (https://www.elastic.co/) ile ilgili karmaşıklığı | Belgeler üzerinde veri sözlüğü yineleme işlemi uygulayarak dizine alınır. Metin-küp oluşturma Belge meta-veri ve kullanıcı tarafından sağlanan kategori bilgileri uygular. |
% 30 | Varlık sayma ve CaseOLAP hesaplama | Yineleme içinde bütünlük, popülerlik, açıklık hesaplama | O(1), O(n^2), caseOLAP yineleme türlerini temel puanı hesaplama ile ilgili birden çok karmaşık. | Varlık bir sayısı işlemi belgeler listeler ve liste üzerinde bir sayısı işlemi yapın. Varlık sayısı verileri CaseOLAP Puanını hesaplamak için kullanılır. |
Tablo 1. Algoritmalar ve karmaşıklığı. Bu tablo yordamlar üzerinde harcanan süre (harcanan yüzdesi toplam) hakkında bilgi verir (örneğin, İndiriyor, ayrıştırma), veri yapısı ve CaseOLAP platform uygulanan algoritmalar hakkında ayrıntılı bilgi. CaseOLAP profesyonel dizin oluşturma ve arama uygulaması Elasticsearch denilen uygular. Elasticsearch ve iç algoritmaları ile ilgili karmaşıklığı hakkında daha fazla bilgi (https://www.elastic.co at) bulunabilir.
Kafes tanımlayıcıları | Dizi toplanan PMIDs |
Yetişkin | 1,786,371 |
Orta yaşlı | 1,661,882 |
Yaşlı | 1,198,778 |
Ergen | 706,429 |
Genç Yetişkin | 486,259 |
Çocuk | 480,218 |
Yaşlı, 80 ve üzeri | 453,348 |
Çocuk, okul öncesi | 285,183 |
Bebek | 218,242 |
Bebek, yeni doğan | 160,702 |
Bebek, erken | 17,701 |
Bebek, düşük doğum ağırlığı | 5,707 |
Zayıf yaşlı | 4,811 |
Bebek, çok düşük doğum ağırlığı | 4,458 |
Bebek, gebelik yaşı küçük | 3,168 |
Bebek, son derece erken | 1,171 |
Bebek, son derece düşük doğum ağırlığı | 1,003 |
Bebek, Postmature | 62 |
Tablo 2. PMID eşleme istatistikleri için kafes. Bu tablo tüm alt ağ tanımlayıcıları "Yaş grupları" ve onların sayısı toplanan PMIDs (metin belgeleri) sunar. Bu istatistikler görselleştirme şekil 5' te gösterilmektedir.
A | Bebek (INFT) | Çocuk (CHLD) | Ergen (ADOL) | Yetişkin (ADLT) |
Kafes kök kimliği | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
Alt ağ tanımlayıcısı sayısı | 9 | 2 | 1 | 6 |
Seçili PMIDs sayısı | 16,466 | 26,907 | 35,158 | 172,394 |
Bulundu varlık sayısı | 233 | 297 | 257 | 443 |
B | Metabolik Hastalıklar (MBD) | Beslenme bozuklukları (NTD) | ||
Kafes kök kimliği | C18.452 | C18.654 | ||
Alt ağ sayısı tanımlayıcıları | 308 | 53 | ||
PMIDs toplanan sayısı | 54,762 | 19,181 | ||
Bulundu varlık sayısı | 697 | 432 |
Tablo 3. Metin-küp meta veriler. Metin-küp meta veriler bir sekmeli görünüm sunulur. Tablolar kategorileri hakkında bilgi sağlar ve tanımlayıcısı kökleri ve her hücrede belgeleri toplamak için uygulanan alt kafes. Tablo aynı zamanda toplanan belgeler ve varlıkların istatistikler sunmaktadır. (A) "Yaş grupları": Bu bir tablo grupları görüntüsünü "Yaş Bebek (INFT), çocuk (CHLD), ergen (ADOL) ve yetişkin (ADLT) de dahil olmak üzere" ve onların kafes kök kimlikleri, alt ağ tanımlayıcıları, seçili PMIDs sayısı ve sayısı varlıklar bulundu. (B) "Beslenme ve metabolik hastalıklar": "Beslenme ve metabolik metabolik hastalık (MBD) ve beslenme bozuklukları (NTD) ile onların kafes kök kimlikleri, alt ağ tanımlayıcısı sayısı sayısı gibi hastalıklar" sekmeli bir görüntüdür Seçili PMIDs ve bulunan varlıklar sayısı.
Protein adları ve eş anlamlılar | Kısaltmalar |
N-acetylglutamate synthase, mitokondri, Amino-asit asetiltransferaz, N-acetylglutamate synthase uzun form; N-acetylglutamate synthase kısa formu; N-acetylglutamate korunmuş synthase etki alanı formu] | (EC 2.3.1.1) |
Protein/nükleik asit deglycase DJ-1 (Maillard deglycase) (onkogen DJ1) (Parkinson hastalığı protein 7) (deglycase Parkinsonizm ilişkili) (Protein DJ-1) | (AK 3.1.2.-) (AK 3.5.1.-) (AK 3.5.1.124) (DJ-1) |
Pyruvate carboxylase, mitokondriyal (Pirüvik carboxylase) | (AK 6.4.1.1) (PCB) |
BCL-2-bağlama bileşen 3 (p53 yukarı düzenlenir modülatör apoptosis) | (JFY-1) |
BH3 etkileşim etki alanı ölüm agonist [etki alanı ölüm agonist p15 BH3 etkileşim (p15 DİLEMEK); BH3 etkileşim etki alanı ölüm agonist p13; Etki alanı ölüm agonist p11] BH3 etkileşim | (p22 DİLEMEK) (TEKLİF) (p13 DİLEMEK) (p11 DİLEMEK) |
ATP sentaz alt birimi alpha, mitokondriyal (ATP sentaz F1 alt birimi alpha) | |
Sitokrom P450 11B2, mitokondriyal (aldosteron sentaz) (aldosteron sentezleme enzim) (CYPXIB2) (sitokrom P-450Aldo) (sitokrom P-450_C_18) (Steroid 18-hidroksilaz) | (ALDOS) (AK 1.14.15.4) (AK 1.14.15.5) |
(60 kDa chaperonin) 60 kDa ısı şok protein, mitokondriyal (60) (CPN60) Chaperonin (ısı şok protein 60) (mitokondrial matris protein P1) (P60 lenfosit protein) | (HSP-60) (Hsp60) (HuCHA60) (AK 3.6.4.9) |
Caspase-4 (buz ve Ced-3 homoloğu 2) (proteaz TX) [içine i ciddi: Caspase-4 alt birim 1; Caspase-4 alt birim 2] | (GLOBAL-4) (AK 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) |
Tablo 4. Örnek varlık tablo. Bu tablo bizim iki kullanım örneklerini olarak uygulanan varlıkların örnek sunar: "Yaş grupları" ve "Beslenme ve metabolik hastalıklar" (şekil 6 ve Şekil 7, tablo 3A,B). Varlıkları protein adları, eşanlamlıları ve kısaltmaları içerir. Her varlık (eş anlamlı ve kısaltmalar ile) seçilen tek tek ve varlık arama işlemi (bkz: Protokolü 3 ve 5) dizini oluşturulmuş veri geçti. Arama daha fazla varlık sayısı işlemi kolaylaştırmak belgelerin listesini oluşturur.
Miktarları | Kullanıcı tanımlı | Hesaplanan | Miktar denklemi | Miktar anlamını |
Bütünlük | Evet | Hayır | Kullanıcı bütünlüğünü 1.0 olarak kabul varlıkları tanımlanmış. | Anlamlı bir ifade temsil eder. Sayısal değer 1.0 olduğunda zaten kurulmuş bir terimdir. |
Popülerlik | Hayır | Evet | Şekil 1 (iş akışı ve algoritma) popülerlik denklemden başvuru 5, 'Malzeme ve yöntemler' bölümü. | Ifade bir hücre içinde Dönem sıklığı temel. Hücre toplam dönem sıklığını tarafından normalleştirilmiş. Dönem sıklığı artış sonucu azalan vardır. |
Açıklık | Hayır | Evet | Şekil 1 (iş akışı ve algoritma) açıklık denklemden başvuru 5, 'Malzeme ve yöntemler' bölümü. | Dönem sıklığı ve belge frekans hücre içindeki ve komşu hücreler üzerinde temel. Toplam Dönem sıklığı ve belge frekans tarafından normalleştirilmiş. Kantitatif, bir ifade belirli bir hücrede benzersizdir olasılıktır. |
CaseOLAP puanı | Hayır | Evet | CaseOLAP puanı denklemden başvuru 5 şekil 1 (iş akışı ve algoritma), 'Malzeme ve yöntemler' bölümü. | Bütünlük, popülerlik ve açıklık dayalı. Sayısal değeri her zaman 0-1 içinde düşüyor. Kantitatif CaseOLAP puanı ifade-Kategori arasındaki ilişkiyi temsil eder |
Tablo 5. CaseOLAP denklemler: CaseOLAP algoritması 20161' Fangbo Tao ve Jiawei Han ve ark. tarafından geliştirilmiştir. Kısaca, bu tablo üç bileşenden oluşan CaseOLAP puanı hesaplama sunar: bütünlük, popülerlik ve açıklık ve ilişkili matematiksel anlamları. Bizim kullanım örneklerini bütünlük proteinler için 1.0 kaç (maksimum puanı) kurulan varlık adları olarak ayaktaydı. Bizim kullanım örnekleri yılında CaseOLAP puanları şekil 6C ve şekil 7Cgörülebilir.
CaseOLAP algoritması çok sayıda anlamlı yorumlara çıkarım için metinsel veri üzerinde bir ifade dayalı nicel Derneği bilgi tabanlı, kategori oluşturabilirsiniz göstermiştir. Bizim iletişim kuralı bir istediğiniz bir metin küp oluşturmak ve varlık-Kategori dernekler aracılığıyla CaseOLAP puanı hesaplama ölçmek için CaseOLAP çerçeve inşa edebilirsiniz. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal ve coğrafi analizi gibi belgelerin anlamsal eşleme sağlayan grafik bir veritabanı oluşturulması da dahil olmak üzere bütünleştirici analizleri alınabilir.
Algoritma uygulanabilirliği. Proteinler başka kullanıcı tanımlı varlıkları örnekleri listesini gen adları, uyuşturucu, özel işaretler ve onların kısaltmalar ve eş anlamlılar gibi belirtiler olabilir. Ayrıca, belirli kullanıcı tanımlı Biyomedikal analizleri (örneğin, anatomi [A], disiplin ve meslek [H], olayları ve işlemleri [G]) kolaylaştırmak Kategori seçim için birçok seçenek vardır. Bizim iki durumlarda kullanın, tüm bilimsel yayınları ve metin verilerini arama motoru olarak kullanarak PubMed MEDLINE veritabanından alınır, her ikisi de National Library of Medicine tarafından yönetilen. Ancak, CaseOLAP platformu ile metin verileri gibi FDA olumsuz olay raporlama sistemi (FAERS) Biyomedikal belgeleri içeren ilgi diğer veritabanları için uygulanabilir. Bu tıbbi olumsuz olaylar ve FDA ilaç hata raporları hakkında bilgi içeren açık bir veritabanıdır. MEDLINE ve FAERS, aksine veritabanları hastanelerde hastaların elektronik sağlık kayıtları içeren halka açık değil ve durum sigorta taşınabilirlik ve Accountability Act HIPAA bilinen tarafından kısıtlanır.
CaseOLAP algoritması verileri (örneğin, haber makaleleri)1. farklı türleri için başarıyla uygulandı Biyomedikal belgelerde bu algoritma uygulaması 20185' te yapılmıştır. Uygulanabilirliği için gerekenler CaseOLAP algoritması, her belge kavramları (örneğin, kafes tanımlayıcıları Biyomedikal yayınlarda, haber makaleleri anahtar kelimeler) ile ilişkili anahtar kelimeler ile atanmalıdır. Anahtar kelimeler bulundu değil, bir Autophrase6,7 en iyi temsilcisi ifadeler toplamak ve bizim iletişim kuralı uygulamadan önce varlık liste oluşturmak için uygulayabilirsiniz. Bizim iletişim kuralı Autophrase gerçekleştirmek için adım sağlamaz.
Diğer algoritmalar ile karşılaştırma. Bir veri-küp8,9,10 ve metin-küp2,3,4 kullanarak kavramı veri madenciliği daha uygun hale getirmek için yeni gelişmeler ile 2005 yılından bu yana gelişen. Çevrimiçi analitik işleme (OLAP)11,12,13,14,15 dakika içinde veri madenciliği ve iş zekası kavramı geri 1993 için gider. OLAP, genel olarak, birden çok sistemi bilgileri toplar ve çok boyutlu bir biçimde depolar. Veri madenciliği içinde uygulanan OLAP sistemleri farklı türleri vardır. Örneğin (1) Hybrid hareket/analitik işleme (HTAP)16,17, (2) çok boyutlu OLAP (MOLAP)18,19-ve (3) temel ilişkisel OLAP (ROLAP)20küp.
Özellikle, CaseOLAP algoritması ile çok sayıda varolan algoritmaları, özellikle, TF dahil olmak üzere kendi ifade bölümleme geliştirmeleri ile karşılaştırılmıştır-IDF + Seg, MCX + Seg, MCX ve SegPhrase. Ayrıca, RepPhrase (RP, da SegPhrase + bilinir) (1) dahil bütünlük ölçü birimi (RP Hayır INT) olmadan RP, RP (2) dahil popülerlik ölçü birimi (RP No POP) olmadan ve RP (3) olmadan da dahil olmak üzere kendi ablasyon varyasyonları ile karşılaştırıldığında Açıklık ölçü birimi (RP Hayır DIS) dahil. Benchmark sonuçları çalışmada Fangbo Tao ve ark.1tarafından gösterilir.
Orada hala üzerinde tasarruf ve verileri veritabanından ek işlevler ekleyebilirsiniz hangi veri madenciliği zorlukları vardır. Bağlam duyarlı anlamsal analitik işleme (CaseOLAP) belgeleri (iletişim kuralı 5) milyonlarca dizin oluşturma bir veritabanı oluşturmak için Elasticsearch sistematik olarak uygular. Metin-küp dizin oluşturulmuş veriler kullanıcı tarafından sağlanan kategorileri (Protokolü 6) üzerinde yerleşik bir belge yapısıdır. Bu belgeler içinde ve arasında metin-küp hücre için işlevselliği artırır ve Dönem sıklığı varlıkların bir belge ve belgenin frekans belirli bir hücrenin üstünde (protokol 8) hesaplamak için bize izin. CaseOLAP sonuca bir final skoru çıkış için bu frekans hesaplamalar kullanır (Protokolü 9). 2018 yılında, biz ECM protein ve protein-hastalık ilişkileri analiz etmek için altı kalp hastalıkları eğitim için bu algoritma hayata. Bu çalışmanın ayrıntıları çalışmada Liem, D.A. vd.5bulunabilir. CaseOLAP çeşitli hastalıklar ve mekanizmaları keşfetmek Biyomedikal toplumda yaygın olarak kullanılabileceğini gösteren.
Algoritma sınırlamaları. İfade incelemesi kendisi yönetmek ve önemli kavramları metinsel veri almak için bir tekniktir. Varlık-Kategori Derneği matematiksel miktarı (vektör) bulurken, bu teknik Derneğin polarizasyon (örneğin, pozitif veya negatif eğim) anlamaya değiştiremiyor. Bir nicel atanan varlıkları ve Kategoriler metin-Cude belge yapısıyla kullanan veri özetini oluşturabilirsiniz, ancak nitel bir kavram ile mikroskobik granularities ulaştı. Bazı kavramlar sürekli şimdi geçmiş zamana kadar değişmektedir. Bir özel varlık-Kategori ilişkisi için sunulan özetleme edebiyat boyunca tüm olaylar içerir. Bu yenilik zamansal yayma olmayabilir. Gelecekte, bu sınırlamaları gidermek planlıyoruz.
Gelecekteki uygulamalar. Dünyada birikmiş veri yaklaşık yüzde 90'ını yapılandırılmamış metin verilerindedir. Bir temsilci ifade ve metinde gömülü varlık ilişkisi bulma yeni teknolojiler (örneğin, Makine öğrenimi, bilgi ayıklama, yapay zeka) uygulanması için çok önemli bir görevdir. Makine metin verilerini kolay okunur hale getirmek için veri üzerinde araçları bir sonraki katman uygulanabilecek veritabanında düzenlenmesi gerekir. Gelecekte, bu algoritma veri madenciliği bilgi alınmasını ve miktar, varlık-Kategori ilişkisi için daha işlevsel hale getirmek çok önemli bir adım olabilir.
Yazarlar ifşa gerek yok.
Bu eser kısmen Ulusal kalp, akciğer ve kan Enstitüsü tarafından desteklenmiştir: R35 HL135772 (için s. Ping); Genel tıbbi Bilimler Ulusal Enstitüsü: U54 GM114833 (için s. Ping, K. Watson ve W. Wang); U54 GM114838 (için J. Han); Hellen & Larry Hoag Vakfı ve Dr. S. Setty hediyesi; ve UCLA (için s. Ping) T.C. Laubisch bağış.
Name | Company | Catalog Number | Comments |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır