Method Article
Biz CorExplorer web portalı, tümör RNA sıralama faktörlerinin araştırılması için bir kaynak makine öğrenme algoritması CorEx (Korelasyon Açıklama) tarafından bulunan ve faktörlerin hayatta kalma, veritabanı ek açıklamaları göre analiz edilebilir göstermek tanıtmak protein-protein etkileşimleri, ve birbirleri tümör biyolojisi ve terapötik müdahaleler hakkında bilgi edinmek için.
Diferansiyel gen ekspresyonu analizi hastalık durumlarını anlamak için önemli bir tekniktir. Makine öğrenimi algoritması CorEx hassas onkoloji ilerleyen için yararlı olabilecek bir şekilde tümör RNA-seq gen gruplarının diferansiyel ekspresyon analiz yarar göstermiştir. Ancak CorEx, mevcut anlayışa analiz etmek ve bağlanmak için zor olabilecek birçok faktör üretir. Bu tür bağlantıları kolaylaştırmak için, kullanıcıların verileri etkileşimli olarak keşfetmesine ve analiziyle ilgili sık sorulan soruları yanıtlamasına olanak tanıyan Bir web sitesi olan CorExplorer'ı kurduk. CorEx'i dört tümör tipi için RNA-seq gen ekspresyonu verileri konusunda eğittik: yumurtalık, akciğer, melanom ve kolorektal. Daha sonra karşılık gelen sağkalım, protein-protein etkileşimleri, Gen Ontolojisi (GO) ve Kyoto Gen ler ve Genomlar Ansiklopedisi (KEGG) yol zenginleştirmeleri ve faktör grafik görselleştirme ile ilişkilendirmek için web sitesine ısı haritaları dahil ettik. Burada, bu dış veri bağlamında öğrenilen tümör faktörlerinin önemini anlamak için veritabanının kullanımını göstermek için örnek protokoller kullanıyoruz.
Sadece on yıl önce giriş bu yana, RNA-seq gen ekspresyonu ölçmek için her yerde bir araç haline gelmiştir1. Bunun nedeni, bir numunenin tüm transkripsiyonunun hızlı ve ucuz de novo profillemesini sağlamasıdır. Ancak, RNA-seq tümör verileri özünde karmaşık ve genellikle az örneklenmiş bir altta yatan biyoloji yansıtır, veri kendisi yüksek boyutlu ve gürültülü iken. Bu, güvenilir sinyalleri ayıklamak için önemli bir sorun teşkil etmektedir. CorEx algoritması bu gibi durumlarda ince desenler bulmak için çok değişkenli karşılıklı bilgi yararlanır2,3 . Bu teknik daha önce Kanser Genom Atlası (TCGA) yumurtalık tümörü RNA-seq örneklerini analiz etmek için uyarlanmış ve bu bağlamda daha yaygın olarak kullanılan analiz yöntemleri ne kadar önemli avantajlara sahip olduğu ortaya çıkmıştır4.
RNA-seq kullanımı onkoloji de dahil olmak üzere araştırma uygulamalarında son derece yaygın olmasına rağmen, bu çabalar klinik müdahaleler in amaçları için geniş kullanımına yol açmıştır5. Bunun nedenlerinden biri de, bu özel sorunlara yönelik kullanıcı dostu algoritmaların ve yazılımların eksikliğidir. Bu boşluğu kapatmaya yardımcı olmak için, CorEx makine öğrenme algoritması tarafından bulunan tümör RNA-seq örneklerinin gen ekspresyonu faktörlerini incelemek için çeşitli geçmişlerden araştırmacılara olanak sağlayacak CorExplorer web portalını tasarladık. CorExplorer portalı interaktif görselleştirme ve akciğer, kolon, melanomve yumurtalık 6,7,8,9 dahil olmak üzere birçok farklı tümör tiplerinden faktörlerin sorgulanması destekler 10, araştırmacılar veri bağıntıları ile elemek ve terapötik amaçlar için hasta tabakalamak için aday yolları belirlemek için yardımcı olmak amacıyla.
CorExplorer portalının çeşitli kullanıcı türleri için yararlı olabileceğini ugörüyoruz. Portal, genel veritabanlarında tümöral gen ekspresyonu farklılıklarını yönlendiren geniş faktörleri anlamak ve muhtemelen benzer tümörler bağlamında bireysel gen ekspresyonu profillerini yerleştirmek isteyen kullanıcı ile tasarlanmıştır. Özellik -lerini. Burada özetlenen temsili protokollere ek olarak, CorExplorer araştırmaları daha fazla test için hipotezler önermek, CorExplorer dışındaki veri kümelerinde CorEx bulgularını karşılaştırmak ve karşılaştırmak ve bağlanmak için bir başlangıç noktası olarak hizmet verebilir tek bir tümördeki bir veya birkaç genin patolojik ifade imzaları, eşgüdümlü olarak etkilenebilecek daha büyük gruplara. Son olarak, bu alanda başlayanlar için RNA-seq makine öğrenme uygulaması için kullanıcı dostu bir giriş olarak hizmet verebilir.
1. İlgi çekici bir gen içeren faktörleri keşfetme
2. Gen ağırlığı, sağkalım ve ek açıklama verilerini kullanarak CorEx faktörlerinin filtrelendirilmesi ve yorumlanması
3. Umut verici terapötik kombinasyonları aramak için hayatta kalma ve veritabanı ek açıklamaları kullanma
4. Arama sayfasını kullanarak tümör tipleri arasında gen ekspresyonu varyasyonu ortak noktaları nın ve farklılıklarının bulunması
Akciğer kanseri dataset'inde 'BRCA1' geninin aranması, en güçlü şekilde CorEx faktörü 26 ile ilişkili olduğunu ortaya koymaktadır (Şekil 2). Bu faktör için GO dönem zenginleştirme son derece yüksek olduğu görülmektedir, DNA onarımı sadece bir FDR sergileyen 1 x 10-19. Seçim aynı zamanda çocuklar gibi altı yakından ilişkili faktörlere sahip ikinci düzey küme L2_8 dikkat çekiyor. GO terimi ek açıklamaları veya faktör grafiğin GO zenginleştirilmiş açılır bırakma özelliklerinde 'DNA onarımı' seçilmesi, her bir faktörde ilişkili genleri vurgular, faktör 26 beklendiği gibi en fazla olan11. Protein-protein etkileşim ağı güçlü bir şekilde birbirine bağlıdır ve faktör 26'daki genlerin sıkı bir şekilde birbirine bağlı işlevselliğini daha da destekler. İlişkili sağkalım grafiği hastanın sağkalım ile olası bir ilişki öneriyor, ancak bu daha büyük bir veri kümesi teyit edilmesi gerekir.
Sağkalım ile başlayan belirli gen ekspresyonu grupları ile ilişkili geliştirilmiş sağkalım nedenleri diseksiyon izin verebilir. Örnek olarak, yumurtalık kanseriiçin sağkalımı etkileyen en önemli faktör, bağışıklık sistemi ile ilişkili genler için güçlü bir şekilde zenginleştirilmiş olan 39 rakamı olarak görülmektedir(Şekil 3). Aynı düzey 2 düğüm ile ilişkili diğer beş faktör de bağışıklık ilişkili olduğu belirtilmiştir, ancak sağkalım etkisi güçlü aralarında değişken gibi görünüyor, 39 en yüksek ve 52 en düşük olmak. Bir faktör için protein-protein etkileşim penceresi eklemek hemen etkileşim ağını gösterir ve PPI ağ genleri için çeşitli zenginleştirmeleri sorgulamak için StringDB12 web sitesine bağlantı sağlar. L2_14 faktörlerinin her biri için bunu yaparak, PPI ağ genleri için StringDB zenginleştirmelerinin hayatta kalma ile olan ilişkiler için aşağıdaki olası açıklamayı önerdiği ortaya çıkmaktadır. Faktör 32, sitotoksik T lenfositleri tarafından tanınan majör histokompatibilite kompleksini (MHC) sınıf I protein kompleksini oluşturan genler içerir. Faktör 39, CD8+ T lenfositleri ile ilişkili sitokin sinyalizasyonu ve CXCR3 reseptör bağlanmasına karşılık gelir. Bu faktörlerin her ikisi de ilgili genlerin nispeten yüksek ekspresyonu sergileyen hastalar için önemli bir sağkalım avantajı vermek gibi görünüyor. Sitotoksik CD8+ T lenfositler öncelikle anti-tümör bağışıklığı sorumludur. Faktör 52 ise, MHC sınıf II kompleksindeki proteinler için kodlayan ve doğrudan sitotoksik T lenfositler yerine CD4+ T yardımcı hücreleri tarafından tanınan genlerden oluşur. Kalan L2_14 faktörleri lenfosit popülasyonlarının iki tip ayırt etmez jeneralize bağışıklık sistemi aktivasyon yansıtır. MCH sınıf I hücresel antijenlerin sitotoksik T lenfosit tanımasına özgü bir sağkalım ilişkisi genel olarak antitümör bağışıklığı anlayışımız ve melanom 13 gibi diğer kanserlerden tutarlıdır13,14.
Web portalı, etkili tümöre özgü kombinasyon tedavileri önerebilecek tamamlayıcı fonksiyonlara sahip faktörlerin çiftlerinin keşfini destekler. Dataset genel bakış sağkalım ile bir korelasyon gösteren faktörler için taranabilir ama farklı GO zenginleştirmeleri var. Melanom için (TCGA_SKCM; Şekil 4), üst sağkalım faktörü 171'in immün ilişkili olduğu görülürken, listedeki faktör 88 mitokondri organizasyonu ile ilgili genlerin zenginleşmesini göstermektedir. Nitekim, bu melanom bir hedef olarak ileri sürülmüşlerdir15. CorExplorer sayfasına sağkalım pencereleri eklemek, her iki grubun olumlu gen ekspresyonu desenlerinin her iki faktörden de daha iyi bir sağkalım eğilimi sergilediğini göstererek, faktör çiftini kullanarak tabakalaşmanın her faktörün karşılaştırmasını sağlar faktör tek başına. Üst tabaka ancak geliştirilmiş görünmüyor, immünoterapi sadece bazı hastalar için en iyi seçenek olabilir düşündüren.
Tümörler arasındaki ortak özellikler ve farklılıklar, genler veya GO terimleri için veri kümeleri arasında araştırılarak görülebilir(Şekil 5). Örnek olarak, FLT1 (aka VEGFR1) iyi çalışılmış bir pro-anjiyojenik belirteç16,17. Arama çubuğuna konulduğunda, tüm tümörlerflt1 önemli bir rol oynadığı faktörlere sahiptir. Tersine, GO terimi 'anjiyogenez' arama sayfasına girildiğinde, FLT1 gruplarının 6'dan 5'i bu zenginleştirme ile görünür. SKCM-195 hariç tüm FLT1 faktörleri istatistiksel olarak 'anjiyogenez' genleri için zenginleştirilmiş olarak listelenmiştir. Altıncı faktör, aslında, ek var, ama varsayılan 10-8 eşiğinin altında. Faktör listesindeki ağırlıklandırma alternatif bir zenginleştirme hesap makinesinde kullanıldığında, örneğin Gen Seti Zenginleştirme Analizi (GSEA)18,altıncı faktörün 'anjiyogenez' genleri için de önemli ölçüde zenginleştirilmiş olduğu saptır.
Gen ekspresyonu deseninin biyolojik yorumları destekleyecek yeterli kalitede olduğundan emin olmak için ısı haritalarını kontrol etmek önemlidir. Güçlü net varyasyon gösteren ısı haritaları, düşükten yükseğe veya daha karmaşık desenlere kadar, bazı genlerin düşük ekspresyonlu diğer genlerle ilişkili olduğu faktör genlerinin eşgüdümlü ekspresyonu gösterebilir(Şekil 6). Yüksek kaliteli gruplandırmanın önemli bir belirteci, faktör skorunun bir fonksiyonu olarak ifadede yumuşak bir varyasyona sahip çeşitli genlerin varlığıdır. Faktör ısı haritaları faktör puanına göre sıralanmış örnekleri gösterir, bu nedenle soldan sağa doğru düzgün bir degrade olmalıdır. Ancak, bu en az iki farklı şekilde gerçekleşmesi başarısız olabilir. En yaygın olarak, korelasyonlar son derece gürültülü olabilir(Şekil 5C),hayatta kalma ve / veya biyolojik fonksiyon ile ilgili herhangi bir çıkarımların sağlamlığı ve yarar soru içine çağıran. Ayrıca, örneklerin yalnızca küçük bir azınlığında meydana gelen desenler, CorEx algoritması tarafından kabul edilen üç ifade durumunun modeline uymayabilir ve bu da örneklerin yanıltıcı bir şekilde sınıflandırılmasıyla sonuçlanır (Şekil 5D'ninsağ tarafı).
Şekil 1: CorExplorer ön sayfası. Hızlı Linkleraltında Yumurtalık Kanseri nin yanında + tıkladıktan sonra faktör grafiği ayrıntıları gösterilir. CorEx hiyerarşik modeli, alt katmandaki giriş değişkenlerinden (bu durumda gen ekspresyonu) ve üst katmanlarda çıkarılan gizli faktörlerden oluşur. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 2: Keşiflere rehberlik etmek için bir gen adı kullanmak. Rakam güçlü BRCA1 ile ilgili CorEx akciğer kanseri faktörlerinin keşif gösteren ekran görüntüleri bir dizi gösterir. İlk olarak, faktör grafiği için Gen açılır kutusunda 'BRCA1' seçilmesi, grafik görünümünün BRCA1'in en büyük ağırlığına sahip olduğu faktörü yakınlaştırmasına neden olur. Biraz uzaklaştırma, katmanı iki düğüm L2_8'i diğer ilgili lere bağlayan çerçevelere bağlar. Hayatta kalma ve ek açıklamalar karşılaştırılabilir: GO terimi DNA onarımtıklama açıklamalı genleri vurgulamaktadır. Faktördeki genler için ağ etkileşimlerini göstermek için bir ÜFE penceresi eklenir. Bir ısı haritası eklemek için Pencere Ekle düğmesini kullanarak, DNA onarım genlerinin artan ifade nin azalmış sağkalım ile ilişkili olabileceğini düşündüren, ifade desenleri yaşam ile ilişkilendirme gösterir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 3: Keşiflere rehberlik etmek için klinik verilerin (sağkalım) kullanılması. Yumurtalık kanseri için üst sağkalım ilişkili faktör keşfetmek (39) komşu faktörler arasında ilginç ilişkiler ortaya koymaktadır. Faktör grafiğinde faktör 39'u seçtikten ve biraz uzaklaştırdıktan sonra, faktör 39'a bağlı iki faktörkatmanı ilişkili beş faktöre sahip olduğu görülmektedir. Ek bir hayatta kalma penceresi ilişkili sağkalım diferansiyel doğrudan karşılaştırma sağlar. 39 ve 32'deki faktörlerin her ikisi de pozitif sağkalım korelasyonuna sahip, faktör 52'nin aksine, ki göstermez. Protein-protein etkileşim ağlarının hepsi iyi tanımlanmıştır. StringDB'ye bağlanmak GO ek açıklamalarının karşılaştırılmasına izin verir (gösterilmez): Faktör 39 sitotoksik CD8+ T lenfosit aktivasyonu ile ilgili bir sitokin sinyal ağı ile ilişkilidir ve faktör 32, MHC sınıf I antijeni sunan proteinlerin hakimiyetindedir. bu tür lenfositler tarafından tetikleme tanıma; komşu faktörler, ancak, CD4 + yardımcı T hücreleri gibi diğer bağışıklık sistemi bileşenleri hakim ve hiçbir sağkalım korelasyon göstermektedir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 4: Üst sağkalım faktörlerinin araştırılması potansiyel terapötik kombinasyonları göstermektedir. Ana sayfa menü çubuğundaki 'Veri Kümeleri' bağlantısı, üst GO ek açıklamasıyla birlikte p değerine göre sıralanmış hayatta kalma faktörlerinin kısa bir tablosuna yol açar (gösterilmez). Melanom için bu bilgileri kullanarak, faktör 171 kombinasyonu faktör 88 ile immün fonksiyon için mitokondri organizasyonu için tamamlayıcı görünür. Şekil, bunların karşıtlığını yapmak için her bir etken için ek açıklama pencerelerini yan yana gösterir. İki faktöre tek tek veya birlikte tabakalaştırılan hastalar için sağkalım eğrileri, kombinasyonun tek başına her iki faktöre göre sağkalım diferansiyelini artırdığını göstermektedir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 5: Arama sayfası pan-kanser analizini kolaylaştırır. Genler veya GO biyolojik işlem terimleri ana sayfadaki Arama bağlantısını kullanarak tüm veri kümeleri için aranabilir. Şekil, FLT1 geni ve GO terimi 'anjiyogenez' için arama sonuçlarını göstermektedir. Sonuçlar, kanserler arasında 'anjiyogenez' terimi ile açıklamalı faktörlerde FLT1 varlığını göstermektedir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 6: Isı haritaları, genler ve numuneler arasındaki korelasyonları faktör skoruna göre nitel olarak değerlendirmek için kullanılabilir. Yüksek kaliteli gen ekspresyonu ilişkileri, hastalar ısı haritalarında faktör skoru ile sıralandığında düzgün bir geçiş le gösterilir. Faktör 18 için en soldaki ısı haritası bir örnektir. Desenler, faktör 11'in orta büyük ısı haritasında olduğu gibi yukarı ve aşağı ifadenin karmaşık imzalarını da kapsayabilir. Daha düşük kalite desenleri bazen sağ daki faktör 161 ısı haritasında olduğu gibi sağdaki faktör 9 ısı haritasında olduğu gibi bir alt grup için ifadede ani değişiklikler gösterir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
CorExplorer sitesi, corEx algoritması tarafından tümör RNA-seq öğrenilen maksimize korelasyon gen ekspresyonu faktörleriinteraktif keşif için kamuya açık bir web sunucusu sunduk. Web sitesinin hastaları tümör gen ekspresyonuna göre tabakalaşmak için nasıl kullanılabileceğini ve bu tabakalaşmanın biyolojik fonksiyon ve sağkalıma nasıl karşılık olduğunu gösterdik.
RNA-seq analizi için diğer web sunucuları oluşturulmuş. Tümörler için diferansiyel ve ko-ekspresyon analizi incelenebilir ve cbioPortal19,20diğer veri tipleri ile entegre edilebilir. GenePattern21, Mev22ve Morpheus23sunucuları, temel bileşen analizi (PCA), kmeans veya kendi kendini organize eden haritalar (SOM) gibi yerleşik kümeleme tekniklerini içerir. Daha yenilikçi çabalar CamurWeb24dahil, otomatik kural üreten sınıflandırıcı dayalı, ve TACCO25, rastgele orman sınıflandırıcılar ve kement uygular. Burada kullanılan CorEx algoritması, veri desenlerini açıklayan bir etkenler hiyerarşisi bulmak için çok değişkenli bilgileri optimize eder. Doğrusal olmayan ve hiyerarşik faktör öğrenme PCA4ile bulunan doğrusal küresel faktörlere göre geliştirilmiş yorumlanabilirlik verim gibi görünüyor. Buna ek olarak, tekniğin örnek sinyalleriniince taneli ayrıştaması, daha yaygın olarak kullanılan geniş alt tiplere göre hassas tümör karşılaştırmalarına olanak sağlar. Çakışan ve hiyerarşik faktör çözümlemesi bu birleşimi CorExplorer'ı diğer birçok yaklaşımdan ayırır ve görselleştirme ve özetleme için yeni araçlar gerektirir.
CorExplorer faktör analizinin önemli bir parçası sadece birkaç keşfetmek için yeteneği, ama 100'den fazla faktör bir örtüşen hiyerarşi içinde yerleştirilir bilgilendirici gen desenleri ile. CorExplorer biyolojik ve klinik dernekler için bu sayısız faktörlerin madenciliği kolaylaştırır ve bireysel tümörlerin son derece ayrıntılı karakterizasyonu için izin verir. Bu kadar çok sayıda faktörün denetimsiz olarak öğrenilmesi, hepsinin hastalık biyolojisi ile ilgili olmadığı anlamına gelir. Böyle bir durumda, ya ilgi faktörleri çekmek için ek açıklamalar veya bilinen genler kullanmak ya da hayatta kalma gibi klinik verilerle ilişkili faktörleri aramak esastır. Böylece, CorExplorer kullanıcıların bu çok önemli filtreleme adımı uygulamak için izin verir. Bir tümörfaktör gen desenleri varlığı bile kişiselleştirilmiş onkoloji tedavisi için bir yaklaşım önerebilir. Ayrıca, potansiyel olarak yararlı terapötik kombinasyonları keşfi için izin veren her tümör için faktör puanları nın çokluğu.
Bazen hayatta kalma ile son derece ilişkili faktörler için önemli BIR GO ek açıklamaları görünür durumda. Bu gürültülü veya örneklenmiş veri altında nedeniyle oluşabilir iken, önemli zenginleştirme puanları veya tutarlı biyolojik olmadan farklı yollardan tek genlerin bir 'sepet' olan grup çok küçük bir küme boyutu gibi diğer olası nedenleri vardır Derneği. Ayrıca, KEGG ve GO biyolojik sürecinden farklı bir ek açıklama kategorisi (örneğin hücresel bölme) uygun olabilir. Bunlara, protokolde gösterildiği gibi StringDB'ye bağlanarak erişilebilir. CorExplorer sitesinde Gen Ontoloji zenginleştirme analizi şu anda bir faktör gen ağırlıkiçin hesap yok, Bu büyük olasılıkla yakın gelecekte giderilmiş olacak olsa. Dış araçlarla daha fazla analiz için tüm faktör gen listesinin indirilemesine olanak tanıyan 'Pencere Ekle' seçeneğinin altında bir gen listesi seçeneği nin mevcut olduğunu unutmayın.
Web sitesinin amaçları doğrultusunda, CorEx her veri kümesinde beş kez çalıştırıldı ve en büyük toplam korelasyonla sonuçlanan çalışma korundu. Birden çok çalıştırmanın sonuçlarının istatistiksel bir temsiline sahip olmak daha bilgilendirici olabilir ve gelecekteki çalışmalar için bir hedeftir. Ayrıca, sunucuda mevcut tümör türleri kümesi oldukça küçük, ama bu kullanıcı ilgisine göre zaman içinde genişletmek için bekliyoruz.
Yukarıda belirtildiği gibi, CorExplorer klinik ve veritabanı bilgileri ile birlikte CorEx RNA-seq faktör ilişkileri görselleştirir, böylece sorgulama farklı modları çeşitli sağlayan. Bu aracın, onkolojide keşif ve klinik uygulama için RNA-seq analizinin gücünü kullanmak için daha fazla çalışmaya yol açacağından umutluyuz.
Yazarlar hiçbir rakip mali çıkarları olduğunu beyan.
GV, W911NF-16-0575 darpa ödülü ile desteklendi.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır