Bu içeriği görüntülemek için JoVE aboneliği gereklidir. Oturum açın veya ücretsiz deneme sürümünü başlatın.
Farklı ön işleme adımlarını, çoklu omik faktör analizi modelinin tahminini ve çeşitli aşağı akış analizlerini birleştiren karmaşık multi-omik veri kümelerinin denetimsiz analizi için esnek, genişletilebilir Jupyter-lab tabanlı bir iş akışı sunuyoruz.
Hastalık mekanizmaları genellikle karmaşıktır ve birkaç farklı moleküler sürecin etkileşimi tarafından yönetilir. Karmaşık, çok boyutlu veri kümeleri, bu süreçler hakkında daha fazla içgörü oluşturmak için değerli bir kaynaktır, ancak bu tür veri kümelerinin analizi, örneğin farklı hastalık koşullarından, zaman noktalarından ve süreci farklı çözünürlüklerde yakalayan omiklerden kaynaklanan yüksek boyutluluk nedeniyle zor olabilir.
Burada, akut ve kronik koroner sendromlarda bağışıklık tepkisini yakalayan kan örneklerinden oluşturulan bir veri setine multi-omik faktör analizi (MOFA) uygulayarak böylesine karmaşık bir multiomik veri setini denetimsiz bir şekilde analiz etmek ve keşfetmek için bir yaklaşım sergiliyoruz. Veri seti, numune düzeyinde sitokin verileri, plazma-proteomik ve nötrofil prime-seq ve tek hücreli RNA-seq (scRNA-seq) verileri dahil olmak üzere farklı çözünürlüklerde birkaç testten oluşur. Hasta başına ölçülen birkaç farklı zaman noktasına ve birkaç hasta alt grubuna sahip olarak daha fazla karmaşıklık eklenir.
Analiz iş akışı, verilerin birkaç adımda nasıl entegre edileceğini ve analiz edileceğini ana hatlarıyla belirtir: (1) Veri ön işleme ve uyumlaştırma, (2) MOFA modelinin tahmini, (3) Aşağı akış analizi. 1. Adım, farklı veri türlerinin özelliklerinin nasıl işleneceğini, düşük kaliteli özelliklerin nasıl filtreleneceğini ve daha fazla analiz için dağılımlarını uyumlu hale getirmek üzere bunların nasıl normalleştirileceğini ana hatlarıyla belirtir. 2. Adım, MOFA modelinin nasıl uygulanacağını ve tüm omikler ve özelliklerde veri kümesi içindeki ana varyans kaynaklarının nasıl keşfedileceğini gösterir. Adım 3, yakalanan modellerin aşağı akış analizi için çeşitli stratejiler sunar ve bunları hastalık koşullarına ve bu koşulları yöneten potansiyel moleküler süreçlere bağlar.
Genel olarak, diğer bağlamlara ve çoklu omik veri kümelerine de uygulanabilen farklı moleküler özelliklerden oluşan ana varyasyon eksenlerinin tanımlanmasını sağlamak için karmaşık multi-omik veri kümelerinin denetimsiz veri keşfi için bir iş akışı sunuyoruz (örnek kullanım durumunda sunulan diğer tahliller dahil).
Hastalık mekanizmaları genellikle karmaşıktır ve birkaç farklı moleküler sürecin etkileşimi tarafından yönetilir. Belirli hastalıklara yol açan veya bir hastalığın evrimini yöneten karmaşık moleküler mekanizmaları deşifre etmek, hastalıkları anlamak ve tedavi etmek için yeni içgörüler ortaya çıkarabileceğinden, tıbbi önemi yüksek bir görevdir.
Son teknolojik gelişmeler, bu süreçlerin aynı anda daha yüksek bir çözünürlükte (örneğin, tek hücre düzeyinde) ve çeşitli biyolojik katmanlarda (örneğin, DNA, mRNA, kromatin erişilebilirliği, DNA metilasyonu, proteomik) ölçülmesini sağlar. Bu, altta yatan süreçler hakkında daha fazla bilgi oluşturmak için ortaklaşa analiz edilebilen büyük çok boyutlu biyolojik veri kümelerinin artan üretimine yol açar. Aynı zamanda, farklı veri kaynaklarını biyolojik olarak anlamlı bir şekilde birleştirmek ve analiz etmek zorlu bir görev olmaya devam etmektedir1.
Farklı omikler arasındaki farklı teknolojik sınırlar, gürültüler ve değişkenlik aralıkları bir zorluk teşkil eder. Örneğin, tek hücreli RNA dizileme (scRNA-dizilimi) verileri çok seyrektir ve genellikle büyük teknik veya toplu etkilerden etkilenir. Ek olarak, özellik alanı genellikle çok büyüktür ve birkaç bin ölçülen gen veya protein arasında değişirken, örneklem boyutları sınırlıdır. Bu, çeşitli hastalık durumlarını, kafa karıştırıcı faktörleri, zaman noktalarını ve çözümleri içerebilen karmaşık tasarımlarla daha da karmaşıklaşır. Örneğin, sunulan kullanım örneğinde, tek hücreli veya örneklem (toplu) düzeyinde farklı veri türleri mevcuttu. Bunun yanı sıra, veriler eksik olabilir ve analiz edilen tüm denekler için tüm ölçümler mevcut olmayabilir.
Bu zorluklar nedeniyle, farklı omikler ve dahil edilen özellikler hala genellikle yalnızca ayrı ayrı analiz edilmektedir2 entegre bir analiz yapmak yalnızca sürecin tam bir resmini sağlamakla kalmasa da, bir omikten kaynaklanan biyolojik ve teknik gürültüler diğer omikler tarafından da telafi edilebilmektedir 3,4. Bayes yöntemleri, ağ tabanlı yöntemler5,6, çok modlu derin öğrenme7 ve matris çarpanlarına ayırma 8,9 yoluyla boyutsallık azaltma yöntemleri dahil olmak üzere çoklu omik verilerin entegre bir analizini gerçekleştirmek için birkaç farklı yöntem önerilmiştir. İkincisi için, büyük bir kıyaslama çalışmasının10 sonuçları, MOFA9 (multi-omik faktör analizi) yönteminin, verilerin klinik açıklamalara bağlanması gerektiğinde daha uygun araçlardan biri olduğunu göstermiştir.
Özellikle karmaşık ortamlarda, denetimsiz matris çarpanlarına ayırma yöntemleri, karmaşıklığı azaltmak ve farklı veri kaynaklarından ve özelliklerden paylaşılan ve tamamlayıcı sinyalleri çıkarmak için yararlı bir yaklaşımdır. Karmaşık alanı daha düşük dereceli gizli temsillere ayrıştırarak, verilerdeki ana varyans kaynakları hızlı bir şekilde keşfedilebilir ve bilinen ortak değişkenlerle ilişkilendirilebilir. Aynı varyasyon modelinin birden fazla özellik (örneğin, genler veya proteinler) arasında paylaşılması durumunda, gürültü azaltılırken bu birkaç faktöre toplanabilir. Düzenleme, model katsayılarının seyrekliğini artırmak için kullanılabilir, bu da yaklaşımı, özellik alanının büyük olduğu ve örnek sayısının sınırlı olduğu ortamlarda çok uygun hale getirir9.
Bu protokol, karmaşık bir multi-omik veri kümesinin nasıl hızlı bir şekilde keşfedileceğini ve bu veri kümesini karakterize eden ana varyasyon modellerinin nasıl damıtılacağını göstermek için MOFA modelini kullanan esnek bir analiz iş akışı sunar. İş akışı üç ana adımdan oluşur. İlk adımda, Veri ön işleme ve uyumlaştırma, farklı girdi veri türlerine (scRNA-seq, proteomik, sitokin, klinik veriler) dayalı veri ön işleme için farklı stratejiler sunulmaktadır. Protokol, farklı girdi veri kümelerinin özelliklerinin nasıl işleneceğini, düşük kaliteli özelliklerin nasıl filtreleneceğini ve dağıtımlarını uyumlu hale getirmek için bunların nasıl normalleştirileceğini ayrıntılı olarak açıklar. Ayrıca, bu ön işleme kararlarının aşağı akış sonuçlarını nasıl etkileyebileceğini de gösteriyoruz. İkinci adımda, verilere MOFA modeli uygulanır ve elde edilen varyans ayrıştırması, farklı veri kümelerinin entegrasyonunu değerlendirmek için kullanılabilir. Üçüncü adım, yakalanan faktörlerin ortak değişkenlere nasıl bağlanacağını ve bu faktörleri tanımlayan moleküler programların nasıl ortaya çıkarılacağını gösterir. Sunulan iş akışıyla, koroner sendromlardan muzdarip hastalardan oluşan bir veri setindeki klinik ortak değişkenlerle bağlantılı birkaç gizli faktörü çıkarabildik ve önceki bir projeden altta yatan potansiyel çok hücreli bağışıklık programlarını belirleyebildik11. Bu veri kümesini burada kullanacağız, ancak protokol diğer omikler de dahil olmak üzere diğer bağlamlara kolayca uygulanabilir.
Veri seti, stabil kronik koroner sendromlu (CCS), akut koroner sendromlu (ACS) hastalardan ve sağlıklı koronerleri olan bir kontrol grubundan (CCS olmayan) alınan örneklerden oluşmaktadır (Şekil 1). ACS, önceden var olan CCS'deki plak rüptüründen kaynaklanır ve miyokarda giden kan akışının akut olarak bozulmasına ve ardından kalbin iskemik yaralanmasına yol açar. Bu yaralanma, bağışıklık sistemi tarafından enflamatuar bir yanıta ve ardından akut olaydan birkaç gün sonrasına kadar süren onarıcı bir faza neden olur12. ACS hastaları için bu bağışıklık tepkisini karakterize edebilmek için, dört farklı zaman noktasında kan örnekleri alındı: akut (TP1); rekanalizasyondan sonra (14 [± 8] h) (TP2); 60 [± 12] h sonra (TP3); taburcu olmadan önce (6.5 [±1.5] gün) (TP4) (Şekil 1A). CCS ve sağlıklı koronerleri olan hastalar için sadece bir zaman noktası mevcuttu - (TP0). Tüm hastalar ve zaman noktaları için kan örneklerine dayalı farklı testler ölçüldü: inflamasyonun klinik belirteçleri (Kreatin-Kinaz (CK), CK-MB, Troponin, C-reaktif protein (CRP)), periferik kan mononükleer hücrelerinin (PBMC'ler) scRNA-seq'i, sitokin analizi, plazma proteomiği ve nötrofillerin prime-seq13 verileri.
Şekil 1: Miyokard enfarktüsü multi-omik giriş veri seti. Giriş veri seti: Analiz edilen veriler, akut koroner sendromlu (ACS), kronik koroner sendromlu (CCS) ve sağlıklı koroner hastalı (CCS olmayan) hastalardan (n = 62) alınan kan örneklerini içerir. AKS hastaları için kan örnekleri dört farklı zaman noktasında (TP1-4), CCS ve CCS olmayan hastalar için tek bir zaman noktasında (TP0) dahil edildi. Her hasta ve zaman noktası kombinasyonu, analizde ayrı bir numune olarak ele alınır. Numuneler üzerinde farklı omik testler ölçüldü: klinik kan testleri (n = 125), scRNA-seq (n = 121), plazma-proteomik (n = 119), sitokin testi (n = 127) ve nötrofil prime-seq (n = 121). Daha sonra, açıklanan protokol, verileri tüm omiklere entegre etmek ve MOFA modelini ve daha fazla aşağı akış analizini (faktör analizi, yol zenginleştirme) kullanarak keşfetmek için uygulandı. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Burada sunulduğu gibi iş akışı için girdi olarak, örneğinyetersiz 14 ön işleme eğitiminde belirtildiği gibi, cellranger ve kalite kontrol (QC) ile işlendikten sonra scRNA-seq verilerinden ham sayımlar alırız. Hücre tipi ek açıklama için otomatik Azimuth15 boru hattını kullandık. Sayımlar daha sonra, her örnek ve hücre tipi için tüm hücrelerdeki ortalama alınarak (psödobulk toplama) her hücre tipi için örnek düzeyinde toplanır. Plazma-proteomik, normalleştirilmiş ve medyan merkezli yoğunluklar olarak dahil edilir ve nötrofiller için, asal sıralamadan umi benzersiz moleküler tanımlayıcı (UMI) ekzon sayılarını alırız. Sitokin ve klinik değerlerde, daha önce herhangi bir ön işlem uygulanmamıştır. (Deneysel) veri üretimi ile ilgili daha fazla ayrıntı, ilgili el yazması11'de özetlenmiştir. Burada sunulan sonuçlar, atıfta bulunulan yayında kullanılan belirteç tabanlı stratejiye kıyasla scRNA-seq verilerindeki hücre tipleri için otomatik Azimut ek açıklamasının kullanılmasına dayandığından, burada sunulan sonuçlar benzerdir, ancak yayında sunulanla tam olarak aynı değildir. El yazmasında, hücre tipi açıklama stratejisinin analizin ana modellerini ve biyolojik yorumlarını değiştirmediği, ancak modelden kaynaklanan kesin değerlerdeki küçük değişikliklerin değişebileceği gösterilebilir. Genel olarak girdi verileri, 10.000'den fazla farklı özelliğin (genler, proteinler, klinik değerler) farklı zaman noktaları ve ölçüm seviyeleri (tek hücreler ve toplu) dahil olmak üzere karmaşık, çok boyutlu bir veri setiydi. MOFA analizinin izlediği sıkı bir ön işleme ve veri uyumlaştırma stratejisinin, verileri keşfetmek ve ilgili bağışıklık programını çıkarmak için yararlı ve hızlı bir araç olduğu gösterilmiştir. Her zaman noktası ve hasta kombinasyonu, MOFA analizinde bağımsız bir numune olarak ele alınır. Her veri türü ve hücre türü, MOFA analizinde ayrı bir görünüm olarak kabul edilir.
Bu protokol, iş akışı için giriş verilerinin hazırlanması, farklı iş akışı adımlarının yürütülmesi, konfigürasyonların özelleştirilmesi, elde edilen rakamların yorumlanması ve yorumlara dayalı olarak konfigürasyonların yinelemeli olarak ayarlanması için talimatlar sağlar. Protokolün farklı adımlarına, her adımda gerekli girdi veri kümelerine ve sonuçta elde edilen rakamlara ve veri kümelerine genel bir bakış, teknik iş akışına genel bakış tarafından verilmektedir (Şekil 2).
Şekil 2: Teknik iş akışına genel bakış. Multi-omics veri setinin analizi için iş akışının ana hatları. Farklı öğeler farklı renkler ve sembollerle vurgulanır. Veri Ön İşleme ve Uyumlaştırma (1) adımına ait Jupyter Notebook'lar mavi renktedir. 'MOFA Model' (2) basamağına ait Jupyter Notebook'lar turuncu renktedir. 'Aşağı Akış Analizi' (3) adımına ait Jupyter Notebook'lar yeşil renktedir. Sonuçların karşılaştırılması için kullanılacak bir Jupyter Notebook sarı renktedir. İş akışının yürütülmesi için parametrelerin değiştirilebildiği yapılandırma dosyaları mor renkle vurgulanır. İş akışını çalıştırmak için gereken giriş veri kümeleri, veri kümesi simgesiyle gösterilir ve gri renkle vurgulanır. İş akışının yürütülmesi sırasında oluşturulan tüm şekil çıktıları büyüteç sembolü ile gösterilir. İş akışı yürütme sırasında oluşturulan veri kümeleri tablo olarak gösterilir. Genel olarak, iş akışı sırayla yürütülür: (1) Veri Ön İşleme ve Uyumlaştırma iki adımdan oluşur: scRNA-seq giriş verilerine (01_Prepare_Pseudobulk) dayalı bir pseudobulk tablosunun ilk oluşturulması ve ardından bu verilerin diğer tüm örnek düzeyinde (toplu) girdilerle birlikte entegrasyonu ve normalleştirilmesi (02_Integrate_and_Normalize_Data). Bu adımda, konfigürasyon dosyaları aracılığıyla, her bir veri kümesi için belirtilen ön işleme ve normalleştirme adımlarından hangisinin (örn. Örnek Filtre) uygulanması gerektiğini ayrı ayrı yapılandırmak mümkündür. (2) 'MOFA Modeli': MOFA modelini, yapılandırma dosyasında belirtilen konfigürasyonlarla ilk adımın oluşturulan girdisi üzerinde çalıştırır (03_MOFA_configs.csv) (3) 'Aşağı Akış Analizi': oluşturulan MOFA sonuçlarına ilişkin içgörüler oluşturmak ve bunları 'Örnek Meta Data.csv' dosyası aracılığıyla girdi olarak sağlanan örnek meta verilerle (ortak değişkenler) ilişkilendirmek için birbirinden bağımsız olarak çalıştırılabilen üç farklı not defterinden oluşur. (4) 'Model Karşılaştırması': 2. adımda oluşturulan farklı modelleri karşılaştırmak için kullanılabilecek küçük ve ayrı bir adımdır. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
İş akışı, R ve Python'da yazılmış birkaç Jupyter Notebook'tan oluşur (iş akışını çalıştırmak için R ve Python dili bilgisi gerekli değildir, ancak hataların ortaya çıkması durumunda yardımcı olabilir). Protokolün çeşitli adımlarında, parametreler konfigürasyon dosyaları (adında '_Configs' sonekini içeren '.csv' dosyaları) aracılığıyla değiştirilir. Protokol içinde, yalnızca varsayılan yapılandırmadan başlayarak değiştirilmesi gereken parametreleri ana hatlarıyla belirtiriz.
Örneğin ön işlemeyi özelleştirmek için başka parametreler de değiştirilebilir. Bu parametrelerin ve açıklamaların bir dokümantasyonu, indirilen depoda bulunan 'Documentation_Config_Parameter' dosyasında verilmiştir.
1. Hazırlıklar: Teknik kurulum ve kurulum
NOT: Bu programı çalıştırmak için wget, git ve Apptainer'ın cihaza önceden yüklenmiş olmasını sağlayın. Apptainer'ı farklı sistemlere (Linux, Windows, Mac) kurmak için bir kılavuz burada verilmiştir: https://apptainer.org/docs/admin/main/installation.html. Git ile ilgili kurulum bilgileri burada bulunabilir: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. Farklı giriş veri kümelerinin boyutuna bağlı olarak, iş akışının uygun bir makinede (16 CPU, 64 GB Bellek) çalıştırılması önerilir. Sağlanan örnek verilerle bir duman testi yerel makinede gerçekleştirilebilir. Örnek veriler üzerinde protokolün çalıştırılmasından elde edilen talimatlar ve beklenen çıktılar Ek Dosya 1'de verilmiştir. Yukarıda özetlenen veri kümesinde yürütülen protokolün önemli adımları için Ek Video Dosyası 1'e bakın.
2. Başlatma ve veri hazırlama
Şekil 3: Veri girişi ve kurulumu. İş akışının yürütülmesi için tüm verilerin belirli bir input_data klasöründe saklanması gerekir. Her giriş veri kümesi için ayrı bir dosya sağlanmalıdır. Tek hücreli veriler, cluster_id üzerinde hücre açıklaması (örneğin, önceki hücre tipi açıklama adımlarından elde edilen) ve bir sample_id sütunu (analiz edilmesi gereken her bir ayrı örneği benzersiz bir şekilde tanımlayan) içeren .h5ad olarak verilmelidir. Diğer tüm girdi veri kümeleri, diğer tüm sütunlarda MOFA analizinde kullanılacak sample_id (tek hücreli verinin karşılık gelen sütunuyla eşleşen) ve özellikleri belirten bir sütun da dahil olmak üzere '.csv' biçiminde verilmelidir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 4: Jupyter-lab yapılandırma dosyaları. İş akışının yürütülmesi sırasında, parametrelerdeki değişiklikler (örn. filtreleme seçeneklerinin ayarlanması vb.) '.csv' konfigürasyon dosyaları aracılığıyla belirtilir. Klonlanan depo içinde, her adım için varsayılan yapılandırma dosyaları dahil edilir. Bunlar, bir elektronik tabloda olduğu gibi doğrudan jupyter-lab konsolunda düzenlenebilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
Şekil 5: Jupyter-notebooks betikleri. İş akışının tamamı, ilgili yapılandırma dosyaları değiştirildikten sonra sırayla yürütülecek bir dizi Jupyter not defterinden oluşur. Sol taraftaki Jupyter not defterine çift tıklandığında, ilgili dosya sağ tarafta açılacaktır. Dosyanın tam olarak yürütülmesi, üst kısımda vurgulanan düğme ile başlatılabilir. Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
3. Veri ön işleme ve uyumlaştırma
Şekil 6: Veri ön işleme ve uyumlaştırma. '01_Prepare_Pseudobulk' adımının bir çıktısı 'Fig01_Amount_of_Cells_Overview' grafiğidir. Burada, her cluster_id için (önceki hücre tipi açıklama adımlarından hücre tipini gösteren y ekseni), örnek başına hücre sayısı ('sample_id') verilir. Sunulan sonuçlar içinde, numune başına düşük miktarda hücreye sahip hücre tipleri, sonraki analizden hariç tutulur (üstü çizili ile gösterilir). Bu rakamın daha büyük bir sürümünü görüntülemek için lütfen buraya tıklayın.
4. MOFA'yı Çalıştırma
5. Aşağı akış analizi
6. Farklı konfigürasyonların ve sürümlerin karşılaştırılması (Ek Şekil 1, Ek Şekil 2, Ek Şekil 3, Ek Şekil 4)
7. İş akışının genişletilmesi: Diğer parametrelerin ve konfigürasyonların eklenmesi
NOT: Yapılandırma dosyalarında şu anda yapılandırılabilir olan parametrelerin yanı sıra, koddaki veya diğer parametrelerdeki diğer ayarlamalar da dahil edilebilir. Örneğin, MOFA modelinin kendisi, doğrudan kodda değiştirilebilen veya konfigürasyon dosyaları aracılığıyla ayarlanabilir hale getirilebilen birkaç başka eğitim parametresi17 sunar. Protokolün bir sonraki bölümünde, ek MOFA model eğitim parametreleri için bunun nasıl yapılacağına dair bir örnek özetlenecektir. Bu kısım için R programlama bilgisi gereklidir.
İş akışının başarılı bir şekilde yürütülmesinin ardından, Şekil 2'de gösterildiği gibi birkaç tablo ve şekil oluşturulur. Şekiller /figures klasörüne yerleştirilir (Şekil 6, Şekil 7, Şekil 8, Ek Şekil 1, Ek Şekil 2, Ek Şekil 3, Ek Şekil 4) ve tablolar beli...
Ana hatlarıyla belirtilen protokolle, karmaşık bir çoklu omik veri kümesini hızlı bir şekilde keşfetmek için kullanılabilecek modüler ve genişletilebilir Jupyter-notebook tabanlı bir iş akışı sunulmaktadır. İş akışının ana kısımları, ön işleme ve veri uyumlaştırma bölümünden (verilerin filtrelenmesi ve normalleştirilmesi için farklı standart adımlar sunar), MOFA9 modelinin tahmininden ve bazı örnek aşağı akış analizler...
Yazarlar herhangi bir çıkar çatışması beyan etmemektedir.
C.L., "Münih Veri Bilimi Okulu - MUDS" ortak araştırma okulu altındaki Helmholtz Derneği tarafından desteklenmektedir.
Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiDaha Fazla Makale Keşfet
This article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır