JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.
Method Article
다양한 전처리 단계, 다중 오믹스 요인 분석 모델 추정 및 여러 다운스트림 분석을 결합한 복잡한 다중 오믹스 데이터 세트의 비감독 분석을 위한 유연하고 확장 가능한 Jupyter-lab 기반 워크플로를 제공합니다.
질병 메커니즘은 일반적으로 복잡하며 몇 가지 뚜렷한 분자 과정의 상호 작용에 의해 제어됩니다. 복잡한 다차원 데이터 세트는 이러한 프로세스에 대한 더 많은 통찰력을 얻을 수 있는 귀중한 리소스이지만, 이러한 데이터 세트의 분석은 예를 들어 다양한 질병 상태, 시점 및 다양한 해상도에서 프로세스를 캡처하는 오믹스에서 발생하는 높은 차원성으로 인해 어려울 수 있습니다.
여기에서는 급성 및 만성 관상동맥 증후군의 면역 반응을 포착하는 혈액 샘플에서 생성된 데이터 세트에 다중 오믹스 요인 분석(MOFA)을 적용하여 이러한 복잡한 다중 오믹스 데이터 세트를 비지도 방식으로 분석하고 탐색하는 접근 방식을 보여줍니다. 데이터 세트는 시료 수준 사이토카인 데이터, 혈장 단백질체학 및 호중구 프라임 염기서열분석, 단일 세포 RNA-염기서열분석(scRNA-seq) 데이터를 포함하여 다양한 해상도의 여러 분석으로 구성됩니다. 환자당 여러 다른 시점을 측정하고 여러 환자 하위 그룹을 측정함으로써 복잡성이 더욱 가중됩니다.
분석 워크플로우는 (1) 데이터 전처리 및 조화, (2) MOFA 모델 추정, (3) 다운스트림 분석의 여러 단계로 데이터를 통합하고 분석하는 방법을 간략하게 설명합니다. 1단계에서는 다양한 데이터 유형의 특징을 처리하고, 품질이 낮은 특징을 필터링하고, 추가 분석을 위해 분포를 일치시키기 위해 정규화하는 방법을 간략하게 설명합니다. 2단계에서는 MOFA 모델을 적용하고 모든 오믹스 및 기능에 걸쳐 데이터 세트 내 분산의 주요 원인을 탐색하는 방법을 보여줍니다. 3단계에서는 캡처된 패턴의 다운스트림 분석을 위한 몇 가지 전략을 제시하여 이를 질병 상태 및 이러한 상태를 지배하는 잠재적인 분자 과정과 연결합니다.
전반적으로, 복잡한 다중 오믹스 데이터 세트의 비지도 데이터 탐색을 위한 워크플로우를 제시하여 다른 컨텍스트 및 다중 오믹스 데이터 세트(예시적인 사용 사례에 제시된 다른 분석 포함)에도 적용할 수 있는 다양한 분자 특징으로 구성된 주요 변동 축을 식별할 수 있도록 합니다.
질병 메커니즘은 일반적으로 복잡하며 몇 가지 뚜렷한 분자 과정의 상호 작용에 의해 제어됩니다. 특정 질병을 유발하거나 질병의 진행을 관장하는 복잡한 분자 메커니즘을 해독하는 것은 질병을 이해하고 치료하기 위한 새로운 통찰력을 제공할 수 있기 때문에 의학적 관련성이 높은 작업입니다.
최근의 기술 발전으로 더 높은 해상도(예: 단일 세포 수준)와 다양한 생물학적 층(예: DNA, mRNA, 염색질 접근성, DNA 메틸화, 단백질체학)에서 이러한 과정을 동시에 측정할 수 있습니다. 이로 인해 대규모 다차원 생물학적 데이터 세트의 생성이 증가하고 있으며, 이를 공동으로 분석하여 기본 프로세스에 대한 더 많은 통찰력을 생성할 수 있습니다. 동시에 생물학적으로 의미 있는 방식으로 다양한 데이터 소스를 결합하고 분석하는 것은 여전히 어려운 작업입니다1.
서로 다른 기술적 한계, 소음 및 서로 다른 오믹스 간의 변동성 범위는 한 가지 문제를 제기합니다. 예를 들어, 단일 세포 RNA 염기서열분석(scRNA-seq) 데이터는 매우 희박하며 종종 대규모 기술 또는 배치 효과의 영향을 받습니다. 또한 특징 공간은 수천 개의 측정된 유전자 또는 단백질에 걸쳐 매우 큰 경우가 많으며 샘플 크기는 제한적입니다. 이는 여러 질병 상태, 교란 요인, 시점 및 해결 방법을 포함할 수 있는 복잡한 설계로 인해 더욱 복잡해집니다. 예를 들어, 제시된 사용 사례에서는 단일 셀 또는 샘플(대량) 수준에서 다양한 데이터 유형을 사용할 수 있었습니다. 그 외에도 데이터가 불완전할 수 있으며 분석된 모든 피험자에 대해 모든 측정이 가능하지 않을 수 있습니다.
이러한 문제로 인해, 통합 분석을 수행하면 공정에 대한 완전한 그림을 제공할 수 있을 뿐만 아니라 한 오믹스의 생물학적 및 기술적 노이즈가 다른 오믹스에 의해 보상될 수 있음에도 불구하고 서로 다른 오믹스 및 포함된 특징이 여전히 개별적으로 분석되는 경우가 많습니다 3,4. 베이지안 방법(Bayesian methods), 네트워크 기반 방법(network-based methods) 5,6, 멀티모달 딥러닝(multimodal deep learning)7, 행렬 분해를 통한 차원 축소(dimensionality reduction methods) 8,9 등 멀티오믹스 데이터의 통합 분석을 수행하기 위해 여러 가지 방법이 제안되었다. 후자의 경우, 대규모 벤치마킹 연구10의 결과에 따르면 MOFA9(다중 오믹 요인 분석) 방법은 데이터를 임상 주석에 연결해야 할 때 더 적합한 도구 중 하나임이 밝혀졌습니다.
특히 복잡한 환경에서 비지도 행렬 분해 방법은 복잡성을 줄이고 다양한 데이터 소스와 특징에서 공유 및 보완 신호를 추출하는 데 유용한 접근 방식입니다. 복잡한 공간을 더 낮은 순위의 잠재 표현으로 분해하면 데이터 내 분산의 주요 원인을 빠르게 탐색하고 알려진 공변량에 연결할 수 있습니다. 동일한 변이 패턴이 여러 특징(예: 유전자 또는 단백질)에 걸쳐 공유되는 경우, 이는 노이즈가 감소하면서 몇 가지 요인으로 집계될 수 있습니다. 정규화는 모델 계수의 희소성을 증가시키는 데 사용될 수 있으며, 이는 특징 공간이 크고 샘플 수가 제한되는 설정에서 이 접근 방식을 매우 적합하게 만듭니다9.
이 프로토콜은 MOFA 모델을 사용하여 복잡한 다중 오믹스 데이터 세트를 빠르게 탐색하고 이 데이터 세트를 특징짓는 주요 변동 패턴을 추출하는 방법을 보여주는 유연한 분석 워크플로우를 제공합니다. 워크플로는 세 가지 주요 단계로 구성됩니다. 첫 번째 단계인 Data pre-processing and harmonization에서는 다양한 입력 데이터 유형(scRNA-seq, proteomics, cytokine, clinical data)을 기반으로 한 데이터 전처리를 위한 다양한 전략을 제시합니다. 이 프로토콜은 서로 다른 입력 데이터 세트의 기능을 처리하고, 품질이 낮은 기능을 필터링하고, 분포를 조화시키기 위해 정규화하는 방법을 자세히 설명합니다. 또한 이러한 사전 처리 결정이 다운스트림 결과에 어떤 영향을 미칠 수 있는지도 보여줍니다. 두 번째 단계에서는 MOFA 모델을 데이터에 적용하고 결과 분산 분해를 사용하여 서로 다른 데이터 세트의 통합을 평가할 수 있습니다. 세 번째 단계에서는 캡처된 요인을 공변량에 연결하고 이러한 요인을 정의하는 분자 프로그램을 발견하는 방법을 보여줍니다. 제시된 워크플로우를 통해 관상 동맥 증후군을 앓고 있는 환자의 데이터 세트에서 임상 공변량과 관련된 여러 잠재 요인을 추출하고 이전 프로젝트11에서 잠재적인 기저 다세포 면역 프로그램을 식별할 수 있었습니다. 여기서는 이 데이터 세트를 사용하지만 프로토콜은 다른 오믹스를 포함한 다른 컨텍스트에 쉽게 적용할 수 있습니다.
이 데이터 세트는 안정적인 만성 관상동맥 증후군(CCS), 급성 관상동맥 증후군(ACS) 및 건강한 관상동맥(비CCS)이 있는 대조군 환자의 샘플로 구성됩니다(그림 1). ACS는 기존 CCS의 플라크 파열로 인해 발생하며, 심근으로 가는 혈류의 급성 중단과 그에 따른 심장의 허혈성 손상으로 이어집니다. 이 손상은 면역 체계에 의한 염증 반응을 일으킨 후 회복 단계를 일으키며, 이는 급성 사건12 후 몇 일까지 지속됩니다. ACS 환자에 대한 이러한 면역 반응을 특성화할 수 있도록 혈액 샘플을 4가지 다른 시점에서 채취했습니다: 급성(TP1); 재개통 후 (14 [± 8] h) (TP2); 60 [± 12] 시간 후 (TP3); 방전 전(6.5 [±1.5]일)(TP4)(그림 1A). CCS 및 건강한 관상동맥 환자의 경우 하나의 시점(TP0)만 사용할 수 있었습니다. 염증의 임상 지표(크레아틴-키나아제(CK), CK-MB, 트로포닌, C-반응성 단백질(CRP)), 말초 혈액 단핵 세포(PBMC)의 scRNA-seq, 사이토카인 분석, 혈장 단백질체학 및 호중구의prime-seq 13 데이터 등 혈액 샘플을 기반으로 한 다양한 분석을 측정했습니다.
그림 1: 심근 경색 다중 OMIC 입력 데이터 세트. 입력 데이터 세트: 분석된 데이터에는 급성 관상동맥 증후군(ACS), 만성 관상동맥 증후군(CCS) 및 건강한 관상동맥(비CCS) 환자(n = 62)의 혈액 샘플이 포함됩니다. ACS 환자의 경우 4개의 다른 시점(TP1-4)에서 혈액 샘플을 포함시켰고, CCS 환자와 비CCS 환자의 경우 단일 시점(TP0)에서 혈액 샘플을 포함했습니다. 각 환자 및 시점 조합은 분석에서 별도의 샘플로 취급됩니다. 샘플에서 임상 혈액 검사(n=125), scRNA-seq(n=121), 혈장-단백질체학(n=119), 사이토카인 분석(n=127) 및 호중구 프라임-seq(n=121)와 같은 다양한 omic 분석을 측정했습니다. 그 후, 설명된 프로토콜을 적용하여 모든 오믹스에서 데이터를 통합하고 MOFA 모델 및 추가 다운스트림 분석(요인 분석, 경로 농축)을 사용하여 데이터를 탐색했습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
여기에 제시된 워크플로우에 대한 입력으로, 예를 들어 scanpy14 전처리 튜토리얼에 설명된 대로 cellranger 및 품질 관리(QC)로 처리한 후 scRNA-seq 데이터에서 원시 계수를 가져옵니다. 셀 유형 주석의 경우 자동화된 Azimuth15 파이프라인을 사용했습니다. 그런 다음 각 샘플 및 셀 유형에 대한 모든 셀의 평균을 취하여 각 셀 유형에 대한 샘플 수준에서 카운트를 집계합니다(pseudobulk 집계). 혈장-단백질체학(Plasma-proteomics)은 정규화 강도(normalized tensity) 및 중앙-중심 강도(median-centered intensities)로 포함되며, 호중구의 경우 prime-seq에서 umi 고유 분자 식별자(UMI) 엑손 수를 취합니다. 사이토카인(cytokine) 및 임상적 가치에 대해서는 이전의 전처리가 적용되지 않았습니다. (실험적) 데이터 생성에 대한 자세한 내용은 해당 원고11에 요약되어 있다. 여기에 제시된 결과는 참조된 간행물에서 사용된 마커 기반 전략과 비교하여 scRNA-seq 데이터의 세포 유형에 대한 자동화된 방위각 주석을 사용한 것을 기반으로 하므로 여기에 제시된 결과는 유사하지만 간행물에 제시된 것과 정확히 동일하지는 않습니다. 원고에서 세포 유형 주석 전략이 분석의 주요 패턴과 생물학적 해석을 변경하지 않지만 모델로 인한 정확한 값의 작은 변화는 다를 수 있음을 보여줄 수 있습니다. 전반적으로 입력 데이터는 10,000개 이상의 서로 다른 특징(유전자, 단백질, 임상 값)의 다양한 시점과 측정 수준(단일 세포 대 벌크)을 포함하는 복잡한 다차원 데이터 세트였습니다. MOFA 분석에 따른 엄격한 전처리 및 데이터 조화 전략은 데이터를 탐색하고 관련 면역 프로그램을 추출하는 데 유용하고 빠른 도구인 것으로 나타났습니다. 각 시점 및 환자 조합은 MOFA 분석에서 독립적인 샘플로 취급됩니다. 각 데이터 유형 및 셀 유형은 MOFA 분석에서 별도의 뷰로 간주됩니다.
이 프로토콜은 워크플로우에 대한 입력 데이터를 준비하고, 다양한 워크플로우 단계를 실행하고, 구성을 사용자 정의하고, 결과 그림을 해석하고, 해석을 기반으로 구성을 반복적으로 조정하기 위한 지침을 제공합니다. 프로토콜의 여러 단계, 각 단계에서 필요한 입력 데이터 세트, 결과 수치 및 데이터 세트에 대한 개요는 기술 워크플로우 개요에 나와 있습니다(그림 2).
그림 2: 기술 워크플로우 개요. multi-omics 데이터 세트 분석을 위한 워크플로우 개요입니다. 다른 요소는 다른 색상과 기호로 강조 표시됩니다. 데이터 전처리 및 조화(Data Preprocessing and Harmonization)(1) 단계에 속하는 Jupyter Notebook은 파란색으로 표시됩니다. 'MOFA 모델'(2) 단계에 속하는 Jupyter Notebook은 주황색으로 표시됩니다. '다운스트림 분석'(3) 단계에 속하는 Jupyter Notebook은 녹색으로 표시됩니다. 결과 비교에 사용할 Jupyter Notebook 하나는 노란색으로 표시됩니다. 워크플로우 실행을 위한 매개 변수를 수정할 수 있는 구성 파일은 자주색으로 강조 표시됩니다. 워크플로를 실행하는 데 필요한 입력 데이터셋은 데이터셋 기호로 표시되며 회색으로 강조 표시됩니다. 워크플로 실행 중에 생성되는 모든 Figure 출력값은 돋보기 기호로 표시됩니다. 워크플로우 실행 중에 생성된 데이터셋은 테이블로 표시됩니다. 일반적으로 워크플로우는 순차적으로 실행됩니다: (1) 데이터 전처리 및 조화는 scRNA-seq 입력 데이터(01_Prepare_Pseudobulk)를 기반으로 하는 pseudobulk 테이블의 첫 번째 생성과 다른 모든 샘플 레벨(벌크) 입력(02_Integrate_and_Normalize_Data)과 함께 이 데이터의 후속 통합 및 정규화의 두 단계로 구성됩니다. 구성 파일을 통해 이 단계 내에서 각 데이터 세트에 대해 표시된 전처리 및 정규화 단계(예: Sample Filter) 중 어느 것을 적용해야 하는지 개별적으로 구성할 수 있습니다. (2) 'MOFA 모델': 구성 파일(03_MOFA_configs.csv)에 지정된 구성을 사용하여 첫 번째 단계에서 생성된 입력에 대해 MOFA 모델을 실행합니다. (3) '다운스트림 분석': 생성된 MOFA 결과에 대한 통찰력을 생성하고 이를 'Sample Meta Data.csv' 파일을 통해 입력으로 제공되는 샘플 메타 데이터(공변량)와 연결하기 위해 서로 독립적으로 실행할 수 있는 3개의 서로 다른 노트북으로 구성됩니다. (4) '모델 비교': 2단계에서 생성된 다른 모델을 비교하는 데 사용할 수 있는 작은 별도 단계입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
워크플로는 R 및 Python으로 작성된 여러 Jupyter Notebook으로 구성됩니다(워크플로를 실행하는 데 R 및 Python 언어에 대한 지식이 필요하지 않지만 오류가 표시되는 경우 도움이 될 수 있음). 프로토콜의 다양한 단계에서 매개변수는 구성 파일(이름에 접미사 '_Configs'를 포함하는 '.csv' 파일)을 통해 변경됩니다. 프로토콜 내에서는 기본 구성부터 변경해야 하는 매개변수만 간략하게 설명합니다.
예를 들어, 전처리를 사용자 정의하기 위해 몇 가지 다른 매개변수도 변경될 수 있습니다. 이러한 매개 변수 및 설명에 대한 설명서는 다운로드한 저장소에 포함된 'Documentation_Config_Parameter' 파일에 제공됩니다.
1. 준비: 기술 설정 및 설치
참고: 이 프로그램을 실행하려면 wget, git 및 Apptainer가 장치에 미리 설치되어 있어야 합니다. 다른 시스템(Linux, Windows, Mac)에 Apptainer를 설치하는 방법에 대한 안내는 https://apptainer.org/docs/admin/main/installation.html 여기에서 제공됩니다. git에 대한 설치 정보는 여기에서 찾을 수 있습니다. https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. 다양한 입력 데이터 세트의 크기에 따라 적절한 컴퓨터(CPU 16개, 64GB 메모리)에서 워크플로를 실행하는 것이 좋습니다. 제공된 예제 데이터를 사용한 스모크 테스트를 로컬 컴퓨터에서 실행할 수 있습니다. 예제 데이터에서 프로토콜을 실행한 지침 및 예상 출력은 보충 파일 1에 나와 있습니다. 위에서 설명한 데이터 세트에서 실행되는 프로토콜의 중요한 단계에 대해서는 보충 비디오 파일 1 을 참조하십시오.
2. 초기화 및 데이터 준비
그림 3: 데이터 입력 및 설정. 워크플로를 실행하려면 모든 데이터를 지정된 input_data 폴더에 저장해야 합니다. 각 입력 데이터 세트에 대해 별도의 파일을 제공해야 합니다. 단일 셀 데이터는 cluster_id의 셀 주석(예: 이전 셀 유형 주석 단계의 결과) 및 sample_id 열(분석해야 하는 각 개별 샘플을 고유하게 식별)을 포함하는 .h5ad로 제공해야 합니다. 다른 모든 입력 데이터 세트는 '.csv' 형식으로 제공되어야 하며, 여기에는 sample_id(단일 셀 데이터의 해당 열과 일치)을 지정하는 한 열과 다른 모든 열에서 MOFA 분석에 사용할 기능이 포함됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 4: Jupyter-lab 구성 파일. 워크플로우를 실행하는 동안 매개변수의 변경(예: 필터링 옵션 조정 등)은 '.csv' 구성 파일을 통해 지정됩니다. 복제된 리포지토리 내에는 각 단계에 대한 기본 구성 파일이 포함됩니다. 스프레드시트와 마찬가지로 jupyter-lab 콘솔에서 직접 편집할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 5: Jupyter-notebooks 스크립트. 전체 워크플로는 해당 구성 파일이 수정된 후 순차적으로 실행되는 일련의 Jupyter Notebook으로 구성됩니다. 왼쪽의 Jupyter 노트북을 두 번 클릭하면 해당 파일이 오른쪽에 열립니다. 파일의 전체 실행은 상단에 강조 표시된 버튼으로 시작할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
3. 데이터 전처리 및 조화
그림 6: 데이터 전처리 및 조화. '01_Prepare_Pseudobulk' 스텝의 출력값 중 하나는 플롯 'Fig01_Amount_of_Cells_Overview'입니다. 여기서 각 cluster_id(이전 셀 유형 주석 단계의 셀 유형을 나타내는 y축)에 대해 샘플당 셀 수('sample_id')가 제공됩니다. 제시된 결과 내에서 샘플당 세포 수가 적은 세포 유형은 후속 분석에서 제외됩니다(취소선으로 표시됨). 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
4. MOFA 실행
5. 다운스트림 분석
6. 다양한 구성 및 버전 비교(보충 그림 1, 보충 그림 2, 보충 그림 3, 보충 그림 4)
7. 워크플로우 확장: 다른 매개 변수 및 구성 추가
참고: 구성 파일에서 현재 구성 가능한 매개 변수 외에도 코드 또는 다른 매개 변수의 다른 조정 사항이 포함될 수 있습니다. 예를 들어, MOFA 모델 자체는 코드에서 직접 수정하거나 구성 파일을 통해 조정할 수 있는 몇 가지 다른 훈련 매개변수(17 )를 제공한다. 프로토콜의 다음 섹션에서는 추가 MOFA 모델 학습 매개변수에 대해 이 작업을 수행하는 방법의 예를 간략하게 설명합니다. 이 부분에서는 R 프로그래밍 지식이 필요합니다.
워크플로우가 성공적으로 실행되면 그림 2와 같이 여러 테이블과 그림이 생성됩니다. 그림은 /figures 폴더(그림 6, 그림 7, 그림 8, 보충 그림 1, 보충 그림 2, 추가 그림 3, 보충 그림 4)에 배치되고 테이블은 지정된 /r...
설명된 프로토콜을 사용하면 복잡한 다중 오믹스 데이터 세트를 빠르게 탐색하는 데 사용할 수 있는 확장 가능한 모듈식 Jupyter 노트북 기반 워크플로가 제공됩니다. 워크플로우의 주요 부분은 전처리 및 데이터 조화 부분(데이터 필터링 및 정규화를 위한 다양한 표준 단계 제공), MOFA9 모델 추정 및 몇 가지 예시적인 다운스트림 분석으로 구성됩니다. 가?...
저자는 이해 상충이 없음을 선언합니다.
CL은 공동 연구 학교인 "Munich School for Data Science - MUDS"에서 Helmholtz Association의 지원을 받고 있습니다.
Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기
허가 살펴보기This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. 판권 소유