이 프로토콜은 차등 스플라이싱 부위, 차등적으로 발현된 엑손 및 폴리(A)부위를 식별하기 위한 단계별 워크플로우를 제공하여 대체 스플라이싱 및 폴리아데닐화에 의해 생성된 유전자 이소형에 대한 포괄적인 이해를 제공합니다. 이 프로토콜의 주요 장점은 대체 접합을 연구하기 위한 엑손 기반 및 이벤트 기반 방법을 모두 평가한다는 것입니다. 또한 대체 폴리아데닐화를 연구하기 위해 엑손 기반 방법을 적용합니다.
AS 및 AP 분석을 위한 코드와 메모가 포함된 R Markdown 파일이 제공되었습니다. R Markdown 파일의 단계를 따르고 각 단계에 대한 메모에 주의 깊게 도달하는 것이 좋습니다. limma에서 diffSplice를 사용하여 차등 접합을 식별하려면 R 노트북 파일을 따릅니다.
텍스트 원고에 설명된 대로 입력 파일을 준비합니다. 계속 진행하기 전에 입력 파일을 준비하기 위해 원고의 1단계부터 3단계까지 순차적으로 수행했는지 확인합니다. 먼저 필요한 라이브러리를 로드합니다.
비특이적 필터링을 수행하려면 먼저 이전에 얻은 읽기 횟수의 행렬을 추출하고 edgeR 패키지에서 DGEList 함수를 사용하여 특징 목록을 만듭니다. 여기서 행은 유전자를 나타내고 열은 샘플을 나타냅니다. 그런 다음 edgeR 패키지의 CPM 함수를 사용하여 원시 스케일에서 백만당 카운트로 데이터를 변환하고 설정 가능한 임계값보다 큰 카운트로 엑손을 유지합니다. 이 데이터 세트에는 6개의 샘플이 포함되어 있습니다.
따라서 CPM은 1보다 크고 6개 중 3개 이상의 샘플로 설정됩니다. M 값의 절사 평균을 사용하여 edgeR 패키지의 calcNormFactors 함수를 사용하여 샘플 전체의 개수를 정규화합니다. 이 함수는 라이브러리 크기를 조정하기 위해 배율 인수를 계산합니다.
이전에 생성된 표본 표를 사용하여 각 표본에 대한 실험 조건을 정의하는 설계 행렬을 생성합니다. limma 패키지의 voom 함수를 실행하여 RNA 시퀀싱 데이터를 처리하여 분산을 추정합니다. 이 함수는 포아송 카운트 잡음을 보정하기 위해 정밀 가중치를 생성하고 엑손 레벨 카운트를 변환하여 백만당 2카운트 또는 logCPM을 기록합니다.
lmfit 함수를 실행하여 선형 모델을 각 엑손의 표현식 데이터에 피팅합니다. 그런 다음 eBayes 함수를 실행하여 피팅된 모델에 대한 경험적 기반 통계량을 계산하여 미분 엑손 식을 탐지합니다. 관심 있는 실험적 비교를 위한 대비 행렬을 정의합니다.
대비를 사용하십시오. 각 비교 쌍에 대한 계수와 표준 오차를 구하기 위한 fit 함수입니다. 적합된 모델에서 diffSplice를 실행하여 야생형과 녹아웃 간 유전자의 엑손 사용 차이를 검정합니다.
t와 같은 검정은 AS 엑손의 순위를 제공하고 simes와 같은 검정은 유전자의 순위를 제공하는 topSplice 함수를 사용하여 최상위 결과를 탐색합니다. plotSplice 함수를 실행하여 결과를 플로팅합니다. 유전자 ID 인수에 관심 유전자를 넣을 때 빨간색 점은 차등적으로 발현된 엑손을 나타냅니다.
EnhancedVolcano 바이오컨덕터 패키지를 사용하여 화산 플롯을 생성하여 차등적으로 발현된 엑손을 나타냅니다. rMATS를 사용하려면 작업 디렉터리에 conda 또는 GitHub를 사용하여 최신 버전의 rMATS 버전 4.1.1이 설치되어 있는지 확인합니다. 매핑 후 얻은 bam 파일이 포함된 폴더로 이동합니다.
bam 파일의 이름과 해당 경로를 쉼표로 구분하여 복사하는 두 가지 조건에 대해 rMATS에서 요구하는 대로 텍스트 파일을 준비합니다. rmas를 실행합니다. py는 BAM 파일의 경로와 주석을 설명하는 두 개의 생성 된 입력 텍스트 파일을 사용합니다.
이전에 얻은 GTF 파일입니다. 이렇게 하면 각 접합 이벤트에 대한 P-값 및 포함 수준을 포함한 통계를 개별적으로 설명하는 텍스트 파일이 포함된 출력 폴더 rmats_out 생성됩니다. 바이오컨덕터 패키지 메이저를 사용하여 rMATS 결과를 탐색합니다.
접합 및 exon은 확장자 JCEC가 있는 텍스트 파일을 메이저 객체에 로드하고 스플라이싱 이벤트당 평균 읽기 횟수를 5회 이상 포함하여 적용 범위를 기준으로 결과를 필터링합니다. rMATS 결과를 시각화하려면 먼저 maser 패키지에서 topEvents 함수를 실행하여 잘못된 검색 비율 10%와 접합된 백분율 또는 PSI의 최소 10% 변화로 중요한 접합 이벤트를 선택합니다. 관심 있는 개별 유전자에 대한 유전자 이벤트를 확인하고 해당 유전자의 각 스플라이싱 이벤트에 대한 PSI 값을 플로팅합니다.
사건 유형을 지정하여 화산 플롯을 생성합니다. rMATS로 얻은 접합 이벤트 결과를 텍스트 파일 형식으로 사용하여 rmats2sashimiplot 패키지를 사용하여 사시미 플롯을 생성합니다. 사시미 플롯은 Wnk1 유전자에서 건너뛴 엑손 이벤트를 보여줍니다.
각 행은 RNA-seq 샘플, 야생형의 3 회 반복 및 Mbnl1 녹아웃을 나타냅니다. 높이는 RPKM 단위의 읽기 범위를 나타내고 연결 호는 엑손 전체의 접합 읽기를 나타냅니다. 하단 부분은 주석이 달린 유전자 모델 대체 이소폼을 보여줍니다.
diffSplice 및 DEXSeq를 사용하여 얻은 화산 플롯의 왼쪽 상단 또는 오른쪽 사분면에 위치한 유전자에서 실질적인 접힘 변화와 진정한 차이에 대한 강력한 통계적 증거가 관찰 될 수 있습니다. 카세트 엑손은 Wnk1 유전자에 대해 상이한 조건 사이에서 변하는 것으로 밝혀졌다. 차등 엑손 사용 플롯은 Wnk1.6.45 근처의 5개 엑손 부위에서 차등 접합의 증거를 보여주었으며, 분홍색으로 강조 표시된 엑손은 야생형에 비해 Mbnl1 녹아웃 샘플에서 접합될 가능성이 높습니다.
대안적으로 접합된 유전자의 화산 플롯은 야생형에서 제외된 유전자와 야생형에 포함된 유전자를 구별하는 데 도움이 되었습니다. 접합 이벤트 SE, A5SS, A3SS, MXE 및 RI의 유형은 해당 이벤트의 가장 중요한 유전자의 사시미 플롯을 사용하여 시각화되었습니다. 유전자의 3 개의 주요 비 번역 영역에서의 차등 APA 활성은 화산 플롯을 사용하여 관찰되었다.
서로 다른 파이프라인에서 얻은 상당히 다른 PA 사이트 사용 결과는 이벤트 플롯을 사용하여 시각화되었습니다. 이중 녹아웃에서 PA 부위 사용의 상당한 원위부 대 근위 이동은 유전자 FOSL1 및 Papola 모두에서 관찰 될 수 있습니다. 게놈 전체 수준에서 알려진 PA 절단 부위에 고정된 측면 영역의 평균 적용 범위는 진단 플롯을 사용하여 결정되었습니다.
개수 메트릭을 생성할 때 트랜스특이적 정보 및 다중 중첩 허용과 같은 매개 변수가 올바르게 사용되는지 확인합니다. 선형 모델을 피팅하고 대비쌍을 생성하는 것은 적절한 비교를 위해 중요합니다. rMATS의 경우 명령을 실행하기 전에 데이터에 따라 모든 매개 변수가 올바르게 설정되었는지 확인하십시오.
차등 스플라이싱 활성으로부터 수득된 유전자는 유전자 세트 농축 분석을 수행하기 위해 사용될 수 있었다. MISO라는 또 다른 도구는 추가 이벤트 기반 분석에 사용할 수 있습니다.