RNA 시퀀싱을 위한 3개의 차동 발현 분석 방법:림마, EdgeR 및 DESeq2. RStudio 프로그램을 열고 R 파일, DEG를 로드합니다. 파일은 보충 파일에서 얻을 수 있습니다. 1.
데이터 다운로드 및 사전 처리.1. 암 게놈 아틀라스에서 Cholangiocarcinoma의 높은 처리량 시퀀싱 카운트 데이터를 다운로드합니다. 이 탭은 다음 코드로 쉽게 얻을 수 있습니다.
달리기를 클릭하여 R 패키지를 설치합니다. R 패키지를 로드하려면 실행을 클릭합니다. 작업 디렉터리 설정합니다.
암 유형을 선택합니다. 데이터를 다운로드하려면 GDCquery 파일에서 R 코드를 실행합니다. 파일 GDCquery는 추가 파일/스크립트에서 획득할 수 있습니다.
실행 후 Cholangiocarcinoma RNA 시퀀싱 카운트 데이터를 다운로드하고 이름을 지정할 수 있으며, 여기서 행은 앙상블 유전자 ID를 나타내고 컬럼은 기호 ID를 나타냅니다. 기호 ID에서 위치 14 ~15의 숫자를 확인하십시오. 숫자 범위는 01에서 09까지 종양을 나타내고 10 에서 19사이 정상 조직을 나타냅니다.1.2.
유전자 기호에 앙상블 유전자 ID의 대화. 해당 저장소 경로에 따라 어반으로 가져와야 합니다. 추가 파일에서 추가 파일을 수집할 수 있습니다.
gtf v22 파일에서 R 코드를 실행합니다. 보충 파일 / 스크립트에서 획득 할 수 있습니다. 여관"기능을 적용하고 앙상블 유전자 ID를 유전자 기호로 변환합니다.1.3.
낮은 발현 유전자를 필터링합니다. 패키지 edgeR을 설치하려면 실행을 클릭"R 패키지 edgeR을로드실행"R 코드 다음 실행은 적어도 두 샘플에서 하나 보다 큰 백만 값으로 유전자를 유지합니다. 2. limma를 통한 차분식 분석 "클릭 실행하여 R 패키지 림마를 설치합니다"클릭 실행하여 R 패키지 림마"edgeR"다음 R 코드를 실행하여 설계 매트릭스를 만듭니다.
그룹 정보를 추출합니다. 종양 조직으로 01"을 설정합니다. 11"을 정상 조직으로 설정합니다.
디자인 매트릭스를 만듭니다. DGEList 개체를 만듭니다. 데이터를 정규화합니다.
다음 R 코드를 실행하여 림마 추세 메서드 기반 차동 식 해석을 수행합니다. CPM 값을 계산합니다. 선형 모델에 맞게 실행을 클릭하여 데이터를 예측하거나 변수 간의 관계를 추론합니다.
베이지안을 기준으로 T 값, F 값 및 로그 배당률을 계산합니다. 결과 테이블을 추출합니다. 차동식 해석의 결과는 res_limma"로그2 접이식 변경 값을 포함하는 저장됩니다.
실험에서 유전자의 평균 log2 발현 수준이다. 수정된 T 통계, P 값, 거짓 발견률이 p값과 차별화된 발현 유전자의 로그 확률을 보정했다. 차별화된 발현 유전자를 식별합니다.
따라서 조정된 P값은 0.05 미만이며, 2보다 크거나 동등한 로그 거짓 변화의 절대값은 차별화된 발현 유전자를 선별하는 임계값이다. 결과 res limma는 일반적인 조직과 비교, 1, 443 유전자는 위로 통제되고, 1, 880 유전자는 Cholangiocarcinoma 조직에서 아래로 통제된다는 것을 보여줍니다. 결과 테이블을 파일에 출력합니다.
R 패키지 ggplot2를 설치하려면 실행을 클릭 "R 패키지 ggplot2"화산 파일에서 R 패키지 ggplot2"실행 R 코드를로드하고 파일 화산은 보충 파일에서 획득 할 수 있습니다. 유전자는 그들의 log2 접기 변경 및 조정된 P 값에 따라 다른 위치에 매핑될 수 있습니다. 그래서 상이하게 조절된 분화유전자는 빨간색으로 착색됩니다.
그리고 하향 조절 된 분화 유전자는 녹색으로 착색된다. 화산 플롯을 저장하려면 내보내기"를 클릭합니다. 3. edgeR을 통한 차동 식 분석"R 패키지 에지R을 로드하려면 실행을 클릭합니다"디자인 행렬을 만들기 위해 다음 R 코드를 실행합니다.
실행을 클릭하여 DGEList 개체를 만들고 데이터를 정규화합니다. 실행을 클릭하여 유전자 발현 값의 분산을 추정합니다. 실행을 클릭하여 모델을 사용하여 데이터를 계산합니다.
통계 테스트를 수행합니다. 결과 테이블을 추출합니다. 결과는 로그 폴드 변경 값, logCPM, F, p 값 및 잘못된 검색률수정 p 값을 포함하는 res edgeR"에 저장됩니다.
차별화된 발현 유전자를 식별합니다. 결과 res edgeR"는 일반적인 조직과 비교하는 것을 보여줍니다, 3, 121 유전자는 위로 통제되고, 1, 578 유전자는 Cholangiocarcinoma 조직에서 아래로 통제됩니다. 결과 테이블을 파일에 출력합니다.
화산 플롯을 만듭니다. 화산 플롯을 저장하려면 내보내기를 클릭합니다. 4. DESeq2를 통한 차동 식 분석.
R 패키지 DESeq2를 설치하려면 실행을 클릭"R 패키지 DESeq2를 로드하려면 실행을 클릭"모색 계수를 결정하기 위해 다음 R 코드를 실행합니다. DESeq2 데이터 집합 개체를 만듭니다. 분석을 수행합니다.
결과 테이블을 생성합니다. 결과는 정규화된 읽기 수, 로그 폴드 변경 값, 로그 폴드 변경 표준 화살표, 용접 통계, 원본 P 값 및 수정된 P 값의 평균을 포함하는 res DESeq2에 저장됩니다. DEGs를 식별합니다.
결과 RES DESeq2는 일반적인 조직과 비교하는 것을 보여줍니다, 이천 아백 삼십8 유전자는 위로 통제되고, 1,000의 6백 및 16개의 유전자는 Cholangiocarcinoma 조직에서 아래로 통제됩니다. 결과 테이블을 파일에 출력합니다. 화산 플롯을 만듭니다.
화산 플롯을 저장하려면 내보내기를 클릭합니다. 5. 벤 다이어그램. 실행을 클릭하여 R 패키지 벤 다이어그램을 설치합니다.
달리기를 클릭하여 R 패키지 벤 다이어그램을 로드합니다. 최대 조절 된 분화 유전자의 벤 다이어그램을 만듭니다. 밴 다이어그램을 저장하려면 내보내기를 클릭하고, 하향 조절된 분화 유전자의 벤 다이어그램을 만듭니다.
내보내기를 클릭하여 벤 다이어그램을 저장합니다. 6. 대표적인 결과. 그림 하나는 림마, edgeR 및 DESeq2에 의해 취득 된 모든 유전자의 화산 플롯을 보여줍니다.
음수 로그 p 값은 로그 폴드 변경에 대해 플롯됩니다. 적색점은 상조절된 분화 유전자를 나타내며, 녹색점은 하향 조절된 분화 유전자를 나타낸다. 림마는 1만 80080개의 하향 조절유전자를 분화하고, Cholangiocarcinoma 조직에서 1,000만 4백사십삼의 상발성 발현 유전자를 식별한다.
EdgeR은 1,000만 십백8개의 하향 조절 된 분화 유전자를 식별하고, 3천 1백 21 개의 상반된 발현 유전자를 식별합니다. DESeq2는 1,000개의 6백 16개의 하향 조절 된 분화 유전자를 식별하고, 2천 9백삼8개의 상반된 분화 유전자를 식별합니다. 그림 2, 벤 다이어그램은 limma edgeR 및 DESeq2에서 결과 나누기 사이에 중복을 보여 준다.
이 세 가지 방법의 결과를 비교하면, 1,000사백삼1up-regulated 분화 유전자, 그리고 1,000,300 개의 다운 조절 된 분화 유전자가 겹치고 있다. 7.결론. 이 프로토콜에서는 R 패키지, 림마, 에지R 및 DESeq2를 사용하여 높은 계열의 카운트 데이터에 대한 다양한 유형의 측정 분석의 세부 프로토콜을 여기에 제공했습니다. 세 가지 방법은 분석 과정에서 유사하고 직원들이 있습니다.
그리고 그 세 가지 약에서 그들의 부분적으로 겹칩니다. 세 가지 의약품 모두 고유한 장점이 있습니다. 그리고 선택은 데이터의 시간에 따라 달라집니다.
현재 데이터가 있는 경우 limma를 우선적으로 제공해야 하지만 세대 시퀀싱 데이터, edgeR 및 DESeq2가 선호됩니다.