리보솜 프로파일링 실험에 의해 생성된 시퀀싱 데이터의 해석은 mRNA에서 리보솜의 번역 활동을 정량적으로 측정하고 번역 조절의 메커니즘을 연구하는 데 매우 중요합니다. 이 프로토콜에서는 리보솜 프로파일링 데이터를 활용하기 위한 계산 절차와 게놈 전체 규모 및 단일 뉴클레오티드 분해능에서 mRNA 번역을 디코딩하는 커맨드 라인 도구인 RiboCode를 설명합니다. 이 방법은 주석이 달린 단백질 코딩 유전자의 외부 게놈 영역으로부터 발생하는 신규한 펩티드를 검색할 수 있게 하고, mRNA 번역의 속도를 정량화할 기회를 제공한다.
시작하려면 Linux 터미널 창을 열고 명령을 실행하여 conda 환경을 만듭니다. 생성된 환경으로 전환하고 명령을 실행하여 RiboCode 및 종속성을 설치합니다. 참조 시퀀스에 대한 게놈 참조 파일을 가져오려면 Ensembl 웹 사이트로 이동한 다음 다운로드를 클릭한 다음 FTP 다운로드를 클릭합니다.
DNA FASTA 열에서 FASTA 옵션을 클릭하고 웹 사이트 페이지의 표에 표시된 종은 인간인 행을 선택합니다. Ensembl 웹 사이트 페이지에서 텍스트에 언급 된대로 링크를 복사 한 다음 명령을 실행하여 터미널의 파일을 다운로드하고 압축을 풉니 다. 참조 주석을 보려면 마지막으로 열린 웹 페이지의 열 유전자 세트에서 GTF를 마우스 오른쪽 단추로 클릭합니다.
링크를 복사하고 명령을 사용하여 다운로드합니다. rRNA 서열을 가져오려면 UCSC 게놈 브라우저를 연 다음 도구를 클릭하고 드롭다운 목록에서 테이블 브라우저를 선택합니다. UCSC 게놈 브라우저 페이지에서 클래드에 대한 포유류, 게놈에 대한 인간, 그룹에 대한 모든 테이블, 테이블에 대한 R 마스크 및 영역에 대한 게놈을 지정합니다.
필터의 경우 만들기를 클릭하여 새 페이지로 이동하고 rRNA와 일치하는 rep 클래스를 설정합니다. 제출을 클릭한 다음 출력 형식을 시퀀스로 설정하고 출력 파일 이름을 HG38_rRNA로 설정합니다. 파. 마지막으로 출력 가져오기를 클릭한 다음 시퀀스 가져오기를 선택하여 rRNA 서열을 검색합니다.
시퀀스 읽기 아카이브에서 리보솜 프로파일링 데이터 세트를 가져오려면 si-eIFe 처리 그룹의 복제 샘플을 다운로드하고 명령을 실행하여 이름을 바꿉니다. 그런 다음 제어 그룹의 복제 샘플을 다운로드하고 명령을 실행하여 이름을 바꿉니다. rRNA 오염을 제거하려면 명령을 실행하여 rRNA 참조 서열의 인덱싱을 시작하십시오.
인덱싱 후 읽기를 rRNA 참조에 정렬하여 명령을 실행하여 rRNA에서 발생하는 읽기를 배제합니다. 먼저 명령을 실행하여 게놈 인덱스를 만듭니다. 그런 다음 rRNA 오염이 없는 클린 읽기를 명령을 실행하여 생성된 참조에 정렬한 다음 명령을 실행하여 정렬 파일을 정렬하고 인덱싱합니다.
명령을 실행하여 전사 주석을 준비합니다. 특정 길이의 리보솜으로 보호된 조각을 선택하고 명령을 실행하여 P-사이트 위치를 식별합니다. 각 샘플의 구성 파일을 편집하고 병합합니다.
그런 다음 명령을 실행하여 RiboCode를 실행하십시오. 판독의 길이의 주파수 분포는 대부분의 리보솜 보호 단편이 25 내지 35 뉴클레오티드에 상응한다는 것을 보여주었다. 리보솜 보호 단편의 상이한 길이에 대한 P-부위 위치는 그들의 다섯 개의 프라임 말단으로부터 주석이 달린 시작 및 정지 코돈까지의 거리를 조사함으로써 결정되었다.
매핑 결과는 10, 394 개의 유전자가 주석이 달린 열린 판독 프레임을 인코딩한다는 것을 보여줍니다. 또한, 509 및 168 유전자는 업스트림 및 다운스트림 오픈 리딩 프레임을 인코딩하는 반면, 939 유전자는 상류 또는 하류 오픈 리딩 프레임을 인코딩하며, 알려진 주석이 달린 오픈 리딩 프레임과 겹쳐진다. 또한, 68개의 단백질 코딩 유전자 및 2,601개의 비-코딩 유전자는 신규한 오픈 리딩 프레임을 인코딩한다.
길이 분포는 업스트림, 다운스트림, 소설 및 겹쳐진 열린 판독 프레임이 주석이 달린 열린 판독 프레임보다 짧다는 것을 보여주었습니다. 상대적 리보솜 보호 단편 카운트는 각각의 개방 판독 프레임에 대해 계산되었고, 상류 개방 판독 프레임의 리보솜 밀도가 대조군 세포에서보다 eIF3e 결핍 세포에서 유의하게 더 높았다는 것을 밝혀냈다. 메타유전자 분석은 시작 코돈의 하류에 있는 코돈 25와 75 사이에서 리보솜 덩어리가 멈추는 것을 밝혀냈으며, 이는 번역 신장이 eIF3e 결핍 세포에서 초기에 차단될 수 있음을 시사한다.
PSMA6의 업스트림 오픈 리딩 프레임에 대한 P 사이트 밀도 프로파일 및 유전자 SENP3-EIF4A1의 다운스트림 오픈 리딩 프레임을 조사하여, 리보솜 보호 단편의 주기성 패턴 및 밀도를 입증하였다. 공지된 단백질 코딩 영역의 시작 및 정지 코돈 주위의 판독의 위치를 확인하는 것은 각 길이에 대한 판독의 주기적 특성을 평가하기 위해 필요하다. RiboCode는 다른 커맨드 라인 도구와 함께 품질 관리 및 예측 된 오픈 판독 프레임에서 리보솜의 점유를 정량화하고 시각화하는 것과 같은 여러 분석을 수행 할 수 있습니다.
이 계산 도구는 특정 생리적 컨텍스트에서 리보솜 프로파일링 데이터로 비정규 번역 이벤트를 식별하고 자극에 대한 응답으로 번역이 어떻게 조절되는지를 식별하는 높은 처리량 방법을 제공합니다.