JoVE Logo

로그인

JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.

기사 소개

  • 요약
  • 초록
  • 서문
  • 프로토콜
  • 결과
  • 토론
  • 공개
  • 감사의 말
  • 자료
  • 참고문헌
  • 재인쇄 및 허가

요약

여기에 설명 된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 게놈 영역을 분석하는 방법에 대한 자세한 지침을 제공합니다. 또한, 그들의 추정 기능에 대한 통찰력을 얻기 위해 확인 된 마이크로 단백질의 서열 특성을 더 조사하기 위해 몇 가지 도구와 자원이 권장됩니다.

초록

차세대 염기서열 분석(NGS)은 유전체학 분야를 발전시키고 수많은 동물 종 및 모델 유기체에 대한 전체 게놈 서열을 생산했습니다. 그러나 이러한 풍부한 서열 정보에도 불구하고 포괄적 인 유전자 주석 노력은 특히 작은 단백질의 경우 도전적인 것으로 입증되었습니다. 주목할 만하게, 종래의 단백질 주석 방법은 게놈 전체에 걸쳐 기하급수적으로 더 많은 수의 스퓨리어스 비코딩 sORF를 걸러내기 위해 길이가 300개 미만인 짧은 오픈 리딩 프레임(sORFs)에 의해 코딩되는 추정 단백질을 의도적으로 배제하도록 설계되었다. 그 결과, 마이크로단백질(<100개 아미노산 길이)이라고 불리는 수백 개의 기능적 작은 단백질이 비코딩 RNA로 잘못 분류되거나 완전히 간과되었다.

여기서 우리는 진화적 보존에 기초한 마이크로단백질 코딩 잠재력에 대한 게놈 영역을 쿼리하기 위해 공개적으로 이용 가능한 자유롭고 공개적으로 이용 가능한 생물정보학 도구를 활용하는 상세한 프로토콜을 제공한다. 특히, 우리는 사용자 친화적 인 캘리포니아 산타 크루즈 대학 (UCSC) 게놈 브라우저에서 계통 발생 코돈 치환 주파수 (PhyloCSF)를 사용하여 서열 보존 및 코딩 가능성을 검사하는 방법에 대한 단계별 지침을 제공합니다. 또한, 우리는 아미노산 서열 보존을 시각화하고 예측 된 도메인 구조를 포함하여 마이크로 단백질 특성을 분석하기위한 자원을 권장하기 위해 확인 된 마이크로 단백질 서열의 여러 종 정렬을 효율적으로 생성하는 단계를 자세히 설명합니다. 이러한 강력한 도구는 비정준 게놈 영역에서 추정적 마이크로단백질 코딩 서열을 확인하거나 관심있는 비코딩 전사체에서 번역 잠재력을 갖는 보존된 코딩 서열의 존재를 배제하는 데 사용될 수 있다.

서문

게놈에서 코딩 요소의 완전한 세트의 확인은 인간 게놈 프로젝트의 개시 이후 주요 목표였으며, 생물학적 시스템에 대한 이해와 유전 기반 질병의 병인학을 향한 핵심 목표로 남아 있습니다 1,2,3,4. NGS 기술의 발전은 척추동물, 무척추동물, 효모 및 식물5을 포함한 광범위한 수의 유기체에 대한 전체 게놈 서열의 생산으로 이어졌다. 추가적으로, 고처리량 전사 시퀀싱 방법은 세포 전사체의 복잡성을 더욱 밝혀냈고, 단백질 코딩 및 비코딩 기능 모두를 갖는 수천 개의 새로운 RNA 분자를 확인하였다6,7. 이러한 방대한 양의 서열 정보를 해독하는 것은 진행중인 과정이며, 포괄적 인 유전자 주석 노력8에 대한 과제가 남아 있습니다.

보솜 프로파일링9,10 및 폴리리보솜 시퀀싱 11을 포함한 번역 프로파일링 방법의 최근 개발은 수백 개의 비정규 번역 사건이 게놈 전체에 걸쳐 현재 주석이 없는 sORF에 매핑된다는 증거를 제공했으며, 마이크로단백질 또는 마이크로펩티드12,13,14,15,16이라고 불리는 작은 단백질을 생성할 가능성이 있으며, 17. 마이크로 단백질은 작은 크기 (<100 아미노산)와 고전적인 단백질 코딩 유전자 특성 8,12,18,19,20의 부족으로 인해 표준 유전자 주석 방법에 의해 간과 된 다목적 단백질의 새로운 클래스로 부상했습니다. 미세단백질 은 효모21,22, 파리 17,23,24, 포유류25,26,27,28포함한 거의 모든 유기체에서 기술되었으며, 발달, 대사 및 스트레스 신호 전달 19,20,29를 포함한 다양한 과정에서 중요한 역할을 하는 것으로 나타났습니다. 30,31,32,33,34. 따라서, 오랫동안 간과되어 온 기능적 작은 단백질 클래스의 추가 구성원을 위해 게놈을 계속 채굴하는 것이 필수적입니다.

마이크로 단백질의 생물학적 중요성에 대한 광범위한 인식에도 불구하고,이 부류의 유전자는 게놈 주석에서 크게 과소 대표되고 있으며, 정확한 식별은 현장에서 진전을 방해하는 지속적인 도전으로 계속되고 있습니다. 마이크로단백질 코딩 서열을 확인하는 것과 관련된 어려움을 극복하기 위해 다양한 전산 도구 및 실험 방법이 최근에 개발되었다(몇몇 포괄적인 리뷰 8,35,36,37에서 광범위하게 논의됨). 최근의 많은 미세단백질 동정 연구 38,39,40,41,42,43,44,45,46,47 은 PhyloCSF 48,49라고 불리는 알고리즘 중 하나의 사용에 크게 의존해 왔다. , 게놈의 보존된 단백질 코딩 영역과 비코딩되는 영역을 구별하기 위해 활용될 수 있는 강력한 비교 유전체학 접근법.

PhyloCSF는 단백질 코딩 유전자의 진화적 시그니처를 검출하기 위해 다종 뉴클레오티드 정렬과 계통발생 모델을 사용하는 코돈 치환 빈도(CSF)를 비교한다. 이러한 경험적 모델-기반 접근법은 단백질이 뉴클레오티드 서열보다는 아미노산 수준에서 주로 보존된다는 전제에 의존한다. 따라서, 동일한 아미노산을 인코딩하는 동의어 코돈 치환, 또는 보존된 특성(즉, 전하, 소수성, 극성)을 갖는 아미노산에 대한 코돈 치환은 긍정적으로 점수가 매겨지는 반면, 오센스 및 넌센스 치환을 포함하는 비동의어 치환은 부정적으로 점수가 매겨진다. PhyloCSF는 전체 게놈 데이터에 대해 훈련되고 표준 단백질 코딩 유전자48,49의 미세 단백질 또는 개별 엑손을 분석 할 때 필요한 전체 서열로부터 분리 된 코딩 서열 (CDS)의 짧은 부분을 채점하는 데 효과적이라는 것이 입증되었습니다.

특히, 캘리포니아 산타크루즈 대학(UCSC) 게놈 브라우저(49,50,51)에 PhyloCSF 트랙 허브의 최근 통합은 모든 배경의 조사관이 단백질 코딩 잠재력에 대한 관심 게놈 영역을 쿼리하기 위해 사용자 친화적인 인터페이스에 쉽게 액세스할 수 있게 한다. 아래에 요약된 프로토콜은 UCSC 게놈 브라우저에 PhyloCSF 트랙 허브를 로드하는 방법에 대한 자세한 지침을 제공하며, 이어서 관심 게놈 영역을 조사하여 고신뢰도 단백질 코딩 영역(또는 그 부족)을 조사합니다. 추가적으로, 양성 PhyloCSF 스코어가 관찰되는 경우에, 마이크로단백질 코딩 잠재력을 추가로 분석하고 종간 서열 보존을 예시하기 위해 확인된 아미노산 서열의 다중 종 정렬을 효율적으로 생성하기 위한 단계들이 기술된다. 마지막으로, 예측된 도메인 구조 및 추정적 마이크로단백질 기능에 대한 통찰력을 포함하여 확인된 마이크로단백질 특성을 조사하기 위해 논의에 몇 가지 추가적인 공개적으로 이용 가능한 자원 및 도구가 도입된다.

Access restricted. Please log in or start a trial to view this content.

프로토콜

아래에 설명 된 프로토콜은 UCSC 게놈 브라우저에서 PhyloCSF 브라우저 트랙을로드하고 탐색하는 단계를 자세히 설명합니다 (Mudge et al.49에 의해 생성됨). UCSC 게놈 브라우저에 관한 일반적인 질문은 광범위한 게놈 브라우저 사용자 안내서가 여기에서 찾을 수 있습니다 : https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. PhyloCSF 트랙 허브를 UCSC 게놈 브라우저에 로드

  1. 인터넷 브라우저 창을 열고 UCSC 게놈 브라우저(https://genome.ucsc.edu/)로 이동합니다.
  2. 도구 제목 아래에서 트랙 허브 옵션을 선택합니다.
    참고: 트랙 허브 옵션은 내 데이터 탭에서도 찾을 수 있습니다.
  3. 공용 허브 탭에서 검색 용어 상자에 PhyloCSF를 입력합니다. 공용 허브 검색 단추를 클릭합니다.
  4. 허브 이름 PhyloCSF에 대한 연결 버튼을 클릭하여 PhyloCSF에 연결합니다 (설명 : PhyloCSF 로 측정 된 진화 단백질 코딩 잠재력).
    참고: 이 트랙 허브는 사람(hg19 및 hg38) 및 마우스(mm10 및 mm39)를 포함한 수많은 어셈블리에 로드됩니다.
  5. 연결을 클릭 한 후 UCSC 게놈 브라우저 게이트웨이 페이지 (https://genome.ucsc.edu/cgi-bin/hgGateway)로 리디렉션 될 때까지 기다립니다.

2. 유전자 식별자를 사용하여 관심있는 유전자로 이동

  1. 쿼리할 종과 게놈 어셈블리를 선택합니다. 다른 종(예: 마우스)을 쿼리하려면 해당 아이콘을 클릭하여 찾아보기/ 종 선택 제목 아래에서 관심 종을 선택하거나 "종 , 일반 이름 또는 어셈블리 ID 입력"이라는 텍스트 상자에 종을 입력합니다.
    참고: 어셈블리는 위치 찾기 제목 바로 아래에 나열됩니다. 전형적으로, 디폴트는 휴먼 어셈블리(예를 들어, Dec. 2009 [GRCh37/hg19])이다.
  2. 드롭다운 메뉴를 사용하여 위치 찾기 제목 아래에서 검색할 어셈블리를 선택합니다.
  3. 위치/검색어 상자에 위치, 유전자 기호 또는 검색어를 입력하고 이동 을 클릭하여 게놈 브라우저에서 관심 있는 유전자로 이동합니다.
  4. 검색으로 인해 여러 개의 일치 항목이 발생한 경우 관심 위치를 선택해야 하는 페이지로 리디렉션될 때까지 기다립니다. 관심있는 적절한 유전자를 클릭하십시오.

3. 서열 정보를 사용하여 관심있는 게놈 영역으로 이동

  1. UCSC 게놈 브라우저(https://genome.ucsc.edu/)로 이동하여 도구 제목 아래에서 BLAT와 유사한 정렬 도구(BLAT)를 선택하여 특정 DNA 또는 단백질 서열을 쿼리합니다. 또는 도구 탭 위에 커서를 놓고 Blat 옵션을 선택하거나 다음 링크를 따르십시오: https://genome.ucsc.edu/cgi-bin/hgBlat.
  2. 드롭다운 메뉴를 사용하여 종(게놈)과 관심 어셈블리 를 선택합니다.
  3. 드롭다운 메뉴를 사용하여 쿼리 유형을 정의합니다.
  4. BLAT 검색 게놈 텍스트 상자에 관심 있는 시퀀스를 붙여넣고 제출을 클릭합니다.
  5. ACTIONS 제목 아래의 브라우저 링크를 클릭하여 관심있는 게놈 영역으로 이동하십시오.

4. PhyloCSF 트랙 데이터를 사용하여 보존된 sORF 식별

  1. PhyloCSF 영역을 긍정적으로 스코어링하기 위해 관심있는 게놈 영역을 시각적으로 스캔합니다 (그림 1).
    참고: UCSC 게놈 브라우저에서 PhyloCSF 점수를 시각적으로 해석하는 방법에 대한 자세한 설명은 아래의 대표적인 결과 섹션을 참조하십시오.
  2. 확대/축소 기능을 사용하여 관심 영역을 확대하여 시퀀스 특성을 검사하고 시작/정지 코돈을 검색합니다. 수동으로 확대하려면 Shift 키를 누른 마우스 버튼을 누른 관심 영역을 따라 드래그합니다. 또는 페이지 위쪽에 있는 확대 및 축소 단추를 사용하여 탐색합니다(1.5x, 3x, 10x 또는 기본 확대/축소 옵션 사용 가능).
    참고: 확대/축소 버튼을 사용하기 전에 관심 영역이 화면 중간에 있도록 유전자의 위치를 변경해야 합니다. 이 작업을 수행하려면 이미지를 클릭하고 왼쪽 또는 오른쪽으로 드래그하여 게놈 영역을 원하는 대로 수평으로 이동하거나 페이지 상단의 이동 화살표를 사용합니다.
  3. 뉴클레오티드(염기) 서열이 보일 때까지 확대합니다.
    참고: 뉴클레오티드 서열은 +1 평활화된 PhyloCSF 점수 바로 위에 나타날 것이다.
  4. 양성 스코어링된 PhyloCSF 영역의 시작과 끝 근처의 뉴클레오티드 서열을 육안으로 스캔하여 추정적 시작(ATG) 및 정지(TGA/TAA/TAG) 코돈을 확인한다.
    참고: 관심있는 유전자가 DNA의 마이너스 가닥에 있다면, 시작 및 정지 코돈은 역보체가 될 것이다 (즉, 시작 코돈의 경우 CAT, 정지 코돈의 경우 TCA/TTA/CTA).

5. 다른 게놈에서 상동성 영역 보기

  1. 페이지 상단의 보기 제목 위에 마우스를 놓고 다른 게놈 입력(변환) 옵션을 클릭합니다.
  2. 새 게놈 제목 아래의 드롭다운 메뉴를 사용하여 관심 있는 게놈을 정의합니다.
  3. 새 어셈블리 제목 아래의 드롭다운 메뉴를 사용하여 원하는 게놈 어셈블리 를 선택한 다음 제출 단추를 클릭합니다.
  4. 브라우저가 유사성을 가진 새 어셈블리의 영역 목록을 반환하면 염색체 위치 링크를 클릭하여 관심 있는 상동 영역으로 이동합니다.
    참고: 전체 염기(뉴클레오티드)의 백분율과 해당 영역에 의해 커버되는 스팬은 나열된 각 영역에 대해 정의될 것이다. 일치하는 염기의 비율이 높을수록 관심 영역에 대한 보존이 높아집니다.
  5. 섹션 4에 설명된 것과 동일한 탐색 전략을 따라 시퀀스를 분석합니다.

6. 관심있는 미세 단백질에 대한 다종 서열 정렬 생성

  1. UCSC 게놈 브라우저에서 GENCODE 트랙에 관심 있는 유전자를 클릭하고(파란색 상자로 그림 1A에 표시됨) 유전자 설명 페이지로 이동합니다.
  2. 도구 및 데이터베이스에 대한 시퀀스 및 링크 제목에서 다른 종 FASTA를 읽는 테이블의 링크를 클릭하십시오.
  3. 관심있는 종과 관련된 상자를 클릭하여 선택하십시오. 제출을 클릭합니다. 페이지 하단에 나타나는 시퀀스를 FASTA 형식으로 복사하여 워드 프로세싱 문서에 붙여넣습니다.
  4. 두 번째 브라우저 창을 열고 유럽 생물 정보학 연구소 (EMBL-EBI) 웹 사이트 53,54 : https://www.ebi.ac.uk/Tools/msa/clustalo/ 에서 Clustal Omega 다중 시퀀스 정렬 도구52로 이동하십시오.
  5. 클립보드에 아직 남아 있는 시퀀스 파일을 지원되는 형식으로 시퀀스를 읽는 1단계의 상자에 붙여넣습니다. 페이지 하단으로 스크롤하여 제출을 클릭하십시오. 각 아미노산의 보존 정도를 나타내는 기호에 대해 정렬된 결과(검은색 글꼴)를 아래에서 살펴봅니다(기호는 표 1에 정의되어 있음).
    참고: 정렬을 생성하는 데 몇 분 정도 걸릴 수 있습니다.
  6. 아미노산 특성을 색상으로 보려면 서열 바로 위에 있는 색상 표시 링크를 클릭하여 해당 특성에 따라 아미노산을 채색합니다( 표 2에 정의됨).
  7. 시퀀스 정렬을 복사하여 워드 프로세싱 또는 슬라이드쇼 프로그램에 붙여넣어 그림 또는 그림 파일을 생성합니다(예: 그림 2).
    참고: Courier와 같은 정렬을 위해 모노스페이스 글꼴을 사용하십시오.
  8. Clustal Omega 결과 페이지에서 다른 출력을 보려면 해당 탭(예: 가이드 트리 또는 계통 발생 트리)을 클릭합니다.
  9. 결과 뷰어 탭을 클릭하여 다중 시퀀스 정렬 편집, 시각화 및 분석(55)을 전문으로 하는 무료 프로그램인 Jalview를 사용하여 시퀀스 정보를 보거나 MView Simple Phylogeny56에 대한 직접 링크에 액세스할 수 있는 옵션을 확인하십시오.

Access restricted. Please log in or start a trial to view this content.

결과

여기서는 검증된 마이크로단백질 미토레귤린(Mtln)을 예로 들어 보존된 sORF가 UCSC 게놈 브라우저에서 쉽게 시각화 및 분석할 수 있는 양성 PhyloCSF 점수를 생성하는 방법을 시연합니다. 미토레귤린은 이전에 비코딩 RNA (이전의 인간 유전자 ID LINC00116 및 마우스 유전자 ID 1500011K16Rik)로서 주석을 달았다. 비교 유전체학 및 서열 보존 분석 방법은 초기 발견 40,57,58,59,60,61

Access restricted. Please log in or start a trial to view this content.

토론

여기에 제시된 프로토콜은 사용자 친화적 인 UCSC 게놈 브라우저 48,49,50,51에서 PhyloCSF를 사용하여 마이크로 단백질 코딩 잠재력에 대한 관심있는 게놈 영역을 조사하는 방법에 대한 자세한 지침을 제공합니다. 위에서 설명한 바와 같이, PhyloCSF는 계통발생 모델과 코돈 치환 빈도를 통합하여 단백질 코?...

Access restricted. Please log in or start a trial to view this content.

공개

저자들은 경쟁적인 재정적 이익이 없다고 선언합니다.

감사의 말

이 연구는 국립 보건원 (HL-141630 및 HL-160569)과 신시내티 아동 연구 재단 (수탁자 상)의 보조금으로 지원되었습니다.

Access restricted. Please log in or start a trial to view this content.

자료

NameCompanyCatalog NumberComments
WebsiteWebsite AddressRequirements
Clustal Omega Multiple Sequence Alignment Toolhttps://www.ebi.ac.uk/Tools/msa/clustalo/Web browserMultiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdbhttps://coxpresdb.jpWeb browserProvides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQshttps://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQWeb browserFrequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/allWeb browserComprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portalhttps://www.expasy.orgWeb browserSuite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiWeb browserSearch tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35http://pfam.xfam.orgWeb browserProtein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browserDetailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0https://services.healthtech.dtu.dk/service.php?SignalP-6.0Web browserPredicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0https://services.healthtech.dtu.dk/service.php?TMHMM-2.0Web browserPrediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Searchhttps://genome.ucsc.edu/cgi-bin/hgBlatWeb browserTool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gatewayhttps://genome.ucsc.edu/cgi-bin/hgGatewayWeb browserDirect link to the UCSC Genome Browser Gateway
UCSC Genome Browser Homehttps://genome.ucsc.edu/Web browserHome website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubshttps://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubsWeb browserDirect link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guidehttps://genome.ucsc.edu/goldenPath/help/hgTracksHelp.htmlWeb browserComprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORThttps://wolfpsort.hgc.jpWeb browserProtein subcellular localization prediction tool

참고문헌

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62(2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528(2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523(2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52(2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118(2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853(2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636(2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577(2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883(2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667(2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119(2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539(2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528(2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357(2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642(2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604(2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744(2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160(2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996(2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156(2022).

Access restricted. Please log in or start a trial to view this content.

재인쇄 및 허가

JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기

허가 살펴보기

더 많은 기사 탐색

185

This article has been published

Video Coming Soon

JoVE Logo

개인 정보 보호

이용 약관

정책

연구

교육

JoVE 소개

Copyright © 2025 MyJoVE Corporation. 판권 소유