RNA 차세대 염기 서 열 분석 및 생물 정보학 파이프라인은 궤적 특이 수준에서 발현 된 라인-1s를 식별 한다

모든 번역이 AI에 의해 생성되었음을 참고하십시오. 영어 버전을 보려면 여기를 클릭하세요.

9.7K Views

•

11:04 min

•

May 19th, 2019

DOI :

10.3791/59771-v

May 19th, 2019

•

Tiffany Kaul¹, Maria E. Morales¹, Emily Smither¹, Melody Baddoo¹^,², Victoria P. Belancio¹^,³, Prescott Deininger¹^,⁴

¹Tulane Cancer Center, Tulane University, ²Department of Pathology, Tulane University, ³Department of Structural and Cellular Biology, Tulane University, ⁴Department of Epidemiology, Tulane University

필기록

모바일 요소는 인간의 유전 불안정의 주요 소스 중 하나입니다. 다른 조직 및 조건에서 그들의 표현을 이해하는 것은 게놈에 그들의 충격을 이해하는 것이 중요합니다. L1 성적증명서의 광대 한 L1 수명 주기에 아무 런이 없는 다른 성적 증명서에 L1 관련 시퀀스를 수동적으로 포함 의 결과.

우리의 접근 방식은 이 관련이 없는 배경을 제거합니다. 이 프로토콜은 어떤 모바일 요소의 연구 결과, 또는 어떤 순서 게놈에 있는 바이러스에 적응될 수 있습니다. loci 간의 차별을 허용하려면 적어도 일부 시퀀스 변형이 필요합니다.

이 방법의 시각적 데모는 궤적 별 수준에서 표현된 L1 반복 적 요소를 자신있게 식별하는 데 필요한 끈성과 주의를 보여주는 데 중요합니다. 텍스트 프로토콜에 설명된 대로 세포질 RNA 추출 및 차세대 시퀀싱으로 이 절차를 시작합니다. 세포질 RNA를 선택함으로써, 핵에서 발현 성 내 mRNA 내에서 발견되는 L1 관련 판독은 현저히 고갈된다.

시퀀싱 라이브러리 준비에서 L1s와 관련이 없는 전사 소음을 줄이기 위해 취한 또 다른 단계는 폴리아데니졸트 성적증명서의 선택을 포함한다. 이것은 비 mRNA 종에서 찾아낸 L1 관련 성적증명서 소음을 제거합니다. 리눅스 단말에서 명령줄을 입력하여 bowtie1을 사용하여 관심의 RNA seq 샘플과 정렬 패러다임을 시퀀싱 FASTQ 파일을 실행합니다.

이 정렬 전략은 성적 증명서가 고유하고 철저한 게놈 검색과 일치하도록 요구합니다. 이 전략은 하나의 L1 궤적에 대해 특히 읽기 매핑을 호출하는 데 대한 확신을 제공합니다. 스트랜드는 SAMtools 및 Linux 명령을 사용하여 출력 BAM 파일을 분리하여 상단 가닥과 하단 가닥을 선택합니다.

표준 차세대 시퀀싱 프로토콜을 사용하지 않는 경우 실제 플래그 값이 다를 수 있습니다. 이 가닥 분리 단계는 잠재적인 안티센스 L1 관련 매핑된 읽기를 제거하여 L1 소급처리와 관련이 없는 L1 시퀀스 내에서 생성된 전사 노이즈를 필터링하는 데 효과적입니다. 침구를 사용하여 L1 loci에 대한 주석에 대한 읽기 카운트를 생성합니다.

먼저 명령줄을 입력하여 맨 위 가닥의 센스 방향으로 L1에 대한 읽기 수를 생성한 다음 명령줄을 입력하여 하단 가닥의 센스 방향으로 L1에 대한 읽기 수를 생성합니다. L1을 식별하는 데 사용되는 주석은 잘린 L1에서 발생하는 배경 잡음을 제거하기 위해 작동하는 기능성 프로모터 영역으로 전체 길이 L1을 나타냅니다.

생성된 읽기 카운트 텍스트 파일을 복사하여 하단 가닥에 대해 만든 텍스트 파일을 복사하여 페이지를 minus_bottom 레이블을 지정합니다. 열 J.Copy에서 가장 낮은 읽기 수에 따라 상위 가닥에 대해 생성된 읽기 수 텍스트 파일을 정렬합니다. 열 J.에 있는 가장 낮은 읽기 수에 따라 모든 열을 정렬하고 페이지를 top_plus 레이블을 지정합니다.

결합된 것으로 표시된 세 번째 페이지를 만들고 minus_bottom 페이지와 plus_top 페이지에서 10개 이상의 읽기로 모든 loci를 추가합니다. 열에서 발견되는 가장 낮은 수의 읽기수를 기준으로 모든 열을 정렬 J.To하여 특히 L1 loci 또는 그 근처에서 전체 게놈 페어링 및 시퀀싱 파일을 NCBI에서 다운로드하여 텍스트 프로토콜에 설명된 대로 FASTQ 파일로 변환했습니다. 이제 BAM 파일을 색인하여 파일을 로드하기 전에 IGV를 축약한 통합 유전체학 뷰어에서 볼 수 있도록 합니다.

IGV에서 인가 유전자를 시각화하기 위해 관심의 기준 게놈을 로드한다. 또한 전체 길이 L1 요소에 대한 음권 파일을 로드하여 인간 RNA 발현을 위한 BAM 파일인 L1 음표를 시각화하여, 유전체 영역의 절단성을 평가하기 위한 관심 샘플 및 BAM 파일로부터 매핑된 성적증명서를 시각화한다. 각 BAM 파일과 연결된 적용 범위 및 접합 행을 제거합니다.

인간의 RNA 발현과 인간 게놈 mappability를 위해 BAM 파일을 압축하여 모든 IGV 트랙이 한 화면에 맞도록 합니다. L1 소급과관련이 없는 L1 서열의 전사 소음을 제거하는 마지막 중요한 단계는 RNA를 매핑한 것으로 확인된 전체 길이 L1s의 수동 생성이다. 수동 큐레이션은 발현이 L1 프로모터로부터 유래함을 확인하기 위해 주변 게놈 환경의 맥락에서 각 발현 L1 궤적의 시각화를 포함한다.

스프레드시트 결합 페이지에 나열된 L1 loci의 좌표를 사용하여 IGV에서 주변 유전체 환경을 검사하여 각 L1 궤적을 고유하게 매핑한 성적증명서로 수동으로 큐레이터합니다. L1 방향으로 최대 5킬로베이스까지 상류에 판독이 없는 경우 궤적을 직접 표현하도록 큐레이트합니다. 녹색으로 녹색으로 표시하고 왜 그것이 진정으로 표현 된 L1인지 주목하십시오. L1의 상류 영역이 절충할 수 없는 경우 이 규칙에 대한 예외가 존재합니다.

이 경우 행을 빨간색으로 레이블을 지정하고 L1 프로모터의 영역 상류의 표현을 평가할 수 없으므로 L1의 식을 자신있게 결정할 수 없습니다. 최대 5킬로베이스까지 상류로 읽히면 궤적을 진정으로 표현하지 않도록 큐레이트하십시오. 빨간색으로 빨간색으로 레이블을 지정하고 인증된 L1이 아닌 이유를 표시합니다. L1의 상류를 읽는 것과 같은 방향으로 표현유전자의 하류인경우, 또는 L1의 상류를 읽는 것과 같은 방향으로 표현유전자의 하류인 경우, 또는 L1의 상류를 읽는 무분별한 발현 패턴을 위해 궤적을 거짓으로 큐레이한다. 이 규칙의 예외는 L1 프로모터 시작 사이트를 직접 겹치는 최소 읽기가 있지만 L1의 약간 상류에 있을 때 적용됩니다. 이와 같은 L1 케이스의 상류에 다른 읽기가 없는 경우 이 L1을 진정으로 표현해야 합니다.

행을 녹색으로 표시하고 인증된 L1인 이유를 표시합니다. 매핑된 읽기 패턴이 특정 L1의 절전 기능 영역과 상관관계가 없는 경우 L1 궤적을 잘못 처리합니다. L1이 매우 절박하지만 L1 내의 응축 된 영역에서 읽기 더미만 있는 경우 자체 프로모터에서 L1 발현과 관련이 있을 가능성이 적으며 exons 또는 LtR과 같은 별표가 없는 소스에서 파생될 가능성이 높습니다. 이와 같은 경우, 로시를 주황색으로 큐레이트하고 궤적이 의심되는 이유를 유의하십시오.

UCSC 게놈 브라우저에서 L1 위치를 확인 하여 의심스러운 더미의 소스를 확인 합니다. 산발적으로 발현되지 않은 영역의 게놈 환경 내에 있는 경우, 궤적을 진정으로 표현하지 않도록 큐레이트한다. 읽기는 L1의 상류10킬로베이스를 나타낼 수 있다. 그러나 매 10 킬로베이스 정도, 매핑 된 읽기가 있고 그 중 일부는 L1과 일치합니다. 이 L1s는 유전체 식의 명목 패턴으로 인해 읽기를 매핑했을 가능성이 높습니다.

이와 같은 경우 로시를 빨간색으로 큐레이트하고 궤적이 의심스러운 이유를 유의하십시오. 각 L1 loci의 절단성을 지원하기 위해 침구 프로그램, FL-L1 음장 및 정렬된 게놈 서열 데이터를 사용하여 L1 loci에 고유하게 매핑된 판독횟수를 결정합니다. 400개의 고유한 읽기가 정렬될 때 L1 궤적을 전체 커버리지 mappability로 지정합니다.

각 개별 L1에 대해 400으로 정렬된 유전체 DNA를 확장하거나 축소하는 데 필요한 요인을 결정합니다. 개별 L1 궤적 절름발이에 따라 발현의 척도를 갖기 위하여, RNA 전사체의 수에 의해 계수를 곱하여 개별적으로 발현된 L1s 개별에 정렬한다. 각 단계는 자체 프로모터에서 표현된 L1 요소와 L1 요소가 L1 수명 주기와 관련이 없는 다른 성적증명서에 포함될 수 있는 모든 방법 간의 차이를 강조하는 데 사용됩니다. 여기에 표시된 성적증명서는 DU145 전립선 종양 세포주에서 발현된 인간 게놈의 모든 전체 길이 에 만전된 L1s에 고유하게 맵을 읽는다.

검은색은 수동 큐레이션 후 정식으로 표현된 것으로 확인된 특정 loci입니다. 그리고 빨간색으로 는 수동 큐레이션 후 본격적으로 표현 된 읽기로 거부 된 특정 loci입니다. 회색으로 는 각각 10 개 미만의 읽기 매핑이있는 loci입니다.

이 loci는 성적 증명서 읽기의 작은 부분을 나타내기 때문에 수동으로 선별되지 않았습니다. 약 4,500개의 로시가 그래픽으로 표시되지 않으며 매핑된 읽기가 0개나 많았습니다. 수동 큐레이션 후 DU145에서 특정 L1 로시를 진정으로 표현하기 위해 고유하게 매핑되는 읽기 수는 175읽기에서 임의로 선택된 최소 10개 읽기에 이르기까지 다양합니다.

읽기가 각 궤적에서 절름발이 점수로 조정되면 대부분의 loci에 대한 표현수량이 증가했습니다. DU145에서 절름발이 보정기능이 있는 특정 L1 loci를 진정으로 표현하기 위해 고유하게 매핑된 읽기 수는 612에서 4개의 읽기까지 다양하며 가장 높은 표현loci로 재정렬되었습니다. 각 단계는 높은 수준의 전사 배경 소음을 줄이는 데 중요한 역할을 합니다.

그러나 가장 중요한 단계는 각 L1 궤적의 수동 큐레이션으로 자체 프로모터의 전사를 확인하는 것입니다. DU145 세포에서 생체정보학적으로 확인된 L1 loci의 약 50%는 다른 전사 소스에서 유래하는 L1 배경 잡음으로 거부되었으며 신뢰할 수 있는 결과를 생성하는 데 필요한 엄격함을 강조했습니다. L1s의 막내를 식별하기 위해, 우리는 더 긴 읽기를 활용하고 더 독특한 매핑을 허용하는 PacBio와 같은 L1 성적 증명서의 다섯 프라임 레이스 선택 및 시퀀싱 기술을 사용하는 것이 좋습니다.

이 방법을 통해 L1 식 패턴을 엄격하고 확실하게 식별하고 정량화할 수 있습니다. 이것은 개별 L1 loci의 규제와 잠재적인 충격을 더 잘 이해하는 쪽으로 길을 열어줍니다.

요약

더 많은 비디오 탐색

147

RNA

mappability

이 비디오의 챕터