빼기 게놈에 의해 소설 시퀀스 검색

Kathryn C. Asalone; Megan M. Nelson; John R. Bracht

doi:10.3791/58877

JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.

기사 소개

요약
초록
서문
프로토콜
결과
토론
공개
감사의 말
자료
참고문헌
재인쇄 및 허가

요약

이 프로토콜의 목적은 계산의 조합 및 벤치 연구를 사용 하 여 부분적 으로만 알려져 있을 수 있습니다 공동 정화 시퀀스에서 쉽게 분리 될 수 없는 새로운 시퀀스를 찾을 것입니다.

초록

빼기 게놈 유전자, 단백질, 또는 일반 지역 큰 게놈 맥락에 포함 되는 시퀀스를 식별 하는 목표는 어떤 연구에 사용할 수 있습니다. 빼기 유전체학 포괄적인 시퀀싱 및 알려진 유전 요소 (참조, R) 빼서 (T)의 대상 시퀀스를 분리 하는 연구원을 수 있습니다. 미토 콘 드리 아, 엽록체, 바이러스, 소설 시퀀스를 식별 하는 메서드를 사용할 수 있습니다 또는 생식 염색체, 제한 및 T R. 포괄적인 게놈 데이터 (R + T) 메서드를 사용 하면 시작에서 쉽게 분리 될 수 없을 때 특히 유용 일치 알려진된 시퀀스 (R), 대상 (T) 뒤에 남겨두고 제거 참조 시퀀스 또는 시퀀스에 대 한 기본적인 현지 줄 맞춤 검색 도구 (폭발)을 사용 합니다. 가장 잘 작동 하도록 빼기, R t. 없는 비교적 완전 한 초안 이어야 합니다. 빼기를 통해 정량적 중 합 효소 연쇄 반응 (정량) 테스트 후 나머지 시퀀스 이후 R 않습니다 필요가 없습니다 작동 방법에 대 한 완전 한 수 없습니다. 순차적으로 여러 참조 시퀀스를 제거 하 고 t.에 대 한 검색을 정제 실험 단계 필요에 따라 반복 수 사이클로 계산 단계 여기 링크 빼기 유전체학의 장점은 실제 정화는 어려운, 불가능 한, 또는 비싼 경우에도 완전히 소설 대상 시퀀스를 확인할 수 있습니다. 방법의 단점은 빼기에 대 한 적절 한 참조를 찾는 이며 T-긍정을 얻는 정량 테스트용 샘플을 제외 하 고. 얼룩말 피리 새 류의 생식 제한 염색체에서 첫 번째 유전자의 식별에서 방법의 우리의 구현을 설명합니다. 이 경우 3 참조 (R), 3 주기를 순차적으로 제거 관련 전산 필터링: 불완전 한 게놈 집합, 원시 게놈 데이터 및 transcriptomic 데이터.

서문

이 방법의 목적은 소설 대상 (T) 게놈 시퀀스, DNA 또는 RNA 게놈 컨텍스트나 참조 (R) (그림 1)에서 식별 하는 것입니다. 대상 물리적으로 분리 될 수 없다, 또는 그것은 그렇게 비싼 것 하는 경우 메서드를 사용 하면 가장 유용 합니다. 약간 유기 체만 완벽 하 게 마친 게놈 빼기, 그래서 우리의 방법의 주요 혁신은 때 참조 완벽 하지 않습니다, 대상 시퀀스를 분리 하는 연구원을 활성화 주기 또는 초안에 계산의 조합 방법과 벤치 비 모델 유기 체에서의 게놈 사이클의 끝에, 정량 시험 더 빼기가 필요한 지 여부를 결정 하는 데 사용 됩니다. 검증 된 후보 T 시퀀스 정량으로 알려진된 T-양성 샘플에 통계적으로 더 큰 감지를 표시 됩니다.

호스트 homologs^,¹²^,^,³⁴ 가 없는 새로운 세균 약물 목표의 발견에 감염 된 호스트^{에서에서 새로운 바이러스의 식별 방법의 화신 구현 되었습니다. 5}^,⁶. T의 식별, 뿐만 아니라 방법 연구: 우리는 최근 얼룩말 피리 새 류 참조 게놈에서 936 누락 된 유전자와 생식 전용 염색체 (T)⁷에서 새로운 유전자를 식별 하는 방법을 사용을 개선할 수 있습니다. T는 매우 알려진된 시퀀스에서 분기 될 가능성이 있거나 T의 정체성은 얼룩말 피리 새 류 생식 제한 염색체⁷에서 광범위 하 게 정의 된 빼기 유전체학은 특히 중요 합니다.

여 하지 미리 T의 긍정적인 식별, 빼기 유전체학의 주요 장점은 그것이 편견입니다. 최근 연구에서 Readhead 외. 알 츠 하이 머 병 및 4 개의 두뇌 영역에서 바이러스 성 풍부 사이 관계를 검사합니다. 바이러스 성 식별을 위해 Readhead 그 외 여러분 515 바이러스⁸, 그들의 연구를 식별할 수 있는 바이러스 성 대리인을 가혹 하 게 제한 하는 데이터베이스를 만들었습니다. 빼기 게놈 수 사용 되었습니다 건강 한와 츠의 게놈을 비교 하 알려진된 전염 성 요원 그들의 유사성에 질병와 관련 된 가능한 새로운 바이러스를 분리 하기 위하여. 263 알려진된 인간을 대상으로 바이러스 그러나 그것 추정 되었다는 대략 1.67 백만 알려지지 않은 바이러스 종이 존재, 인간⁹감염 가능성이 그들의 631,000 827,000와 함께.

새로운 바이러스의 고립은 빼기 있는 지역 유전체학은 특히 효과적입니다 하지만 일부 연구 엄격한 방법 필요 하지 않을 수 있습니다. 예를 들어 연구 식별 소설 바이러스 추출 하 고 반전 반전 녹음 방송 BLASTx 바이러스 시퀀스⁵ 에 이어서 편견된 높은 처리량 시퀀싱 또는 바이러스 성 핵 산의 풍부 사용 바이러스 시퀀스^{녹음 6}. 이러한 연구 고용 드 노 보 시퀀싱 및 어셈블리, 빼기는 대상 시퀀스 폭발을 통해 긍정적으로 확인 되었습니다 있기 때문에 사용 되지 않았습니다. 만약 바이러스 완전히 소설과 관련이 없는 (또는 먼 관련) 다른 바이러스를 빼기 유전체학 되었을 것 이다 유용한 기술. 빼기 유전체학의 혜택은 완전히 새로운 시퀀스를 얻을 수 있습니다. 생물의 게놈은 알려져 경우 그것은 어떤 바이러스 시퀀스를 떠나 밖으로 공제 수 있습니다. 예를 들어 우리의 출판된 연구에서 우리는 우리의 원래 의도⁷아니었지만 빼기 유전체학을 통해 얼룩말 피리 새 류에서 소설 바이러스 시퀀스 고립.

빼기 유전체학 또한 세균 백신 대상, 극적인 상승 항생제 저항¹^,²^,^,³⁴에 의해 동기의 식별에 유용한 입증 했다. 면역 반응의 위험을 최소화 하기 위해 연구팀은 인간의 호스트에서 homologs 있는 어떤 단백질을 빼서 잠재적인 백신 대상 좁혀. Corynebacterium pseudotuberculosis, 보고 한 특정 연구 가능한 약물 목표 부작용을 선도 하는 호스트에 있는 단백질에는 영향을 미치지 것을 보장 하기 위해 여러 가지 세균성 게놈에서 척추 호스트 게놈의 빼기 수행 ¹. 세균성 프로테옴 다운로드, 중요 한 단백질 결정, 중복 단백질 제거 호스트 homologs와 어떤 단백질을 제거 하려면 호스트 프로테옴에 대 한 필수적인 단백질을 분리 하는 BLASTp 및 BLASTp를 사용 하는 것입니다 이러한 연구의 기본 작업 흐름 ¹ ^, ² ^, ³ ^, ⁴.이 경우 빼기 게놈 확인 백신 개발 호스트¹^,²^,^,³⁴에서 어떤 대상에서 효과 없을 것 이다.

우리는 생식 제한 염색체 (강선) (이 경우, T)에 germlines에서 발견 되는 첫 번째 단백질 코딩 유전자를 식별 하기 위해 빼기 게놈을 사용 하지만 하지 체세포 조직 둘 다의 남녀¹⁰. 이 연구를 하기 전에 그리스에 대 한 알려진 유일한 게놈 정보 반복 지역¹¹했다. 드 노 보 어셈블리 성인 얼룩말 피리 새 류에서 난소와 버 조직 (R + T)에서 시퀀싱 하는 RNA에서 수행 되었다. 시퀀스의 계산 제거 게시 된 체세포 (근육) 게놈 시퀀스 (R₁)¹²를 사용 하 여 수행 되었다, 그것의 원시 (생어) 읽을 데이터 (R₂), 그리고 체세포 (뇌) transcriptome (R₃)¹³. 3 참조의 연속 사용을 필요로 했다 추가 필터링을 보여주는 각 주기는그림 2(A)의 단계 5에서 테스트 하는 정량에 의해 주도 되었다. 검색 된 α-스냅 유전자 DNA와 RNA, 그리고 복제 및 시퀀싱에서 정량 통해 확인 됐다. 우리는 우리의 예제에서는이 메서드는 유연에 표시: 그것은 일치 하는 핵 산 (DNA vs RNA)에 의존 하 고 그 빼기 어셈블리 또는 원시 읽기로 구성 된 참조 (R) 수행할 수 있습니다.

프로토콜

1. 노 보 드 조립 시작 시퀀스

참고: 다음-세대 시퀀스 (NGS) 데이터 사용할 수 있습니다로 그 데이터에서 어셈블리를 생성할 수 있다. 적합 한 입력된 데이터 포함 Illumina, PacBio, 또는 옥스포드 Nanopore 읽습니다 fasta 파일에 조립. Concreteness에 대 한 설명 Illumina 기반 transcriptomic 어셈블리 얼룩말 피리 새 류 연구에 우리 수행⁷. 그러나 구체적인 프로젝트에 의해 달라 집니다 유의 하십시오. 우리의 예제 프로젝트에 대 한 원시 데이터는 MiSeq에서 파생 되었다 고 약 10 백만 쌍된 읽기 각 샘플에서 가져온.

Trimmomatic 0.32¹⁴ 를 사용 하 여 어댑터 Illumina와 낮은 품질 기지를 제거. 커맨드 라인에서 입력:
자바-trimmomatic-0.32.jar PE 용기-phred33 forward.fq.gz reverse.fq.gz-baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 선도: 3 후행: 3 SLIDINGWINDOW:4:20 MINLEN:40
0.9.6 대 배¹⁵ 를 사용 하 여 기본 매개 변수를 사용 하 여 trimmomatic 출력 쌍 읽기에서 높은-품질 병합 된 읽기 만들. 커맨드 라인에서 입력:
배-f < quality_and_adaptor_trimmed_1P.fastq > r < quality_and_adaptor_trimmed_2P.fastq >
오류를 해결 하려면 1.1¹⁶ 대 사용 파충류 읽기 배 통해 생산. ¹⁷에서 설명 하는 단계별 프로토콜을 따릅니다.
2.4.0 대 트리니티를 사용 하 여 수정 된 시퀀스를 기본 모드에서¹⁸ . 물가 관련 라이브러리를 사용 하 여-SS_lib_type 매개 변수. 출력은 fasta 파일 (your_assembly.fasta). 커맨드 라인에서 입력:
트리니티-seqType fq-SS_lib_type FR-max_memory 10 G-Trinity_output-quality_and_adaptor_trimmed_forward_paired_reads.fq 왼쪽 출력-quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10 오른쪽
참고: 출력 Trinity_output, 새 디렉터리에 배치 됩니다 및 어셈블리 이름을 바꿀 수 있습니다 Your_assembly.fasta로 원하는 경우 ' Trinity.fasta' 라는 것 이다. 자세한 내용은 트리니티 웹사이트 참조: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. 폭발 참조 시퀀스에 대 한 어셈블리

참고: 사용이이 단계는 참조 어셈블리 또는 긴 때 생어; 처럼 읽습니다. 그것은의 구성 된다 원시 Illumina 읽습니다 쿼리에 읽기를 매핑하기 위한 아래의 3 단계를 참조 하십시오. 모든 폭발 단계 명령을 어떤 최근 폭발 버전에 작동 한다 버전 2.2.29+와 함께 완료 되었습니다.

명령줄에서 기준 시퀀스 (nucleotide_reference.fasta)의 폭발 데이터베이스를 확인 합니다. 명령줄에 입력 합니다 다음:
makeblastdb-dbtype nucl-nucleotide_reference.fasta에-nucleotide_reference.db에 밖으로
폭발-일치 참조 데이터베이스에 쿼리 어셈블리 (단계 1에서에서 생성 된). 출력 파일을 가져오려면 [-BLAST_results.txt 밖으로] [outfmt-6]를 사용 하는 테이블 형식의 출력 (파이썬 스크립트 후속 단계에 필요)를 생성 하 고. 이 옵션은 임의의 순서로 결합 될 수 있다, 그래서 예를 들어 완료 명령 [blastn-쿼리 your_assembly.fasta db-nucleotide_reference.db-BLAST_results.txt-outfmt 6 개]. E 값 설정을 원하는 경우 예를 들어 [-evalue 1e-6] 적절 한 번호로-evalue 옵션을 사용 합니다. 그러나 그 빼기 주기 효과적으로 반전 evalue 토론에 설명 된 대로 설정을 알고 있어야 합니다.
증가 엄중에 대 한 번역 된 뉴클레오티드 (뉴클레오티드) 데이터베이스의 6 방향 변환을 수행 폭발 (tBLASTn)와 폭발 쿼리로 어셈블리에서 단백질 시퀀스를 사용 합니다. 이 메서드는 불완전 한 단백질 주석 문제를 피하고 대부분의 비-모델 시스템에 대 한 것이 좋습니다.
1. 공부, 사용 되는 유기 체에 대 한 올바른 유전자 코드를 선택 확인-db_gencode 옵션. 쿼리에 대 한 단백질 시퀀스를 얻으려면 조립된 쿼리 시퀀스에서 긴 열려있는 독서 프레임을 식별 하 (3.0.1 대 TransDecoder 패키지)에서 TransDecoder.LongOrfs 명령을 실행 합니다. [TransDecoder.LongOrfs-t your_assembly.fasta]는; 출력 'transcripts.transdecoder_dir' 라는 디렉토리에 배치 됩니다 하 고 your_assembly.fasta에 각 시퀀스에서 긴 예측된 단백질 시퀀스를 포함 하는 longest_orfs.pep 라는 파일을 포함 됩니다.
2. TBLASTn를 사용 하려면 실행 명령을 [tblastn-longest_orfs.pep-db nucleotide_reference.db 쿼리-BLAST_results.txt-outfmt 6 개]. 높은-품질 단백질 참조를 사용할 수 있으면 tBLASTn 보다는 오히려 BLASTp와 일치 하는 단백질을 사용 합니다.
3. 단백질 기준의 폭발 데이터베이스 만들기 [makeblastdb-dbtype 제자-protein_reference.fasta에-protein_reference.db에 밖으로] 그리고 [blastp-longest_orfs.pep-db protein_reference.db 쿼리-BLAST_results.txt-outfmt 6 개]. 다운스트림 처리, 파일로 결과 저장 하 고 Python 스크립트 올바르게 그들을 구문 분석할 수 있도록 테이블 형식 (outfmt 6)를 사용 합니다.

3. 지도 어셈블리에 읽습니다.

참고: 참조 데이터 집합 원시 게놈 읽기 보다는 조립된 시퀀스의 구성 또는 생어 시퀀스는 케이스 사용 폭발 (2.1 단계) 하는 경우이 메서드를 사용할 수 있습니다.

BWA 사용-MEM 0.7.12 대¹⁹ 또는 bowtie2²⁰, 다운로드 원시 읽기 (raw_reads.fastq) 쿼리 어셈블리에 매핑합니다. 출력은.sam 포맷 될 것입니다. 명령어는 다음과 같습니다: 먼저 어셈블리 색인: [bwa 인덱스 your_assembly.fasta] 다음 읽기를 지도 하 고 [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (참고는 ' >' 기호 여기는 큰-기호; 대신 파일 mapped.sam에가 서 출력 지시).

4. 파이썬 스크립트 제거 모든 일치 하는 시퀀스를 사용 하 여

참고: 파이썬 2.7 스크립트 작업 제공.

2 단계 다음 [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt] 명령을 사용 하 여 빼기 Python 스크립트를 사용 합니다. 스크립트를 실행 하기 전에 있는지 확인 폭발 출력 파일 형식 6 (테이블 형식) 합니다. Fasta 형식에 일치 하지 않는 시퀀스 파일 이름 your_assembly.fasta_non matching_sequences_BLAST_results.txt.fasta 및 또한 your_assembly.fasta_matching_sequences_BLAST_로 레코드 시퀀스에 일치 하는 스크립트 출력 results.txt.fasta.는 일치 하지 않는 파일은 가장 중요 한, 테스트에 대 한 잠재적인 T 시퀀스의 소스 및 추가 빼기 유전체학의 사이클 있을 것입니다.
파이썬 스크립트 removeUnmapped.py로 실행 3 단계를 다음 단계의 3.1.sam 입력 어떤 일치 읽기 없이 쿼리 시퀀스의 이름을 식별 하 고 새 텍스트 파일에 저장. [./RemoveUnmapped.py mapped.sam] 명령을 사용 하 여 고 출력 mapped.sam_contigs_with_no_reads.txt 될 것입니다. (프로그램 제거 모든 매핑되지 않은 읽기로 slimmed 다운 sam 파일을 생성 합니다;이 파일은이 프로토콜의 목적을 위해 무시 될 수 있습니다 하지만 다른 분석에 유용할 수 있습니다.)
이전 단계의 출력 시퀀스 이름 mapped.sam_contigs_with_no_reads.txt 라는 텍스트 파일에 목록으로 추출이 시퀀스 fasta 파일: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. 출력은 mapped.sam_contigs_with_no_reads.txt.fasta 라는 파일이 있을 것입니다.

5. 남아 있는 시퀀스에 대 한 뇌관 디자인

참고:이 시점에서 있다 fasta 파일 후보 T 시퀀스를 포함 하는. 이 섹션에서는 설명 합니다 그들이 온 T 또는 r.의 이전에 알려지지 않은 지역에서 실험적으로 테스트를 정량을 4 단계에서 빼기 모든 시퀀스를 제거 하는 경우 다음 초기 어셈블리 T를 포함 하는 데 실패 하거나 빼기 너무 엄격한 되었을 수도 있습니다.

Geneious²¹ 을 사용 하 여 수동으로 최적의 뇌관 순서를 결정.
1. 앞으로 뇌관을 위한 21-28 bp의 후보 시퀀스를 강조 표시 합니다. 4 이상의 모든 자료의 실행을 하지 마십시오. 모든 basepairs의 조합으로 상당히 균일 한 지역을 대상으로 하려고 합니다. 뇌관을 고정 하는 단일 G 또는 C 3' 끝에를, 도움이 됩니다.
2. 시퀀스의 후보 지역 강조 녹는 온도 (Tm)를 추정 보려면 화면 오른쪽에 통계 탭에서 클릭 합니다. 반복 및 G/c.의 긴 실행을 피하는 동안 55-60 ° C 사이의 용융 온도를 보고합니다
3. 5.1.1 단계. 그리고 역방향 뇌관을 선택 하는 5.1.2 150-250 기본 쌍 3' 앞으로 뇌관의 위치. 뇌관의 길이 일치 하지 않아도, 하는 동안 예측된 Tm 앞으로 뇌관의 Tm에 가능한 한 가까이 있어야 합니다. 보수는 순서를 확인 하십시오 (순서를 강조 하는 동안 Geneious에서 마우스 오른쪽 단추로 클릭 하는 경우 그것은 메뉴 옵션).
시퀀스 창에서 상단 도구 모음에 있는 뇌관 디자인 기능을 사용 합니다.
1. 뇌관 디자인 버튼 클릭 합니다. 대상 지역에서 증폭 지역을 삽입 합니다.
2. 특성 탭에서 원하는 크기, 녹는 온도 (Tm), 및 %GC (참조 단계 5.1.1.)를 삽입 합니다.
3. 생성 된 뇌관을 확인 을 클릭 합니다. 사용자 지정 올리고 서비스를 통해 뇌관을 주문.
Tm 및 확장 시간 최적화를 제어 dna (인코딩 T 및 R) 뇌관을 확인 합니다. 밴드 크기를 볼 일반 Taq와 젤 전기 이동 법을 사용 하지만 최적화 정량 방법 6 단계에서 다음을 수행할 수 있습니다.
1. 뇌관 10 μ M의 농도가지고 있도록 정방향 및 역방향 뇌관의 10 배 희석을 확인 합니다.
2. DNTP의 0.5 μ, 앞으로 뇌관의 0.5 μ, 역방향 뇌관의 0.5 μ, Taq 중 합 효소의 0.1 μ, 서식 파일의 2 μ, 마그네슘의 0.75 μ, 버퍼의 2.5 μ와 물의 18.15 μ의 PCR 혼합을 사용 하 여 5의 농도와 서식 파일 당 25 μ를 ng / Μ입니다.
3. PCR 프로그램에 다른 녹는 온도에 뇌관을 테스트 합니다. 일반적으로 최적의 성능이 관찰된 용융 온도 뇌관의 그러나 보통 60 ° c.의 위 예측된 Tm 보다 약간은 또한이 가이드를 사용 하 여 항상 최적의 확장에 대 한 테스트: 1000 bp 당 1 분 (따라서, amplicon 길이 따라 보통 10-30 초).
4. 끝점 젤 전기 이동 법 뇌관 예상된 시퀀스 증폭 확인을 수행 합니다. 200 V 20 분 2% 태 agarose 젤에 글리세롤 염료 X 6의 5 μ와 혼합 정량 제품의 25 μ를 실행 합니다.

6. 정량 나머지 시퀀스의 유효성 검사

참고:이 단계는 뇌관 유효성 검사 및 PCR 조건 5 단계에서 설립 필요 합니다.

다음 혼합;과 3 중에 각 서식 파일을 실행 PowerSYBR 그린 마스터 믹스의 12.5 μ, 10 μ M, 10 μ M, 물, 10.5 μ 및 1 μ (2 ng/μ의 농도)에 템플릿 DNA의 농도와 역방향 뇌관의 0.5 μ의 농도와 앞으로 뇌관의 0.5 μ 각 잘 총 볼륨 25 μ를 포함 되도록.
유효 온도 및 4 단계에서 확장 시간에 의해 정량 프로그램을 실행 합니다. 우리 설계 검증 2 단계 주기, 95 ° C 10 분 초기 용융과 호환 되도록 모든 뇌관 그리고 95의 40 주기 30 s 및 1 분 동안 60 ° C에 ° C. 그러나, 3 단계 (용융 anneal-확장) 프로그램 더 뇌관에 대 한 최적의 수 있으며 필요한 경우 적응 해야. 최종 변성 곡선 뇌관 DNA 제품의 확대를 확인 하기 위해 정량에 고용 되어 처음으로 이상 생성 하는 것이 좋습니다.
측정 정량/SYBR 녹색 신호 말라 (또는 다른 적당 한 'R' 제어) 코네티컷에 의해 모든 경우 계산 평균 및 표준 편차 2의^{-(유전자 Ct-β-말라 Ct)}.
(선택 사항) 끝점 젤 전기 이동 법 정량 하 여 올바른 제품 크기 탐지를 확인을 수행 합니다. 여기, 200 V 20 분 2% 태 agarose 젤에 글리세롤 염료 x 6의 5 μ와 혼합 정량 제품의 25 μ를 실행 합니다.

7. 반복 데이터 아래로 껍질을 벗기십시오에 대 한 새로운 참조.

참고: 6 단계에서에서 식별 된 시퀀스의 유효성을 검사 하는 경우 여기 주기 (그림 2A) 끝. 그러나, 고려의 다양 한 동기를 부여 하는 예를 들어 많은 R 시퀀스 파일에 남아 또는 후보 T 시퀀스의 정량에 의해 확인 되었다 경우에 6 단계 사이클의 연속 수 있습니다.

새 참조를 얻을. 이 단계는 사이클의 새로운 반복을 가능 하 게 하 고 원시 게놈 데이터, 원시 RNA-seq 데이터, 또는 다른 조립된 데이터 집합에 포함 될 수 있습니다. 참조 데이터에 대 한 귀중 한 자원 생물 공학 정보 (https://www.ncbi.nlm.nih.gov/genome)는 매장 조립 게놈 FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/)를 통해 액세스할 수에 대 한 국립 센터에서 게놈 데이터베이스 포함 그리고 원시 다음-세대 시퀀스 읽기 저장 되는 유전자 식 옴니 버스 (https://www.ncbi.nlm.nih.gov/geo/). 게놈 프로젝트는 다른 프로젝트에 연결 된 웹 사이트 및 데이터베이스를 통해 그들의 원시 시퀀스 데이터를 제공할 수 있습니다.

결과

폭발을 실행 한 후 출력 파일 데이터베이스를 일치 하는 쿼리에서 시퀀스의 목록을 해야한다. Python 빼기 후 일치 하지 않는 시퀀스 수, 고 정량에 의해 테스트 됩니다. 이 결과 및 다음 단계를 아래에 설명 되어 있습니다.

결과 부정. 폭발 후 참조 시퀀스를 볼 수 있는 두 가지 가능한 부정적인 결과 있다. 폭발 결과,...

토론

빼기 유전체학 강력한 동안, 몇 가지 주요 단계, 및 참조 시퀀스 및 테스트 샘플의 주의 깊은 선택에서 사용자 지정을 요구 하는 쿠키 커터 접근 아니다. 쿼리 어셈블리 품질의 경우 필터링 단계 어셈블리 유물만 격리 수 있습니다. 따라서, 그것은 철저 하 게 노 보 드 어셈블리를 특정 프로젝트에 적절 한 유효성 검사 프로토콜을 사용 하 여 유효성을 검사 하는 것이 중요입니다. RNA-seq, 트리?...

공개

저자는 공개 없다.

감사의 말

저자 미셸 Biederman, Alyssa 페데르센, 그리고 콜린 J. Saldanha 얼룩말 피리 새 류 게놈 프로젝트와 다양 한 단계에서 그들의 지원에 대 한 인정합니다. 우리는 또한 컴퓨팅 클러스터 시스템 관리 및 NIH 그랜트 1K22CA184297 (J.R.B.)를 및 NIH NS 042767 (C.J.S)를 위한 Evgeny Bisk를 인정 합니다.

자료

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki

참고문헌

Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

재인쇄 및 허가

JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기

허가 살펴보기

더 많은 기사 탐색

143

This article has been published

Video Coming Soon

Keep me updated: