È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Method Article
Lo scopo del presente protocollo è quello di utilizzare una combinazione di computazionale e panca ricerca per trovare nuove sequenze che non possono essere facilmente separate da una sequenza co-purificante, che può essere conosciuta solo parzialmente.
Sottrattiva genomica può essere utilizzato in qualsiasi ricerca dove l'obiettivo è quello di identificare la sequenza di un gene, la proteina o la regione generale che è incorporato in un contesto più ampio di genomico. Genomica sottrattivo consente un ricercatore isolare una sequenza di destinazione di interesse (T) mediante sequenziamento completo e sottrazione di elementi genetici conosciuti (riferimento, R). Il metodo può essere utilizzato per identificare nuove sequenze quali mitocondri, cloroplasti, virus, o germinale limitato di cromosomi ed è particolarmente utile quando T non può essere facilmente isolato da R. cominciando con i dati di genomici completi (R + T), il metodo utilizza base locale allineamento Cerca strumento (BLAST) contro una sequenza di riferimento, o sequenze, per rimuovere le sequenze note corrispondenti (R), lasciando dietro il bersaglio (T). Per la sottrazione funzionare al meglio, R dovrebbe essere una brutta copia relativamente completa che manca T. Dal sequenze restanti dopo sottrazione sono testati attraverso quantitative Polymerase Chain Reaction (qPCR), R non deve necessariamente essere completo per il metodo di lavoro. Qui ci colleghiamo passi computazionali con procedura sperimentale in un ciclo che può essere ripetuto se necessario, in sequenza rimozione più sequenze di riferimento e la rifinitura la ricerca di T. Il vantaggio della genomica sottrattiva è che una sequenza completamente nuovi target può essere identificata anche nei casi in cui la purificazione fisica è difficile, impossibile o costoso. Uno svantaggio del metodo è trovare un riferimento adatto per sottrazione e ottenere T-positivo e negativo di campioni per le prove di qPCR. Descriviamo la nostra implementazione del metodo nell'identificazione del primo gene sul cromosoma germline-limitata di zebra finch. In tal caso filtraggio computazionali coinvolti tre riferimenti (R), rimossi in sequenza su tre cicli: montaggio genomica incompleta, raw dati genomici e dati di trascrittomica.
Lo scopo di questo metodo consiste nell'identificare un'obiettivo novello (T) sequenza genomic, DNA o RNA, da un contesto genomico, o un riferimento (R) (Figura 1). Il metodo è più utile se la destinazione non può essere fisicamente separata, o che sarebbe stato costoso farlo. Solo alcuni organismi hanno perfettamente finito genomi per sottrazione, quindi un'innovazione chiave del nostro metodo è la combinazione di calcolo e metodi di panca in un ciclo che permette ai ricercatori di isolare sequenze bersaglio quando il riferimento è imperfetto, o un progetto genoma da un organismo non-modello. Alla fine di un ciclo, qPCR test viene utilizzato per determinare se è necessario più di sottrazione. Una sequenza di convalidato candidato T mostrerà statisticamente maggiore rilevamento in noti campioni di T-positivi di qPCR.
Incarnazioni del metodo sono state implementate nella scoperta di nuovi bersagli farmacologici batterica che non dispongono di host omologhi1,2,3,4 e identificazione di nuovi virus da host infetti 5,6. Oltre alla identificazione di T, il metodo può migliorare r: recentemente abbiamo utilizzato il metodo per identificare 936 geni mancanti dal genoma di riferimento zebra finch e un nuovo gene da una sola linea germinale del cromosoma (T)7. La genomica sottrattiva è particolarmente preziosa quando T rischia di essere estremamente divergenti da sequenze conosciute o quando l'identità di T è ampiamente definito, come la zebra finch germline-limitata del cromosoma7.
Non richiedendo identificazione positiva di T in anticipo, un vantaggio chiave della genomica sottrattiva è che è imparziale. In uno studio recente, Readhead et al ha esaminato la relazione tra il morbo di Alzheimer e virale abbondanza nelle quattro regioni del cervello. Per identificazione virale, Readhead et al ha creato un database di 515 virus8, limitando gravemente l'agenti virali che poteva identificare i loro studio. Sottrattiva genomica potrebbe sono stati utilizzati per confrontare i sani e genomi di morbo di Alzheimer al fine di isolare possibili nuovi virus associati alla malattia, indipendentemente dalla loro somiglianza con gli agenti infettivi noti. Mentre ci sono 263 noto virus umani-targeting, è stato stimato che circa 1,67 milioni da scoprire specie virale esistono, con 631.000-827.000 di loro che hanno un potenziale di infettare gli esseri umani9.
Isolamento di nuovi virus è un'area in cui sottrattiva genomica è particolarmente efficace, ma alcuni studi potrebbero non essere necessario tale metodo rigoroso. Ad esempio, studi identificazione nuovi virus hanno usato imparziale high throughput sequenziamento, seguita da trascrizione d'inversione e BLASTx per sequenze virali5 o arricchimento degli acidi nucleici virali per estrarre e invertire trascrivono sequenze virali 6. mentre questi studi impiegato sequenziamento de novo e assemblaggio, sottrazione non è stato utilizzato perché le sequenze bersaglio sono stati positivamente identificate attraverso BLAST. Se i virus erano completamente nuovi e non correlati (o lontanamente correlate) ad altri virus, genomica sottrattiva sarebbe stato una tecnica utile. Il vantaggio della genomica sottrattiva è che si possono ottenere sequenze che sono completamente nuove. Se è noto il genoma dell'organismo, possono essere sottratti fuori di lasciare eventuali sequenze virali. Ad esempio, nel nostro studio pubblicato abbiamo isolato una romanzo sequenza virale da zebra finch attraverso sottrattiva genomica, anche se non era nostro intento originale7.
Sottrattiva genomica si è dimostrata utile per l'identificazione di bersagli di vaccino batterico, motivati dall'aumento drammatico nella resistenza agli antibiotici1,2,3,4. Per ridurre al minimo il rischio di reazione autoimmune, ricercatori ha ristretto i potenziali bersagli di vaccino sottraendo qualsiasi proteine che sono omologhi nell'ospite umano. Uno studio particolare, guardando la pseudotuberculosi del corinebatterio, eseguita la sottrazione dei genoma ospite vertebrato da diversi genomi batterici per garantire che gli obiettivi della droga possibile non inciderebbe proteine nei padroni di casa che conduce agli effetti collaterali 1. il flusso di lavoro di base di questi studi è quello di scaricare il proteoma batterico, determinare le proteine vitali, rimuovere le proteine ridondanti, utilizzare BLASTp per isolare le proteine essenziali e BLASTp contro host proteoma per rimuovere eventuali proteine con gli omologhi host 1 , 2 , 3 , 4. In tal caso, genomica sottrattiva assicura che i vaccini sviluppati non avrà alcun effetto fuori bersaglio in host1,2,3,4.
Abbiamo usato sottrattiva genomica per identificare il primo gene di proteina-codificazione su un limitato di germline cromosoma (GRC) (in questo caso, T), che si trova in germlines ma non somatica tessuto di entrambi i sessi10. Prima di questo studio, le informazioni solo genomiche che è state conosciute circa il GRC è stato una regione ripetitiva11. De novo montaggio è stato eseguito su RNA sequenziato dai tessuti dell'ovaia e teste (R + T) da adulti zebra fringuelli. L'eliminazione computazionale delle sequenze è stata eseguita utilizzando pubblicati somatica (muscolo) genome sequence (R1)12, suo crudo (Sanger) leggere dati (R2) e un somatico (cervello) trascrittoma (R3)13. L'uso sequenza di tre riferimenti è stato guidato dalla qPCR test passaggio 5 di ciascun ciclo (Figura 2A), mostrando che altre opzioni di filtro è stato richiesto. Il gene α-SNAP scoperto è stato confermato mediante qPCR da DNA e RNA e clonazione e sequenziamento. Vi mostriamo nel nostro esempio che questo metodo è flessibile: non è dipenda su corrispondenti acidi nucleici (DNA vs RNA) e quello sottrazione può essere eseguita con riferimenti (R) che sono costituiti da assembly o crude letture.
1. sequenza di avvio assemblare de novo
Nota: Qualsiasi dati di sequenza di generazione (NGS) possono essere utilizzati, purché un assembly può essere prodotto da tali dati. Dati di input adatti includono Illumina, PacBio, o Oxford Nanopore legge assemblata in un file fasta. Per concretezza, questa sezione descrive un assembly basati su Illumina Transcrittomica specifico allo studio zebra finch abbiamo effettuato7; tuttavia essere consapevoli che le specifiche variano dal progetto. Per il nostro progetto di esempio, i dati grezzi sono stati derivati da un MiSeq e circa 10 milioni di letture accoppiate sono state ottenute da ciascun campione.
2. BLAST l'Assemblea contro la sequenza di riferimento
Nota: Utilizzare questo passaggio quando il riferimento è un assembly o lunga si legge come Sanger; Se si compone di crudo Illumina legge, vedere il passaggio 3 di seguito per il mapping di letture per la query. Tutti i BLAST passaggi sono stati completati con versione 2.2.29+, anche se i comandi dovrebbero funzionare su qualsiasi versione recente di BLAST.
3. mappa legge sul gruppo
Nota: Questo metodo può essere utilizzato se il set di dati di riferimento è costituito da crude letture genomiche, piuttosto che assemblati sequenze o sequenze di Sanger, nel quale caso utilizzare BLAST (punto 2.1).
4. utilizzare Script Python per rimuovere tutte le sequenze di corrispondenza
Nota: Dotato di lavoro script Python 2.7.
5. disegnare Primers per la sequenza che rimane
Nota: A questo punto c'è un file di fasta contenente sequenze candidato T. Questa sezione descrive qPCR per verificare sperimentalmente se provengono da T o da regioni precedentemente sconosciute di R. Se la sottrazione nel passaggio 4 rimosso tutte le sequenze, quindi l'assemblaggio iniziale non è riuscito a includere T oppure la sottrazione può essere stato troppo stringenti.
6. qPCR convalida della sequenza rimanenti
Nota: Questo passaggio richiede primer convalidato e le condizioni PCR stabilite nel passaggio 5.
7. ripetere con un nuovo riferimento a Pare i dati.
Nota: Se passo 6 convalidato le sequenze identificate da T, terminare il ciclo qui (Figura 2A). Tuttavia, una serie di considerazioni può motivare una continuazione del ciclo, per esempio, se molti R sequenze rimangono nel file o se nessuna delle sequenze candidato T sono stata convalidata da qPCR nel passaggio 6.
Dopo l'esecuzione di BLAST, il file di output avrà un elenco di sequenze dalla query che corrisponda al database. Dopo la sottrazione di Python, un numero di sequenze non corrispondenti sarà ottenuto e testato da qPCR. I risultati di questo e prossimi passi, sono discussi di seguito.
Risultato negativo. Ci sono due possibili risultati negativi che possono essere visto dopo BLAST per la sequenza di riferimento....
Mentre sottrattiva genomica è potente, non si tratta di un approccio cookie cutter, che richiedono personalizzazione in diversi passaggi chiave e un'attenta selezione di sequenze di riferimento e campioni di prova. Se l'assembly di query è di scarsa qualità, passaggi di filtraggio potrebbe isolare solo artefatti di assemblaggio. Pertanto, è importante convalidare accuratamente l'Assemblea de novo utilizzando un protocollo di convalida appropriata al progetto specifico. Per RNA-seq, linee sono fornite sul sit...
Gli autori non hanno nulla a rivelare.
Gli autori riconoscono Michelle Biederman, Alyssa Pedersen e Colin J. Saldanha per la loro assistenza con il progetto di genomica di zebra finch in varie fasi. Riconosciamo anche Evgeny Bijsk per computing cluster sistema amministrazione e NIH grant 1K22CA184297 (per J.R.B.) e 042767 NS NIH (a C.J.S).
Name | Company | Catalog Number | Comments |
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon