Method Article
Sequenziamento del DNA pool è una strategia rapida ed efficace per individuare le varianti rare associate a fenotipi complessi in coorti di grandi dimensioni. Qui si descrive l'analisi computazionale del pool, sequenziamento di prossima generazione di 32 geni legati al cancro utilizzando il pacchetto software SPLINTER. Questo metodo è scalabile, e applicabile a qualsiasi fenotipo di interesse.
Come tecnologia di sequenziamento del DNA è nettamente avanti negli ultimi anni 2, è diventato sempre più evidente che la quantità di variazione genetica tra due individui è maggiore di quanto si pensasse 3. Al contrario, array-based genotipizzazione non è riuscito a identificare un contributo significativo di varianti di sequenza comuni per la variabilità fenotipica di malattia comune 4,5. Prese insieme, queste osservazioni hanno portato alla evoluzione della malattia comune / ipotesi Variant Rare suggerendo che la maggioranza dei "ereditabilità mancante" in fenotipi comuni e complesso è invece dovuta al profilo personale di un individuo di varianti di DNA rare o private 6-8 . Tuttavia, caratterizzando come la variazione raro impatto fenotipi complessi richiede l'analisi di molti individui affetti in molti loci genomici, ed è idealmente rispetto a un'indagine simile in una coorte inalterato. Nonostante la potenza sequenza offerto dalle piattaforme di oggi,basato sulla popolazione sondaggio di molti loci genomici e la successiva analisi computazionale richiesto rimane proibitivo per molti ricercatori.
Per rispondere a questa esigenza, abbiamo sviluppato un approccio di sequenziamento pool 1,9 e un pacchetto software nuovo 1 per il rilevamento ad alta precisione rara variante dai dati risultanti. La capacità di genomi piscina da intere popolazioni di individui interessati e di indagine il grado di variazione genetica a più aree mirate in una libreria sequenza unica, offre ottimi risparmi sui costi e il tempo alla tradizionale single-campione metodologia di sequenziamento. Con una copertura di sequenziamento per allele media di 25 volte, il nostro algoritmo personalizzato, SPLINTER, utilizza una strategia di controllo interno variante chiamata per chiamare inserimenti, cancellazioni e sostituzioni fino a quattro paia di basi di lunghezza con alta sensibilità e specificità da pool di fino a 1 allele mutante in 500 individui. Qui si descrive il metodo per preparare il pool sequencing biblioteca seguita passo-passo le istruzioni su come usare il pacchetto per l'analisi di sequenziamento SPLINTER aggregati ( http://www.ibridgenetwork.org/wustl/splinter ). Mostriamo un confronto tra sequenziamento pool di 947 individui, ognuno dei quali sono stati sottoposti a genome-wide array, a più di 20kb di sequenziamento a persona. Concordanza tra genotipizzazione di tag e varianti romanzo intitolato nel campione pool erano eccellenti. Questo metodo può essere facilmente scalabile a qualsiasi numero di loci genomici e qualsiasi numero di individui. Con l'integrazione dei controlli interni ampliconi positivi e negativi a rapporti che imitano la popolazione in studio, l'algoritmo può essere calibrato per ottenere prestazioni ottimali. Questa strategia può anche essere modificato per l'utilizzo con la cattura ibridazione o individuale-specifici codici a barre e può essere applicato alla sequenza di campioni naturalmente eterogenei, come il DNA tumorale.
Questo metodo è stato utilizzato nella ricerca riportata in Vallania FML et al. Genome Research 2010.
1. Esempio di Pooling e Capture PCR di mirati loci genomici
2. Pool PCR Preparazione Biblioteca e Sequencing
3. Sequencing and Analysis Legge Allineamento
4. Variante Detection Rare Uso SPLINTER
5. Risultati rappresentativi
Abbiamo riunito una popolazione di 947 individui e mirate più di 20 kb per il sequenziamento. Abbiamo applicato SPLINTER per la rilevazione di varianti rare seguendo il protocollo standard. Ogni individuo aveva in precedenza aveva genotipizzazione eseguita da genome-wide genotipizzazione array. Concordanza tra genotipizzazione di tag e varianti romanzo intitolato nel campione pool sono stati eccellenti (Figura 6). Tre varianti, due dei quali (rs3822343 e rs3776110) siano state rare nella popolazione, sono stati chiamati de novo dai risultati di sequenziamento e sono stati validati da pirosequenziamento individuale. Frequenze alleliche minori (MAF) nella piscina erano simili al MAF riportati in dbSNP generazione 129. La concordanza tra MAF pirosequenziamento e sequenziamento raggruppati era eccellente (Tabella 3).
Tabella 1. Oligonucleotide sequenze di DNA per il controllo positivo. Ogni sequenza è costituito da un frammento di DNA diverso dal riferimento al tipo selvaggio da parte di due sostituzioni o un inserimento e una eliminazione. Clicca qui per vedere l'immagine ingrandita .
Tabella 2. Esempio di uscita SPLINTER. Le prime due righe rappresentano lo standard output SPLINTER per una sostituzione o una delezione (header blu). L'ultima riga rappresenta lo standard output SPLINTER per un inserimento (colpo di testa viola).rget = "_blank"> Clicca qui per vedere l'immagine ingrandita.
Tabella 3. Cinque note e tre nuove varianti sono stati identificati dalle popolazioni grandi e convalidato da genotipizzazione individuale. Validazione individuale è stato eseguito da pirosequenziamento (righe 1-3), TaqMan assay (righe 4-6) o sequenziamento Sanger (righe 7,8). Per una vasta gamma di frequenze alleliche e comprendente cinque posizioni con MAF <1%, la concordanza tra il pool di stima di frequenza allele sequenziamento e la genotipizzazione individuale era forte. Posizioni contrassegnati con un asterisco (*) sono adattato da dati riportati in precedenza 9.
Figura 1. Pool-sequenziamento del DNA e l'analisi panoramica SPLINTER. DNA del paziente è riunitoe amplificato in loci selezionati. I prodotti finali di PCR sono raggruppate con un controllo positivo e negativo in concentrazioni equimolari. La miscela aggregati vengono poi sequenziato e la risultante letture vengono mappati nuovo al loro riferimento. Mappato controllo negativo letture vengono utilizzati per generare un run-specifico modello di errore. SPLINTER può quindi essere utilizzato per rilevare SNP rare e indels incorporando informazioni dal modello di errore e il controllo positivo. [Tratto da Vallania FLM et al, Genome Research 2010] Clicca qui per vedere l'immagine ingrandita .
Figura 2. Pool PCR legatura amplicon e sonicazione. A dimostrazione della legatura e gradini frammentazione casuali nel protocollo di preparazione biblioteca, vettore pUC19 è stato digerito enzimaticamente ai frammenti riportati in corsia 2. Questi frammenti sono stati Normalizzati per numero di molecole, combinati e legato in modo casuale secondo la fase sopra 1,7. Le risultanti concatamers grandi sono mostrati nella corsia 3. Le concatamers erano ligati equamente divisa e sottoposta a sonicazione come descritto nel passaggio precedente 1,8. La striscio risultante di frammenti di DNA per ciascun replicato tecnica sono presenti in corsie 4 e 5. La staffa evidenzia l'intervallo di dimensioni utilizzato per l'estrazione del gel e la biblioteca la creazione di sequenziamento.
Figura 3. Precisione in funzione di copertura per un singolo allele in un campione composito. La precisione è stimato come l'area sotto la curva (AUC) di una curva Receiver Operator (ROC), che varia da 0,5 (casuale) a 1.0 (la massima precisione). AUC viene tracciata come una funzione di copertura per allele per la rivelazione di singole alleli mutanti nel pool di alleli 200, 500 e 1000 (A). AUC è tracciata come funzione di una copertura totale per sostituzioni, inserimenti e deletions (B). [Tratto da Vallania FLM et al, Genome Research 2010].
Figura 4. Plot errore mostra la probabilità di incorporare una base errata in una data posizione. Il profilo di errore mostra bassi tassi di errore con una tendenza crescente verso l'estremità 3 'della sequenza lettura. In particolare, nucleotidi di riferimento differenti visualizzare diversi probabilità di errore (vedi ad esempio la probabilità di incorporante un C dato un G come riferimento). [Tratto da Vallania FLM et al, Genome Research 2010].
Figura 5. Precisione di scheggia nella stima della frequenza allele per le posizioni che hanno una copertura maggiore di 25 volte per allele. Sulla base dei risultati nel Pannello A, la figura 3 mostra una sensibilità ottimale per il rilevamento singola variante con ≥ 25-volte copertura,confronto tra pool-DNA frequenze alleliche stimate dal SPLINTER con conta alleliche misurata dai risultati GWAS in correlazione molto alta (r = 0,999). [Tratto da Vallania FLM et al, Genome Research 2010].
Figura 6. Confronto tra le frequenze alleliche misurate dal GWAS rispetto alle stime scheggia dal sequenziamento del pool di 974 individui. C'erano 19 posizioni comuni tra i luoghi sottoposti a genotipizzazione e le regioni di sequenza per il confronto. La correlazione che ne risulta è molto elevata (r = 0,99538). Clicca qui per ingrandire la figura .
C'è una crescente evidenza che l'incidenza e la risposta terapeutica dei comuni fenotipi complessi e le malattie come l'obesità 8, 4 ipercolesterolemia, ipertensione 7 e altri possono essere moderato da profili personali di variazione rare. Identificare i geni e le vie in cui queste varianti aggregati in popolazioni colpite avranno profonde implicazioni diagnostiche e terapeutiche, ma analizzando separatamente gli individui affetti possono essere tempi e costi proibitivi. Basato sulla popolazione analisi offre un metodo più efficiente per la rilevazione variazione genetica a loci multipli.
Vi presentiamo un nuovo pool-protocollo di sequenziamento del DNA in coppia con il pacchetto software SPLINTER progettato per identificare questo tipo di variazione genetica nelle popolazioni. Dimostriamo l'accuratezza di questo metodo per identificare e quantificare gli alleli minori all'interno di una vasta popolazione aggregata di 947 persone, incluse le varianti rare che eranochiamato de novo dal sequenziamento pool e convalidati da pirosequenziamento individuale. La strategia differisce principalmente da altri protocolli per l'incorporazione di un controllo positivo e uno negativo in ogni esperimento. Questo permette SPLINTER di ottenere una precisione molto più elevata e potenza rispetto ad altre soluzioni 1. La copertura ottimale di 25-volte per allele è fissata indipendentemente dalla dimensione della piscina, rendendo l'analisi di grandi vasche fattibile questo requisito solo bilance linearmente con la dimensione del pool. Il nostro approccio è molto flessibile e può essere applicato a qualsiasi fenotipo di interesse, ma anche a campioni che sono naturalmente eterogenei, come le popolazioni di cellule miste e biopsie tumorali. Dato il crescente interesse per la sequenza in pool dalle regioni di destinazione di grandi dimensioni come il exome o genoma, la nostra preparazione biblioteca e l'analisi SPLINTER è compatibile con i costumi-capture e con tutto il exome sequenziamento, ma l'utilità di allineamento nel pacchetto SPLINTER non è stato progettato per granderiferimenti sequenze. Pertanto, abbiamo utilizzato con successo la mascherina di programmazione dinamica, Novoalign, per genome-wide allineamenti seguiti da variante chiamando dal campione composito (Ramos et al., Ha presentato). Quindi, la nostra strategia di sequenziamento pool in grado di scalare con successo per piscine di grandi dimensioni con quantità crescenti di sequenza bersaglio.
Non ci sono conflitti di interesse dichiarati.
Questo lavoro è stato supportato da Discovery dei bambini dell'Istituto concessione MC-II-2006-1 (RDM e TED), il NIH Epigenetica Roadmap sovvenzione [1R01DA025744-01 e 3R01DA025744-02S1] (RDM e FLMV), U01AG023746 (SC), il Saigh Foundation (FLMV e TED), 1K08CA140720-01A1 e Lemonade stand di Alex "A" di supporto Award (TED). Ringraziamo il Genome Technology Center di accesso presso il Dipartimento di Genetica presso la Washington University School of Medicine di aiuto con l'analisi genomica. Il Centro è parzialmente supportato dal Servizio Supporto NCI di Grant Cancer Center # P30 CA91842 al Cancer Center Siteman e ICTS / CTSA Grant N. UL1RR024992 dal NationalCenter per le Risorse Ricerca (NCRR), un componente del National Institutes of Health (NIH), e NIH Roadmap for Medical Research. Questa pubblicazione è di esclusiva responsabilità degli autori e non rappresentano necessariamente l'opinione ufficiale di NCRR o NIH.
Name | Company | Catalog Number | Comments |
Reagente Nome | Azienda | Numero di catalogo | Sezione |
PfuUltra High-Fidelity | Agilent | 600384 | 1,4 |
Betaina | SIGMA | B2629 | 1,4 |
M13mp18 ssDNA vettore | NEB | N4040S | 1,5 |
pGEM-T facile | Promega | A1360 | 1,5 |
Polinucleotide chinasi T4 | NEB | M0201S | 2,2 |
Ligasi T4 | NEB | M0202S | 2,2 |
Polietilene glicole 8000 MW | SIGMA | P5413 | 2,2 |
Bioruptor ultrasuoni | Diagenode | UCD-200-TS | 2,3 |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon