Method Article
Pooled DNA-Sequenzierung ist eine schnelle und kostengünstige Strategie, um seltene Varianten mit komplexen Phänotypen assoziiert in großen Kohorten zu erkennen. Hier beschreiben wir die computergestützte Analyse von gepoolten, Next-Generation-Sequenzierung von 32 Krebs-Genen unter Verwendung des SPLINTER Software-Paket. Diese Methode ist skalierbar und für jeden interessierenden Phänotyp.
Als DNA-Sequenzierung-Technologie hat sich in den letzten Jahren 2 vorgeschoben hat sich immer deutlicher gezeigt, dass die Menge an genetischer Variation zwischen zwei beliebigen Individuen größer als bisher angenommen 3 ist. Im Gegensatz dazu hat sich Array-basierte Genotypisierung konnten keine signifikante Anteil an gemeinsamen Sequenzvarianten auf die phänotypische Variabilität von 4,5 häufige Erkrankung zu identifizieren. Zusammengenommen haben diese Beobachtungen auf die Entwicklung der Volkskrankheit / seltene Variante Hypothese, dass die Mehrheit der "fehlenden Erblichkeit" in gemeinsamen und komplexen Phänotypen statt beruht auf einer individuellen persönlichen Profil von seltenen oder private DNA-Varianten 8.6 geführt . Allerdings charakterisieren, wie selten Variation komplexen Phänotypen beeinflusst erfordert die Analyse von vielen Betroffenen an vielen genomischen Loci, und eignet sich ideal zu einer ähnlichen Befragung in einem nicht betroffenen Kohorte verglichen. Trotz der Macht durch die Sequenzierung der heutigen Plattformen, eine angebotenebevölkerungsbezogene Umfrage von vielen genomischen Loci und der anschließenden computergestützten Analyse erforderlich bleibt unerschwinglich für viele Forscher.
Um diesem Bedarf zu begegnen, haben wir eine Pool-Sequenzierung Ansatz 1,9 und eine neuartige Software-Paket 1 für hochgenaue Erfassung seltene Variante aus den resultierenden Daten entwickelt. Die Fähigkeit, Pool Genome von ganzen Populationen von betroffenen Einzelpersonen und Befragung der Grad der genetischen Variation an verschiedenen Zielregionen in einer einzigen Bibliothek Sequenzierung bietet eine hervorragende Kosten-und Zeitersparnis zu herkömmlichen Single-Probe-Sequenzierung Methodik. Mit einer mittleren Sequenzierung Deckung pro Allel des 25-fachen, nutzt unsere benutzerdefinierten Algorithmus, Splinter, eine interne Variante Aufruf Regelstrategie zu Insertionen, Deletionen und Substitutionen rufen bis zu vier Basenpaare lang mit hoher Sensitivität und Spezifität aus Pools von bis zu 1 mutierte Allel in 500 Individuen. Hier beschreiben wir die Verfahren zur Herstellung der gepoolten sequencing Bibliothek gefolgt von Schritt-für-Schritt-Anleitung, den Splitter-Paket für gepoolten Analyse Sequenzierung (verwenden http://www.ibridgenetwork.org/wustl/splinter ). Wir zeigen einen Vergleich zwischen gepoolten Sequenzierung von 947 Individuen, von denen alle unterzog sich auch genomweite Array, an über 20kb der Sequenzierung pro Person. Übereinstimmung zwischen Genotypisierung von getaggt und neue Varianten in der Sammelprobe genannt waren ausgezeichnet. Diese Methode kann einfach skaliert werden bis zu einer beliebigen Anzahl von genomischen Loci und einer beliebigen Anzahl von Individuen. Durch die Integration der internen positiven und negativen Kontrollen Amplikon in Verhältnissen, die die Bevölkerung imitieren untersuchten, kann der Algorithmus für eine optimale Leistung zu kalibrieren. Diese Strategie kann auch zur Verwendung mit der Hybridisierung Fang oder individualspezifischen Barcodes geändert werden und dann zur Sequenzierung von natürlich heterogenen Proben, wie Tumor-DNA eingesetzt werden.
Diese Methode wurde in der Forschung in Vallania FML et al. Genome Research 2010 gemeldet werden.
1. Beispiel Pooling und Capture-PCR gezielte genomischen Loci
2. Pooled PCR-Bibliothek Vorbereitung und Sequencing
3. Liest Sequencing and Analysis Alignment
4. Seltene Variante Nachweis unter Verwendung SPLINTER
5. Repräsentative Ergebnisse
Wir gepoolt eine Bevölkerung von 947 Personen und gezielt über 20 kb für die Sequenzierung. Wir wendeten SPLINTER für die Detektion von seltenen Varianten nach unserer Standardprotokoll. Jeder einzelne hatte zuvor hatten die Genotypisierung von genomweiten Genotypisierung Array durchgeführt. Übereinstimmung zwischen Genotypisierung von getaggt und neue Varianten in der Sammelprobe genannt waren ausgezeichnet (Abbildung 6). Drei Varianten, von denen zwei (rs3822343 und rs3776110) selten in der Bevölkerung waren, wurden von den De-novo-Sequenzierung Ergebnisse genannt und wurden von einzelnen Pyrosequenzierung validiert. Minor Allelfrequenzen (MAF) in den Pool waren ähnlich wie die MAF berichtet in dbSNP Build 129. Die MAF Konkordanz zwischen Pyrosequenzierung und gepoolt Sequenzierung war ausgezeichnet (Tabelle 3).
Tabelle 1. DNA-Oligonukleotid-Sequenzen für die positive Kontrolle. Jede Sequenz besteht aus einem DNA-Fragment, die sich von der Wild-Typ Referenz, entweder durch zwei Substitutionen oder eine Insertion und eine Deletion. Klicken Sie hier für eine größere Ansicht .
Tabelle 2. Beispiel von Splinter Ausgang. Die ersten beiden Zeilen stellen den Standardfehler SPLINTER Ausgang für eine Substitution oder Deletion einer (blau-Header). Die letzte Zeile entspricht dem Standard SPLINTER Ausgang für eine Insertion (lila-Header).rget = "_blank"> Klicken Sie hier für eine größere Ansicht.
Tabelle 3. Fünf bekannte und drei neue Varianten wurden aus großen Populationen identifiziert und validiert durch individuelle Genotypisierung. Individuelle Validierung erfolgte durch Pyrosequenzierung (Zeilen 1-3), TaqMan-Assay (Zeilen 4-6) oder Sanger-Sequenzierung (Zeilen 7,8) durchgeführt. Für eine breite Palette von Allelfrequenzen und darunter fünf Positionen mit MAF <1%, Konkordanz zwischen gepoolten Sequenzierung Allelfrequenz Schätzung und individuelle Genotypisierung war stark. Positionen mit einem Stern (*) markiert sind, werden von früher berichteten Daten 9 angepasst.
Abbildung 1. Pooled-DNA-Sequenzierung und Analyse SPLINTER Überblick. Patienten-DNA wird gebündeltund an ausgewählten Loci amplifiziert. Die endgültige PCR-Produkte werden mit einer positiven und negativen Kontrollproben in äquimolaren Verhältnissen vereinigt. Die gepoolte Gemisch wird dann sequenziert und die resultierende Lesevorgänge werden zurück in ihre Referenz zugeordnet. Zugeordnet negative Kontrolle gelesen werden verwendet, um eine Laufzeit-spezifischen Fehler-Modell zu generieren. SPLINTER kann dann verwendet werden, um seltene SNPs und indels indem Informationen aus den Fehler Modell und die positive Kontrolle zu detektieren. [Übernommen aus Vallania FLM et al, Genome Research 2010] Klicken Sie hier für eine größere Ansicht .
Abbildung 2. Pooled PCR-Amplikons Ligation und Beschallung. Als Demonstration der Ligation und zufällige Fragmentierung Schritte in der Bibliothek Herstellung Protokoll wurde pUC19-Vektor enzymatisch an die Fragmente in Spur 2 gezeigt verdaut. Diese Fragmente wurden Normalized von Molekül-Nummer, und zufällig kombiniert ligiert nach 1,7 obigen Schritt. Die resultierenden großen Konkatamere in Spur 3 gezeigt ist. Die ligierten Konkatamere waren gleich aufgeteilt und einer Beschallung unterworfen, wie in Schritt 1.8 erwähnten beschrieben. Das resultierende Ausstrich von DNA-Fragmenten für verschiedene technische replizieren sind in den Spuren 4 und 5 gezeigt. Die Konsole zeigt den Größenbereich für Gel-Extraktion und Sequenzierung Bibliothek Schöpfung eingesetzt.
3. Genauigkeit als Funktion der Bedeckung für eine Allels in einer gepoolten Probe. Die Genauigkeit wird als die Fläche unter der Kurve (AUC) einer ROC-Kurve (ROC), die sich von 0,5 (zufällig) bis 1,0 (perfekte Genauigkeit) im Bereich geschätzt. AUC als Funktion der Bedeckung pro Allel für die Detektion von einzelnen Mutanten-Allele in Pools von 200, 500 und 1000 Allele (A) aufgetragen. AUC wird als Funktion flächendeckend für Substitutionen, Insertionen und d aufgetrageneletions (B). [Übernommen aus Vallania FLM et al, Genome Research 2010].
4. Fehler Plot zeigt die Wahrscheinlichkeit des Einfügens von einer fehlerhaften Base bei einer gegebenen Position. Der Fehler-Profil zeigt geringe Fehlerraten mit steigender Tendenz zum 3'-Ende der Sequenzierung zu lesen. Insbesondere zeigen unterschiedliche Referenz-Nukleotiden verschiedenen Fehlerwahrscheinlichkeiten (siehe zum Beispiel Wahrscheinlichkeit des Einfügens von einem C ein G als Referenz). [Übernommen aus Vallania FLM et al, Genome Research 2010].
Abbildung 5. Genauigkeit bei der Schätzung von Splinter Allelfrequenz für Positionen, die größer ist als 25-fachen Abdeckung pro Allel hatten. Basierend auf den Ergebnissen in Teil A, Abbildung 3 zeigt die optimale Empfindlichkeit für einzelne Variante Detektion mit ≥ 25-fachen Abdeckung, einVergleich zwischen gepoolten DNA-Allelfrequenzen durch Holzsplitter mit Allel zählt durch GWAS ergeben sich sehr hohe Korrelation (r = 0,999) gemessen geschätzt. [Übernommen aus Vallania FLM et al, Genome Research 2010].
Abbildung 6. Vergleich zwischen Allelfrequenzen von GWAS im Vergleich zu zersplittern Schätzungen aus gepoolten Sequenzierung von 974 Individuen gemessen. Es gab 19 gemeinsame Positionen zwischen den Loci genotypisiert und die Sequenzbereiche zum Vergleich. Die resultierende Korrelation ist sehr hoch (r = 0,99538). Klicken Sie hier für eine größere Abbildung anzuzeigen .
Es gibt zunehmend Hinweise, dass die Inzidenz und therapeutische Reaktion von gemeinsamen, komplexen Phänotypen und Krankheiten wie Fettleibigkeit 8, 4 Hypercholesterinämie, Hypertonie 7 und andere durch persönliche Profile von seltenen Variation kann moderiert werden. Identifikation der Gene und Signalwege, wo diese Varianten Aggregat in die betroffene Bevölkerung tiefe diagnostische und therapeutische Implikationen haben wird, aber die Analyse Betroffenen separat Zeit sein und unerschwinglich. Populations-basierte Analyse bietet eine effizientere Methode zur Erfassung genetischer Variation an verschiedenen Loci.
Wir stellen eine neue gepoolte-DNA-Sequenzierung-Protokoll mit der Splinter-Software-Paket entwickelt, um diese Art der genetischen Unterschiede zwischen den Populationen zu identifizieren gepaart. Wir zeigen die Genauigkeit dieser Methode bei der Identifizierung und Quantifizierung von kleineren Allele innerhalb eines großen gepoolten Population von 947 Personen, darunter seltene Varianten, die warenDe-novo-Sequenzierung aus der gepoolten genannt und validiert durch einzelne Pyrosequenzierung. Unsere Strategie unterscheiden sich von anderen Protokollen durch den Einbau von einer positiven und einer negativen Kontrolle in jedem Versuch. Dies ermöglicht SPLINTER viel höhere Genauigkeit und Leistung im Vergleich zu anderen Ansätzen 1 zu erzielen. Die optimale Abdeckung von 25-fach pro Allel wird unabhängig von der Größe des Pools, fixiert damit die Analyse von großen Pools möglich wie diese Anforderung nur skaliert linear mit der Größe des Pools. Unser Ansatz ist sehr flexibel und kann an jeden Phänotyp von Interesse, sondern auch für Proben, die von Natur aus heterogen sind, wie gemischte Zellpopulationen und Tumorbiopsien angewendet werden. Angesichts der ständig wachsenden Interesse an der gepoolten Sequenzierung von großen Zielregionen wie die Exom oder Genom, ist unsere Bibliothek prep und Splinter Analyse kompatibel mit Custom-Abscheidung und-ganze-Exom Sequenzierung, aber die Angleichung Dienstprogramm in der Splinter-Paket wurde nicht entwickelt für großArtikeln Sequenzen. Deshalb haben wir erfolgreich die dynamische Programmierung Aligner eingesetzt, für genomweite Ausrichtungen durch Aufruf Variante aus der Sammelprobe (Ramos et al., Eingereicht) gefolgt Novoalign. So können unsere vereinigt Sequenzierungs-Strategie erfolgreich zu skalieren auf größere mit steigenden Mengen an Ziel-Sequenz.
Keine Interessenskonflikte erklärt.
Diese Arbeit wurde von der Kinder-Discovery Institute Zuschuss MC-II-2006-1 (RDM und TED), der NIH Epigenetik Roadmap Zuschuss [1R01DA025744-01 und 3R01DA025744-02S1] (RDM und FLMV), U01AG023746 (SC), die Saigh unterstützt Foundation (FLMV und TED), 1K08CA140720-01A1 und Alex 'Lemonade Stand "A"-Award-Unterstützung (TED). Wir danken dem Access-Genome Technology Center in der Abteilung für Genetik an der Washington University School of Medicine um Hilfe bei der Genomanalyse. Das Zentrum wird teilweise durch NCI Cancer Center Support Grant # P30 CA91842 dem Siteman Cancer Center und von ICTS / CTSA Grant # UL1RR024992 aus dem NationalCenter for Research Resources (NCRR), eine Komponente von den National Institutes of Health (NIH) unterstützt wird, und NIH-Roadmap for Medical Research. Diese Publikation ist ausschließlich in der Verantwortung der Autoren und stellen nicht notwendigerweise die offizielle Meinung der NCRR oder NIH.
Name | Company | Catalog Number | Comments |
Reagenz Namen | Firma | Katalog-Nummer | Abschnitt |
PfuUltra High-Fidelity | Agilent | 600384 | 1,4 |
Betain | SIGMA | B2629 | 1,4 |
M13mp18 ssDNA-Vektor | NEB | N4040S | 1,5 |
pGEM-T Easy | Promega | A1360 | 1,5 |
T4 Polynukleotidkinase | NEB | M0201S | 2,2 |
T4-Ligase | NEB | M0202S | 2,2 |
Polyethylenglykol 8000 MW | SIGMA | P5413 | 2,2 |
Bioruptor Sonicator | Diagenode | UCD-200-TS | 2,3 |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten