Method Article
Séquençage de l'ADN groupé est une stratégie rapide et rentable de détecter les variants rares associés à des phénotypes complexes dans de grandes cohortes. Nous décrivons ici l'analyse computationnelle de mise en commun, séquençage de prochaine génération de 32 gènes liés au cancer en utilisant le logiciel SPLINTER. Cette méthode est évolutive, et applicable à tout phénotype d'intérêt.
Comme la technologie de séquençage d'ADN a nettement progressé ces dernières années 2, il est devenu de plus en plus évident que le montant de la variation génétique entre deux individus quelconques est supérieure qu'on ne le pensait 3. En revanche, basée sur la baie de génotypage n'a pas réussi à identifier une contribution significative de variantes de séquences communes à la variabilité phénotypique de la maladie commune 4,5. Pris ensemble, ces observations ont conduit à l'évolution de la maladie commune / hypothèse variante rare ce qui suggère que la majorité de la «héritabilité manquant» dans phénotypes communs et complexe est plutôt due à profil personnel d'un individu de variants d'ADN rares ou privé 6-8 . Toutefois, caractériser la manière dont la variation influe rares phénotypes complexes nécessite l'analyse de nombreuses personnes touchées à de nombreux loci génomiques, et est idéalement par rapport à une enquête similaire dans une cohorte affectée. Malgré la puissance offerte par les plates-formes de séquençage d'aujourd'hui, unbasée sur la population des loci génomiques de nombreux et l'analyse subséquente de calcul nécessaire reste prohibitif pour de nombreux chercheurs.
Pour répondre à ce besoin, nous avons développé une approche de séquençage en commun 1,9 et un paquet de nouveaux logiciels de détection de 1 pour la variante haute précision rare à partir des données qui en résultent. La capacité de génomes piscine à partir des populations entières de personnes touchées et de l'enquête du degré de variation génétique au niveau de plusieurs régions ciblées dans une bibliothèque de séquençage simple offre d'excellentes économies de temps et à la méthodologie de séquençage traditionnel échantillon unique. Avec une couverture moyenne par séquençage de l'allèle de 25 fois, notre algorithme personnalisé, SPLINTER, utilise une stratégie de variante de contrôle interne appelant à appeler des insertions, des suppressions et les substitutions jusqu'à quatre paires de bases en longueur avec une grande sensibilité et la spécificité de piscines allant jusqu'à 1 allèle mutant dans 500 individus. Nous décrivons ici la méthode pour la préparation de la mise en commun sequencing bibliothèque suivie d'une étape-par-étape sur la façon d'utiliser le package SPLINTER pour l'analyse de séquençage en commun ( http://www.ibridgenetwork.org/wustl/splinter ). Nous montrons une comparaison entre le séquençage commun de 947 personnes, qui ont tous également subi l'échelle du génome tableau, à plus de 20kb de séquençage par personne. Concordance entre le génotypage de marquage et de nouveaux variants appelés dans l'échantillon cumulé étaient excellents. Cette méthode peut être facilement mise à l'échelle jusqu'à un certain nombre de loci génomiques et n'importe quel nombre de personnes. En intégrant les contrôles internes amplicons positifs et négatifs à des taux qui imitent la population à l'étude, l'algorithme peut être calibré pour des performances optimales. Cette stratégie peut également être modifié pour une utilisation avec la capture d'hybridation ou spécifiques à l'individu des codes à barres et peut être appliquée au séquençage d'échantillons naturellement hétérogènes, tels que l'ADN tumoral.
Cette méthode a été utilisée dans la recherche rapportés dans Vallania FML et al recherche. Génome 2010.
1. Exemple de mise en commun et de capture de PCR de loci génomiques ciblées
2. Pooled Préparation Bibliothèque PCR et séquençage
3. Séquençage Lit alignement et de l'analyse
4. Détection variante rare Utilisation SPLINTER
5. Les résultats représentatifs
Nous avons regroupé une population de 947 individus et ciblée de plus de 20 ko pour le séquençage. Nous avons appliqué SPLINTER pour la détection de variants rares à la suite de notre protocole standard. Chaque individu avait déjà avait génotypage effectué par l'ensemble du génome génotypage tableau. Concordance entre le génotypage de marquage et de nouveaux variants appelés dans l'échantillon cumulé étaient excellents (Figure 6). Trois variantes, dont deux (rs3822343 et rs3776110) étaient rares dans la population, ont été appelés de novo à partir des résultats de séquençage et ont été validés par pyroséquençage individuelle. La fréquence des allèles mineurs (CRG) dans la piscine étaient semblables au CRG rapporté dans dbSNP build 129. La concordance entre les CRG pyroséquençage et le séquençage en commun était excellente (Tableau 3).
Tableau 1. Séquences oligonucléotidiques d'ADN pour le contrôle positif. Chaque séquence se compose d'un fragment d'ADN différente de la référence de type sauvage soit par deux substitutions ou une insertion et une suppression. Cliquez ici pour agrandir l'image .
Tableau 2. Exemple de sortie SPLINTER. Les deux premières lignes représentent la sortie SPLINTER standard pour une substitution ou une délétion (en-tête bleu). La dernière ligne représente la sortie standard pour SPLINTER une insertion (en-tête violet).rget = "_blank"> Cliquez ici pour agrandir l'image.
Tableau 3. Cinq connu et trois nouveaux variants ont été identifiés à partir de grandes populations et validés par génotypage individuel. Validation individuelle a été réalisée par pyroséquençage (lignes 1-3), Taqman (lignes 4-6) ou de séquençage Sanger (lignes 7,8). Pour une large gamme de fréquences des allèles et dont cinq positions avec CRG <1%, la concordance entre l'estimation allèle commun fréquence séquençage et de génotypage individuel a été forte. Positions marquées d'un astérisque (*) sont adaptés à partir de données antérieurement déclarées 9.
Figure 1. Pooled-séquençage de l'ADN et l'analyse aperçu SPLINTER. L'ADN du patient est mis en communet amplifié à des loci sélectionnés. Les produits finaux de PCR sont regroupés avec un contrôle positif et négatif à des rapports équimolaires. Le mélange est mis en commun puis séquencés et les lectures qui en résulte sont mappés à leur référence. Mappé lectures témoin négatif sont utilisés pour générer un modèle d'erreur d'exécution spécifique. SPLINTER peut alors être utilisé pour détecter les SNP rare et indels en intégrant l'information à partir du modèle d'erreur et le contrôle positif. [Adapté de Vallania FLM et al, Genome Research 2010] Cliquez ici pour agrandir l'image .
Figure 2. Ligature Pooled amplicon PCR et sonication. Comme une démonstration de la ligature et la fragmentation des mesures aléatoires dans le protocole de préparation bibliothèque, vecteur pUC19 a été une digestion enzymatique pour les fragments indiqués dans la voie 2. Ces fragments ont été normabilisées par le nombre molécule, combinée au hasard et ligaturé selon l'étape 1.7 ci-dessus. Les concatémères résultant grandes sont présentés dans le couloir 3. Les concatémères ligaturées étaient également divisés et soumis à sonication comme décrit à l'étape 1.8 ci-dessus. Le frottis résultant de fragments d'ADN pour chaque répétition technique sont présentés dans les couloirs 4 et 5. Le support met en lumière la gamme de taille utilisé pour l'extraction de gel et de création de bibliothèques de séquençage.
Figure 3. Précision en fonction de la couverture pour un seul allèle dans un groupe d'échantillons. La précision est estimée comme l'aire sous la courbe (ASC) d'une courbe Receiver Operator (ROC), qui varie de 0,5 (au hasard) à 1,0 (la précision parfaite). ASC est tracée en fonction de la couverture par allèle pour la détection des allèles mutants simples dans les piscines d'allèles 200, 500 et 1000 (A). ASC est tracée en fonction de la couverture totale pour les substitutions, insertions et deletions (B). [Adapté de Vallania FLM et al, Genome Research 2010].
Figure 4. Terrain d'erreur indique la probabilité d'intégrer une base erronée à une position donnée. Le profil d'erreur montre les taux d'erreur faible avec une tendance croissante vers l'extrémité 3 'du séquençage lire. Notamment, les nucléotides de référence différentes d'afficher les probabilités d'erreur différents (voir par exemple la probabilité d'intégrer une donnée C un G comme référence). [Adapté de Vallania FLM et al, Genome Research 2010].
Figure 5. Précision de SPLINTER dans l'estimation de la fréquence des allèles pour les postes qui avaient une couverture supérieure à 25 fois par allèle. Basé sur les résultats dans le Panneau de A, Figure 3, montrant une sensibilité optimale pour la détection seule variante avec ≥ 25 fois la couverture, uncomparaison entre la fréquence des allèles en commun d'ADN-estimés par SPLINTER avec les chiffres mesurés par les résultats des allèles GWAS en très forte corrélation (r = 0,999). [Adapté de Vallania FLM et al, Genome Research 2010].
Figure 6. Comparaison entre la fréquence des allèles mesurées par rapport aux estimations GWAS éclat de séquençage en commun de 974 personnes. Il y avait 19 positions communes entre les loci génotypés et les régions de séquences pour la comparaison. La corrélation obtenue est très élevée (r = 0,99538). Cliquez ici pour agrandir la figure .
Il ya des preuves croissantes que l'incidence et la réponse thérapeutique des communes, des phénotypes complexes et des maladies comme l'obésité 8, l'hypercholestérolémie 4, 7 et l'hypertension que d'autres peuvent être animée par des profils personnels de variation rare. Identifier les gènes et les voies où ces variantes globales dans les populations touchées ont de profondes implications diagnostiques et thérapeutiques, mais l'analyse les personnes touchées séparément peut prendre du temps et de coûts prohibitifs. Basée sur la population d'analyse offre une méthode plus efficace pour l'arpentage variation génétique à des loci multiples.
Nous présentons une nouvelle mise en commun d'ADN protocole de séquençage jumelé avec le logiciel SPLINTER conçu pour identifier ce type de variation génétique entre les populations. Nous démontrons l'exactitude de cette méthode dans l'identification et la quantification des allèles mineurs au sein d'une population importante mise en commun de 947 personnes, y compris les variantes rares qui étaientappelé de novo à partir du séquençage commun et validé par pyroséquençage individuelle. Notre stratégie se différencie principalement de protocoles autres par l'incorporation d'un positif et un contrôle négatif au sein de chaque expérience. Cela permet d'atteindre une précision SPLINTER beaucoup plus élevé et la puissance par rapport à d'autres approches 1. La couverture optimale de 25 fois par allèle est fixé indépendamment de la taille de la piscine, faisant l'analyse de grands bassins possible que cette condition que les échelles de façon linéaire avec la taille du pool. Notre approche est très flexible et peut être appliquée à n'importe quel phénotype d'intérêt, mais aussi à des échantillons qui sont naturellement hétérogènes, tels que des populations de cellules mixtes et des biopsies tumorales. Compte tenu de l'intérêt sans cesse croissant dans le séquençage de mise en commun des régions cibles importantes telles que la exome ou du génome, notre préparation bibliothèque et de l'analyse SPLINTER est compatible avec mesure de capture et l'ensemble de exome séquençage, mais l'utilité d'alignement dans le paquet SPLINTER n'était pas conçu pour grandséquences de références. Par conséquent, nous avons utilisé avec succès l'alignement de la programmation dynamique, Novoalign, pour l'ensemble du génome alignements suivies par la variante d'appel de l'échantillon global (Ramos et al., Soumis). Ainsi, notre stratégie de séquençage en commun peut évoluer avec succès à de plus grandes piscines avec des quantités croissantes de la séquence cible.
Pas de conflits d'intérêt déclarés.
Ce travail a été financée par la subvention des enfants Discovery Institute MC-II-2006-1 (RDM et TED), le NIH épigénétique feuille de route de subvention [1R01DA025744-01 et 3R01DA025744-02S1] (RDM et FLMV), U01AG023746 (SC), le Saigh Fondation (FLMV et TED), 1K08CA140720-01A1 et Lemonade Alex Stand "Une" de soutien Prix (TED). Nous remercions le Centre d'accès Genome Technology dans le département de génétique de l'Université de Washington School of Medicine de l'aide pour l'analyse génomique. Le Centre est financé en partie par le NCI Cancer Support Centre Grant # P30 CA91842 au Centre du cancer Siteman et par ICTS / CSTC Grant # UL1RR024992 de la NationalCenter des ressources de recherche (NCRR), une composante de la National Institutes of Health (NIH), et NIH Roadmap for Medical Research. Cette publication est la seule responsabilité de leurs auteurs et ne représentent pas nécessairement l'opinion officielle de NCRR ou NIH.
Name | Company | Catalog Number | Comments |
Nom réactif | Entreprise | Numéro de catalogue | Section |
PfuUltra Haute Fidélité | Agilent | 600384 | 1.4 |
La bétaïne | SIGMA | B2629 | 1.4 |
M13mp18 ADNsb vecteur | ONÉ | N4040S | 1.5 |
pGEM-T Easy | Promega | A1360 | 1.5 |
T4 polynucléotide kinase | ONÉ | M0201S | 2.2 |
Ligase T4 | ONÉ | M0202S | 2.2 |
Polyéthylène glycol 8000 MW | SIGMA | P5413 | 2.2 |
Sonicateur Bioruptor | Diagenode | UCD-200-TS | 2.3 |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon