Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Method Article
Le but du présent protocole est d’utiliser une combinaison de calcul et de la recherche de banc pour trouver de nouvelles séquences qui ne peuvent être facilement séparés d’une séquence co purificatrice, qui peut-être n'être que partiellement connue.
Soustractive génomique peut être utilisé dans des recherches dont le but est d’identifier la séquence d’un gène, protéine ou une région qui est incorporée dans un contexte plus large de génomique. Soustractive génomique permet à un chercheur d’isoler une séquence cible d’intérêt (T) en séquençage complet et en soustrayant les éléments génétiques connus (référence, R). La méthode peut être utilisée pour identifier de nouvelles séquences comme les mitochondries, chloroplastes, virus, ou cellules germinales restreinte de chromosomes et est particulièrement utile lorsque T ne peut pas être facilement isolé de R. commençant par les données génomiques complètes (R + T), la méthode utilise base locale alignement Search Tool (BLAST) contre une séquence de référence, ou séquences, pour supprimer les séquences connues correspondants (R), laissant derrière lui la cible (T). Pour la soustraction fonctionner au mieux, R doit être un projet relativement complet auquel il manque T. Depuis les séquences restantes après soustraction sont testés à travers quantitative Polymerase Chain Reaction (qPCR), R n’a pas besoin d’être terminés pour que la méthode fonctionne. Ici nous relions computational étapes avec des étapes expérimentales dans un cycle qui peut être itéré selon les besoins, séquentiellement, supprimant plusieurs séquences de référence et affiner la recherche de T. L’avantage de la génomique soustractive, c’est qu’une séquence complètement nouvelle cible soient reconnaissables même dans les cas où la purification physique est difficile, impossible ou coûteux. L’inconvénient de la méthode est trouver une référence appropriée pour la soustraction et obtenir T-positifs et négatifs des échantillons pour les tests de qPCR. Nous décrivons notre implémentation de la méthode dans l’identification du premier gène du chromosome germline restreints de zebra finch. Dans ce cas de filtrage informatique impliqué trois références (R), retirés dans l’ordre pendant trois cycles : un assemblage génomique incomplète et données génomiques brutes données transcriptomiques.
Le but de cette méthode est d’identifier une nouvelle cible (T) séquence génomique, ADN ou ARN, d’un contexte génomique, ou d’une référence (R) (Figure 1). La méthode est plus utile si la cible ne peut pas être physiquement séparée, ou il serait coûteux de le faire. Seuls quelques organismes ont fini parfaitement génomes pour la soustraction, donc une innovation majeure de notre méthode est la combinaison de calcul et les méthodes de banc dans un cycle permettant aux chercheurs d’isoler les séquences cibles lorsque la référence est imparfaite, ou un projet génome d’un organisme non-modèle. À la fin d’un cycle, qPCR test sert à déterminer si la soustraction plus est nécessaire. Une séquence de candidat validé T montrera détection statistiquement supérieure dans les échantillons de T positifs connus de qPCR.
Incarnations de la méthode ont été mis en œuvre dans la découverte de nouvelles cibles de médicaments bactérienne qui n’ont pas d’hôte homologues1,2,3,4 et l’identification de nouveaux virus d’hôtes infectés 5,6. En plus de l’identification de T, la méthode peut améliorer r : nous avons récemment utilisé la méthode pour identifier des gènes manquants 936 du génome de référence zebra finch et un nouveau gène provenant d’une seule lignée germinale chromosome (T)7. La génomique soustractive est particulièrement précieuse lorsque T est susceptible d’être extrêmement divergentes de séquences connues, ou lorsque l’identité de T est largement indéfinie, comme dans le zebra finch germline restreints du chromosome7.
En n’exigeant ne pas une identification positive de T au préalable, un avantage majeur de génomique soustractive est qu’il est non biaisée. Dans une étude récente, Readhead et coll. ont examiné la relation entre la maladie d’Alzheimer et l’abondance viral dans quatre régions du cerveau. D’identification virale, Readhead et coll. a créé une base de données de 515 virus8, limitant sévèrement les agents viraux qui pourrait identifier leur étude. Soustractive génomique pourrait ont été utilisés pour comparer des bien-portants et génomes Alzheimer afin d’isoler les possibles nouveaux virus associés à la maladie, quelle que soit leur ressemblance à des agents infectieux connus. Bien qu’il y a 263 virus connus de ciblage de l’homme, on estime qu’environ 1,67 millions espèces virales non découvertes existent, avec 631 000-827 000 d'entre eux ayant un potentiel d’infecter les humains9.
Isolement des nouveaux virus est un domaine dans lequel soustractive génomique est particulièrement efficace, mais certaines études ne peut-être pas besoin d’une telle méthode rigoureuse. Par exemple, études, identification de nouveaux virus ont utilisé le séquençage haut débit impartial suivie par transcription inverse et BLASTx pour séquences virales5 ou enrichir des acides nucléiques viraux d’extraire et d’inverser transcrivent des séquences virales 6. alors que ces études utilisées séquençage de novo et Assemblée, soustraction n’était pas utilisée parce que les séquences cibles ont été identifiés par le biais de BLAST. Si les virus étaient complètement nouveaux et non liées (ou lointainement apparentées) à d’autres virus, génomique soustractive aurait été une technique utile. L’avantage de la génomique soustractive est qu’on peuvent obtenir les séquences qui sont complètement nouveaux. Si le génome de l’organisme est connu, il peut déduire de quitter toutes les séquences virales. Par exemple, dans notre étude publiée nous avons isolé un roman-fleuve virale de zebra finch par la génomique soustractive, même s’il n’était pas notre intention originale7.
Soustractive génomique s’est avérée aussi utile dans l’identification des cibles de vaccin bactérien, motivés par l’augmentation impressionnante de la résistance aux antibiotiques1,2,3,4. Pour minimiser le risque de réaction auto-immune, chercheurs a réduit les cibles potentielles de vaccin en soustrayant toutes les protéines qui ont des homologues chez l’hôte humain. Une étude particulière, en regardant pseudotuberculosis Corynebacterium, jouée soustraction des génomes de vertébrés hôtes de plusieurs génomes bactériens pour s’assurer que cibles médicamenteuses possibles n’affecterait pas les protéines chez les hôtes conduisant à des effets secondaires 1. le flux de travail de base de ces études est de télécharger le protéome bactérien, déterminer les protéines vitales, éliminer les protéines redondants, utiliser BLASTp pour isoler les protéines essentielles et BLASTp contre hôte proteome pour enlever toutes les protéines avec les homologues de l’hôte 1 , 2 , 3 , 4. dans ce cas, génomique soustractive assure que les vaccins mis au point n’auront pas d’effets hors cible dans l’hôte1,2,3,4.
Nous avons utilisé soustractive génomique pour identifier le premier gène codant pour des protéines sur un lignée germinale restreints du chromosome (GRC) (dans ce cas, T), qui se trouve dans germlines mais tissu pas somatique des deux sexes10. Avant cette étude, l’information seulement génomique qui savait sur la GRC était une région répétée11. Assemblée de novo a été réalisée sur RNA séquencée à partir de tissus de l’ovaire et teste (R + T) de diamants mandarins adultes. L’élimination de calcul des séquences a été effectuée à l’aide de publiées somatique (muscle) génome sequence (R1)12, ses brute (Sanger) lire données (R2) et un de transcriptome (R3) somatique (cerveau)13. L’utilisation séquentielle de trois références est pilotée par le qPCR test à l’étape 5 de chaque cycle (Figure 2A), indiquant qu’il fallait un filtrage supplémentaire. Le gène α-SNAP découvert a été confirmé par qPCR d’ADN et d’ARN et clonage et séquençage. Nous montrons dans notre exemple que cette méthode est souple : il n’est pas tributaire de l’appariement des acides nucléiques (ADN vs RNA) et cette soustraction peut être effectuée avec des références (R) qui sont composent d’assemblées ou de lectures brutes.
1. séquence de démarrage assembler de novo
Remarque : Toute séquence de génération (NGS) données peuvent servir, tant qu’un assembly peut être produit à partir de ces données. Les données d’entrée appropriées comprennent Illumina, PacBio, ou Oxford Nanopore lit assemblé dans un fichier de fasta. Pour concret, cette section décrit un assembly de base Illumina transcriptomique spécifique à l’étude de zebra finch, nous avons réalisé7; Toutefois, sachez que les spécificités varieront par projet. Pour notre exemple de projet, données brutes proviennent d’un MiSeq et environ 10 millions de lectures appariés ont été extraites de chaque échantillon.
2. faire sauter l’Assemblée contre la séquence de référence
Remarque : Utiliser cette étape lorsque la référence est un assembly soit long se lit comme Sanger ; Si elle est composée de crus Illumina lit, reportez-vous à l’étape 3 ci-dessous pour la cartographie des lectures à la requête. Toutes les étapes de l’explosion ont été réalisées avec la version 2.2.29+ si les commandes devraient fonctionner sur toute version récente de BLAST.
3. carte se lit sur l’ensemble
Remarque : Cette méthode peut être utilisée si le dataset de référence est constitué de lectures brutes de génomiques, plutôt que les séquences assemblées ou séquences de Sanger, dans quel cas, utilisez BLAST (étape 2.1).
4. utiliser un Script Python pour supprimer toute séquence correspondant
NOTE : Doté de travail scripts Python 2.7.
5. conception des amorces pour la séquence qui reste
Remarque : À ce stade il y a un fichier de fasta contenant des séquences de candidat T. Cette section décrit qPCR de tester expérimentalement qu’ils viennent de T ou de régions jusque-là inconnues du R. Si la soustraction à l’étape 4 supprimé toutes les séquences, puis l’Assemblée initiale n’a pas inclus de T, ou la soustraction peut avoir été trop sévère.
6. qPCR Validation de la séquence restants
Remarque : Cette étape nécessite des amorces validés et des conditions d’amplification créées à l’étape 5.
7. Répétez avec une nouvelle référence à Pare les données.
Remarque : Si l’étape6 validé les séquences identifiées de T, mettre fin au cycle ici (Figure 2A). Cependant, diverses considérations peuvent motiver une continuation du cycle, par exemple, si plusieurs séquences de R restent dans le fichier, ou si aucun des séquences candidat T ont été validés par qPCR à l’étape 6.
Après l’exécution de BLAST, le fichier de sortie aura une liste de séquences de la requête qui correspond à la base de données. Après soustraction de Python, un certain nombre de séquences non correspondantes est obtenu et testé par qPCR. Les résultats du présent et les prochaines étapes, sont examinés ci-dessous.
Résultat négatif. Il y a deux résultats négatifs possibles qui peuvent être vus...
Tandis que la génomique soustractive est puissante, il n’est pas une approche d’emporte-pièce, nécessitant une personnalisation à plusieurs étapes clés et une sélection rigoureuse des séquences de référence et des échantillons pour essai. Si l’assembly de la requête est de mauvaise qualité, des mesures de filtrage pourrait isoler seulement artefacts de l’Assemblée. Par conséquent, il est important de valider complètement l’assembly en reprenant à l’aide d’un protocole de validation...
Les auteurs n’ont rien à divulguer.
Les auteurs reconnaissent Michelle Biederman, Alyssa Pedersen et Colin J. Saldanha pour leur aide avec le projet de génomique de zebra finch à divers stades. Nous remercions également Evgeny Boivin au calcul d’administration système de cluster et NIH grant 1K22CA184297 (pour J.R.B.) et 042767 NS NIH (à C.J.S).
Name | Company | Catalog Number | Comments |
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon