Découverte de roman-fleuve de génomique soustractive

Kathryn C. Asalone; Megan M. Nelson; John R. Bracht

doi:10.3791/58877

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

Résumé
Résumé
Introduction
Protocole
Résultats
Discussion
Déclarations de divulgation
Remerciements
matériels
Références
Réimpressions et Autorisations

Résumé

Le but du présent protocole est d’utiliser une combinaison de calcul et de la recherche de banc pour trouver de nouvelles séquences qui ne peuvent être facilement séparés d’une séquence co purificatrice, qui peut-être n'être que partiellement connue.

Résumé

Soustractive génomique peut être utilisé dans des recherches dont le but est d’identifier la séquence d’un gène, protéine ou une région qui est incorporée dans un contexte plus large de génomique. Soustractive génomique permet à un chercheur d’isoler une séquence cible d’intérêt (T) en séquençage complet et en soustrayant les éléments génétiques connus (référence, R). La méthode peut être utilisée pour identifier de nouvelles séquences comme les mitochondries, chloroplastes, virus, ou cellules germinales restreinte de chromosomes et est particulièrement utile lorsque T ne peut pas être facilement isolé de R. commençant par les données génomiques complètes (R + T), la méthode utilise base locale alignement Search Tool (BLAST) contre une séquence de référence, ou séquences, pour supprimer les séquences connues correspondants (R), laissant derrière lui la cible (T). Pour la soustraction fonctionner au mieux, R doit être un projet relativement complet auquel il manque T. Depuis les séquences restantes après soustraction sont testés à travers quantitative Polymerase Chain Reaction (qPCR), R n’a pas besoin d’être terminés pour que la méthode fonctionne. Ici nous relions computational étapes avec des étapes expérimentales dans un cycle qui peut être itéré selon les besoins, séquentiellement, supprimant plusieurs séquences de référence et affiner la recherche de T. L’avantage de la génomique soustractive, c’est qu’une séquence complètement nouvelle cible soient reconnaissables même dans les cas où la purification physique est difficile, impossible ou coûteux. L’inconvénient de la méthode est trouver une référence appropriée pour la soustraction et obtenir T-positifs et négatifs des échantillons pour les tests de qPCR. Nous décrivons notre implémentation de la méthode dans l’identification du premier gène du chromosome germline restreints de zebra finch. Dans ce cas de filtrage informatique impliqué trois références (R), retirés dans l’ordre pendant trois cycles : un assemblage génomique incomplète et données génomiques brutes données transcriptomiques.

Introduction

Le but de cette méthode est d’identifier une nouvelle cible (T) séquence génomique, ADN ou ARN, d’un contexte génomique, ou d’une référence (R) (Figure 1). La méthode est plus utile si la cible ne peut pas être physiquement séparée, ou il serait coûteux de le faire. Seuls quelques organismes ont fini parfaitement génomes pour la soustraction, donc une innovation majeure de notre méthode est la combinaison de calcul et les méthodes de banc dans un cycle permettant aux chercheurs d’isoler les séquences cibles lorsque la référence est imparfaite, ou un projet génome d’un organisme non-modèle. À la fin d’un cycle, qPCR test sert à déterminer si la soustraction plus est nécessaire. Une séquence de candidat validé T montrera détection statistiquement supérieure dans les échantillons de T positifs connus de qPCR.

Incarnations de la méthode ont été mis en œuvre dans la découverte de nouvelles cibles de médicaments bactérienne qui n’ont pas d’hôte homologues¹^,²^,³^,⁴ et l’identification de nouveaux virus d’hôtes infectés⁵^,⁶. En plus de l’identification de T, la méthode peut améliorer r : nous avons récemment utilisé la méthode pour identifier des gènes manquants 936 du génome de référence zebra finch et un nouveau gène provenant d’une seule lignée germinale chromosome (T)⁷. La génomique soustractive est particulièrement précieuse lorsque T est susceptible d’être extrêmement divergentes de séquences connues, ou lorsque l’identité de T est largement indéfinie, comme dans le zebra finch germline restreints du chromosome⁷.

En n’exigeant ne pas une identification positive de T au préalable, un avantage majeur de génomique soustractive est qu’il est non biaisée. Dans une étude récente, Readhead et coll. ont examiné la relation entre la maladie d’Alzheimer et l’abondance viral dans quatre régions du cerveau. D’identification virale, Readhead et coll. a créé une base de données de 515 virus⁸, limitant sévèrement les agents viraux qui pourrait identifier leur étude. Soustractive génomique pourrait ont été utilisés pour comparer des bien-portants et génomes Alzheimer afin d’isoler les possibles nouveaux virus associés à la maladie, quelle que soit leur ressemblance à des agents infectieux connus. Bien qu’il y a 263 virus connus de ciblage de l’homme, on estime qu’environ 1,67 millions espèces virales non découvertes existent, avec 631 000-827 000 d'entre eux ayant un potentiel d’infecter les humains⁹.

Isolement des nouveaux virus est un domaine dans lequel soustractive génomique est particulièrement efficace, mais certaines études ne peut-être pas besoin d’une telle méthode rigoureuse. Par exemple, études, identification de nouveaux virus ont utilisé le séquençage haut débit impartial suivie par transcription inverse et BLASTx pour séquences virales⁵ ou enrichir des acides nucléiques viraux d’extraire et d’inverser transcrivent des séquences virales⁶. alors que ces études utilisées séquençage de novo et Assemblée, soustraction n’était pas utilisée parce que les séquences cibles ont été identifiés par le biais de BLAST. Si les virus étaient complètement nouveaux et non liées (ou lointainement apparentées) à d’autres virus, génomique soustractive aurait été une technique utile. L’avantage de la génomique soustractive est qu’on peuvent obtenir les séquences qui sont complètement nouveaux. Si le génome de l’organisme est connu, il peut déduire de quitter toutes les séquences virales. Par exemple, dans notre étude publiée nous avons isolé un roman-fleuve virale de zebra finch par la génomique soustractive, même s’il n’était pas notre intention originale⁷.

Soustractive génomique s’est avérée aussi utile dans l’identification des cibles de vaccin bactérien, motivés par l’augmentation impressionnante de la résistance aux antibiotiques¹^,²^,³^,⁴. Pour minimiser le risque de réaction auto-immune, chercheurs a réduit les cibles potentielles de vaccin en soustrayant toutes les protéines qui ont des homologues chez l’hôte humain. Une étude particulière, en regardant pseudotuberculosis Corynebacterium, jouée soustraction des génomes de vertébrés hôtes de plusieurs génomes bactériens pour s’assurer que cibles médicamenteuses possibles n’affecterait pas les protéines chez les hôtes conduisant à des effets secondaires ¹. le flux de travail de base de ces études est de télécharger le protéome bactérien, déterminer les protéines vitales, éliminer les protéines redondants, utiliser BLASTp pour isoler les protéines essentielles et BLASTp contre hôte proteome pour enlever toutes les protéines avec les homologues de l’hôte ¹ ^, ² ^, ³ ^, ⁴. dans ce cas, génomique soustractive assure que les vaccins mis au point n’auront pas d’effets hors cible dans l’hôte¹^,²^,³^,⁴.

Nous avons utilisé soustractive génomique pour identifier le premier gène codant pour des protéines sur un lignée germinale restreints du chromosome (GRC) (dans ce cas, T), qui se trouve dans germlines mais tissu pas somatique des deux sexes¹⁰. Avant cette étude, l’information seulement génomique qui savait sur la GRC était une région répétée¹¹. Assemblée de novo a été réalisée sur RNA séquencée à partir de tissus de l’ovaire et teste (R + T) de diamants mandarins adultes. L’élimination de calcul des séquences a été effectuée à l’aide de publiées somatique (muscle) génome sequence (R₁)¹², ses brute (Sanger) lire données (R₂) et un de transcriptome (R₃) somatique (cerveau)¹³. L’utilisation séquentielle de trois références est pilotée par le qPCR test à l’étape 5 de chaque cycle (Figure 2A), indiquant qu’il fallait un filtrage supplémentaire. Le gène α-SNAP découvert a été confirmé par qPCR d’ADN et d’ARN et clonage et séquençage. Nous montrons dans notre exemple que cette méthode est souple : il n’est pas tributaire de l’appariement des acides nucléiques (ADN vs RNA) et cette soustraction peut être effectuée avec des références (R) qui sont composent d’assemblées ou de lectures brutes.

Protocole

1. séquence de démarrage assembler de novo

Remarque : Toute séquence de génération (NGS) données peuvent servir, tant qu’un assembly peut être produit à partir de ces données. Les données d’entrée appropriées comprennent Illumina, PacBio, ou Oxford Nanopore lit assemblé dans un fichier de fasta. Pour concret, cette section décrit un assembly de base Illumina transcriptomique spécifique à l’étude de zebra finch, nous avons réalisé⁷; Toutefois, sachez que les spécificités varieront par projet. Pour notre exemple de projet, données brutes proviennent d’un MiSeq et environ 10 millions de lectures appariés ont été extraites de chaque échantillon.

Utilisez Trimmomatic 0,32¹⁴ pour enlever Illumina adaptateurs et bases de faible qualité. Sur la ligne de commande, entrez :
Java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz baseout - quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 leader : 3 fuite : 3 SLIDINGWINDOW:4:20 MINLEN:40
PEAR¹⁵ v. 0.9.6 permet de créer des lectures fusionnées de haute qualité de trimmomatic sortie jumelé lectures, en utilisant les paramètres par défaut. Sur la ligne de commande, entrez :
poire -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
Utilisation Reptile v. 1.1¹⁶ erreur-corriger les lectures issu de la poire. Suivez le protocole étape par étape décrit à¹⁷.
Utiliser la Trinité v. 2.4.0¹⁸ en mode par défaut pour assembler des séquences a été corrigés. Pour les bibliothèques de brin-spécifiques, utilisez paramètre - SS_lib_type. La sortie est un fichier de fasta (your_assembly.fasta). Sur la ligne de commande, entrez :
Trinity, fq--seqType--SS_lib_type FR – max_memory 10G-Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq à gauche de la sortie – quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10 à droite
Remarque : La sortie sera placée dans un nouveau répertoire, Trinity_output, et l’Assemblée sera nommée « Trinity.fasta », qui peuvent être renommés comme Your_assembly.fasta si vous le souhaitez. Voir le site de Trinity pour plus de détails : https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. faire sauter l’Assemblée contre la séquence de référence

Remarque : Utiliser cette étape lorsque la référence est un assembly soit long se lit comme Sanger ; Si elle est composée de crus Illumina lit, reportez-vous à l’étape 3 ci-dessous pour la cartographie des lectures à la requête. Toutes les étapes de l’explosion ont été réalisées avec la version 2.2.29+ si les commandes devraient fonctionner sur toute version récente de BLAST.

Faire une base de données de l’explosion de la séquence de référence (nucleotide_reference.fasta) sur la ligne de commande. Entrer dans la ligne de commande suivants :
makeblastdb - dbtype nucl-en nucleotide_reference.fasta-out nucleotide_reference.db
BLAST-match l’Assemblée de la requête (générée à l’étape 1) à la base de données de référence. Pour obtenir un fichier de sortie, utilisez [-out BLAST_results.txt] et pour générer des sorties tabulaires (requis pour les étapes ultérieures de traitement avec les scripts Python), utilisez [outfmt - 6]. Ces options peuvent être combinées dans n’importe quel ordre, pour un exemple complet est [blastn-interroger your_assembly.fasta - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si un paramètre de valeur e est souhaité, utilisez l’option de - evalue le nombre voulu, par exemple [evalue-1e-6]. Sachez toutefois que le cycle soustractif efficacement inverse l’evalue définissant comme décrit dans la discussion.
Pour rigueur accrue, utiliser les séquences protéiques de l’Assemblée que la requête BLAST avec traduit nucleotide BLAST (tBLASTn), qui effectue la traduction de la 6-chemin de la base de données (nucléotides). Cette méthode est recommandée pour la plupart des systèmes non-modèle, éviter le problème des annotations de protéines incomplètes.
1. S’assurer que le code génétique correct est sélectionné pour l’organisme étudié, à l’aide d’option - db_gencode. Pour obtenir les séquences de protéines pour la requête, exécutez la commande de TransDecoder.LongOrfs (du paquet de TransDecoder v. 3.0.1) afin d’identifier les cadres plus longue lecture ouverte de séquences requête assemblé. La commande est [TransDecoder.LongOrfs-t your_assembly.fasta] ; la sortie sera placée dans le répertoire appelé « transcripts.transdecoder_dir » et contienne un fichier nommé longest_orfs.pep contenant les séquences plus longues protéine de chaque séquence dans your_assembly.fasta.
2. Pour utiliser tBLASTn, exécutez la commande [tblastn-interroger longest_orfs.pep - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si une référence de protéines de haute qualité est disponible, utiliser les protéines correspondant avec BLASTp plutôt que tBLASTn.
3. Faire une base de données de l’explosion de la référence de protéine [makeblastdb - dbtype prot-en protein_reference.fasta-out protein_reference.db] puis [blastp-interroger longest_orfs.pep - db protein_reference.db-out BLAST_results.txt - outfmt 6]. N’oubliez pas d’enregistrer les résultats dans un fichier de transformation en aval et tabulaire (outfmt 6) permet de s’assurer que les scripts Python peuvent les analyser correctement.

3. carte se lit sur l’ensemble

Remarque : Cette méthode peut être utilisée si le dataset de référence est constitué de lectures brutes de génomiques, plutôt que les séquences assemblées ou séquences de Sanger, dans quel cas, utilisez BLAST (étape 2.1).

À l’aide de BWA-MEM c. 0.7.12²⁰¹⁹ ou bowtie2, mapper les lectures brutes téléchargées (raw_reads.fastq) sur l’ensemble de la requête. La sortie sera .sam format. Commandes sont les suivantes : tout d’abord l’index l’Assemblée : [bwa index your_assembly.fasta], puis mappez-la sur le lit [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Remarque le ' >' symbole ici n’est pas un supérieur-que de signer ; au lieu de cela, il indique à la sortie pour aller dans le fichier mapped.sam).

4. utiliser un Script Python pour supprimer toute séquence correspondant

NOTE : Doté de travail scripts Python 2.7.

Après l’étape 2, utilisez soustractive Python script en utilisant la commande [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Avant d’exécuter le script, assurez-vous que le fichier de sortie BLAST est au format 6 (tabulaire). Le script va afficher un fichier avec des séquences non correspondantes au format fasta nommé your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta et aussi la correspondance séquences pour les enregistrements, comme your_assembly.fasta_matching_sequences_BLAST_ results.txt.FASTA. la non correspondance fichier sera le plus important, comme une source de potentiels séquences T pour les tests et autres cycles de génomique soustractive.
Après l’étape 3, exécutez le removeUnmapped.py de script Python de prendre comme entrée la .sam étape 3.1 et identifie les noms des séquences de la requête sans aucune contreparties lectures et enregistre dans un fichier texte. Utilisez la commande [./removeUnmapped.py mapped.sam] et la sortie sera mapped.sam_contigs_with_no_reads.txt. (Le programme va générer un fichier de sam allégée avec des lectures tout non mappés enlevés, ce fichier peut être ignoré pour les fins du présent protocole, mais peut-être être utile pour d’autres analyses).
Comme la sortie de l’étape précédente est une liste de noms de séquence dans un fichier texte appelé mapped.sam_contigs_with_no_reads.txt, extraire un fichier de fasta avec ces séquences : [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. La sortie sera un fichier appelé mapped.sam_contigs_with_no_reads.txt.fasta.

5. conception des amorces pour la séquence qui reste

Remarque : À ce stade il y a un fichier de fasta contenant des séquences de candidat T. Cette section décrit qPCR de tester expérimentalement qu’ils viennent de T ou de régions jusque-là inconnues du R. Si la soustraction à l’étape 4 supprimé toutes les séquences, puis l’Assemblée initiale n’a pas inclus de T, ou la soustraction peut avoir été trop sévère.

Geneious²¹ permet de déterminer manuellement les séquences d’amorces optimale.
1. Mettez en surbrillance une séquence de candidat de 21-28 bp pour l’amorce vers l’avant. Éviter les séries de 4 ou plus de n’importe quelle base. Essayez de cibler une région avec une combinaison assez uniforme de tous les basepairs. Un seul G ou C à l’extrémité 3' est bénéfique, contribue à ancrer l’apprêt.
2. Cliquez sur l’onglet statistiques sur la partie droite de l’écran pour visualiser cette séquence estimée à température de fusion (Tm) comme le souligne la région candidate. Coup d’oeil d’obtenir une température de fusion entre 55 et 60 ° C, tout en évitant les répétitions et longues séries de G/C.
3. Suivez les étapes 5.1.1. et 5.1.2 de choisir une amorce de marche arrière, situé 150-250 paires de bases 3' de l’amorce vers l’avant. Alors que les longueurs d’apprêt n’avez pas besoin de faire correspondre, le Tm prévu devrait être aussi proche que possible de la Tm de l’amorce vers l’avant. N’oubliez pas d’inverser la séquence de complément (si un clic-droit dans Geneious tandis que la séquence est mis en évidence c’est une option de menu).
Utilisez la fonction de Conception d’amorce , qui se trouve dans la barre d’outils supérieure dans la fenêtre de la séquence.
1. Cliquez sur le bouton Conception d’amorce . Insérer la région pour amplifier sous Région cible.
2. Sous l’onglet caractéristiques , insérer la taille désirée, température de fusion (Tm) et % GC (voir l’étape 5.1.1).
3. Cliquez sur OK pour avoir généré des amorces. Commander les amorces à travers un service personnalisé oligo.
Valider des amorces avec contrôle ADN (encodage fois r et T) afin d’optimiser les temps Tm et extension. Utilisation régulière Taq et électrophorèse sur gel pour voir la taille de la bande, mais optimisation peut également être effectuée avec le qPCR suivant les méthodes à l’étape 6.
1. Préparer des dilutions de X 10 d’amorces et inverses afin que les amorces ont une concentration de 10 μM.
2. Utilisez un mélange PCR de 0,5 μL de dNTP, 0,5 μL d’apprêt avant, 0,5 μL d’apprêt inverse, 0,1 μL de la Taq polymérase, 2 μL de modèle, 0.75 μL de magnésium, 2,5 μL de tampon et 18.15 μL d’eau de sorte qu’il y a 25 μL / modèle avec une concentration de 5 ng / ΜL.
3. Tester les amorces à différentes températures de fusion dans le programme de la PCR. Une performance optimale est généralement fonte observée des températures légèrement sous le Tm prédit des amorces, mais généralement pas au-dessus de 60 ° C. Aussi tester pour extension optimale fois à l’aide de ce guide : 1 min par 1000 bp (ainsi, habituellement de 10 à 30 secondes selon la longueur de l’amplicon).
4. Effectuer l’électrophorèse sur gel point final pour confirmer que les amorces amplifient la séquence prévue. Courir 25 μL du produit qPCR mélangé à 5 μL de 6 X teinture de glycérol sur un gel d’agarose TAE 2 % à 200 V pendant 20 min.

6. qPCR Validation de la séquence restants

Remarque : Cette étape nécessite des amorces validés et des conditions d’amplification créées à l’étape 5.

Exécuter chaque modèle en trois exemplaires, avec le mélange suivant ; 12,5 μL du mélange maître PowerSYBR Green, 0,5 μL d’apprêt avant, avec une concentration de 10 μM, 0,5 μL d’apprêt inverse avec une concentration de 10 μM, 10,5 μL d’eau et 1 μL de modèle ADN (à une concentration de 2 ng/μL) , afin que chacun contient bien 25 μL de volume total.
Exécuter un programme de qPCR informé par la température validée et la prorogation de délai de l’étape 4. Nous avons conçu et validé tous les apprêts pour être compatible avec un cycle de deux étages, 95 ° C pendant 10 min la fonte initiale, puis 40 cycles de 95 ° C pendant 30 s et 60 ° C pendant 1 min. Toutefois, un programme (fonte-recuit-étendre) de trois étapes peut-être être plus optimal pour les amorces et devrait être adapté si nécessaire. Nous recommandons que des courbes de dénaturation finales généré au moins la première fois que les amorces sont employés en qPCR pour valider l’amplification d’un seul produit de l’ADN.
Mesure qPCR/SYBR Green signale par rapport à l’actine (ou tout autre contrôle approprié « R ») par la Cour provinciale pour tous les cas calculeront la moyenne et l’écart type de 2^{-(gène Ct - β-actine Ct)}.
(Facultatif) Effectuer l’électrophorèse sur gel point final pour confirmer la détection de taille correcte du produit de qPCR. Ici, exécutez 25 μL du produit qPCR mélangé à 5 μL de 6 x teinture de glycérol sur un gel d’agarose TAE 2 % à 200 V pendant 20 min.

7. Répétez avec une nouvelle référence à Pare les données.

Remarque : Si l’étape6 validé les séquences identifiées de T, mettre fin au cycle ici (Figure 2A). Cependant, diverses considérations peuvent motiver une continuation du cycle, par exemple, si plusieurs séquences de R restent dans le fichier, ou si aucun des séquences candidat T ont été validés par qPCR à l’étape 6.

Obtenir une nouvelle référence. Cette étape permet une nouvelle itération du cycle et peut-être inclure des données génomiques brutes, les données brutes de RNA-seq ou autres ensembles assemblés. Des ressources précieuses pour les données de référence incluent la base de données de génome du National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) qui stocke assemblé génomes accessibles via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), et l’Omnibus de Expression de gène (https://www.ncbi.nlm.nih.gov/geo/) où sont stockés les lectures de séquence brute de prochaine génération. Projets de génome peuvent fournir leurs données de séquence brute à travers d’autres sites Web associés au projet et les bases de données.

Résultats

Après l’exécution de BLAST, le fichier de sortie aura une liste de séquences de la requête qui correspond à la base de données. Après soustraction de Python, un certain nombre de séquences non correspondantes est obtenu et testé par qPCR. Les résultats du présent et les prochaines étapes, sont examinés ci-dessous.

Résultat négatif. Il y a deux résultats négatifs possibles qui peuvent être vus...

Discussion

Tandis que la génomique soustractive est puissante, il n’est pas une approche d’emporte-pièce, nécessitant une personnalisation à plusieurs étapes clés et une sélection rigoureuse des séquences de référence et des échantillons pour essai. Si l’assembly de la requête est de mauvaise qualité, des mesures de filtrage pourrait isoler seulement artefacts de l’Assemblée. Par conséquent, il est important de valider complètement l’assembly en reprenant à l’aide d’un protocole de validation...

Déclarations de divulgation

Les auteurs n’ont rien à divulguer.

Remerciements

Les auteurs reconnaissent Michelle Biederman, Alyssa Pedersen et Colin J. Saldanha pour leur aide avec le projet de génomique de zebra finch à divers stades. Nous remercions également Evgeny Boivin au calcul d’administration système de cluster et NIH grant 1K22CA184297 (pour J.R.B.) et 042767 NS NIH (à C.J.S).

matériels

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki

Références

Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Num ro 143 soustraction g nomique g n tique qPCR lecture BLAST Python cartographie Assembl e De novo conception d amorce

This article has been published

Video Coming Soon

Keep me updated: