Notre protocole est significatif parce qu’il peut être utilisé pour identifier des séquences génomiques qui ne peuvent pas être isolées des séquences de co-purification, qui peuvent elles-mêmes seulement être partiellement connues. Les principaux avantages de cette technique est qu’il est peu coûteux, en utilisant principalement des logiciels libres qui peuvent être téléchargés ainsi que flexible. Vous pouvez l’appliquer à de nombreuses questions biologiques.
Les applications potentielles incluent l’identification de cibles vaccinale bactériennes et l’identification de virus dont les séquences sont extrêmement différentes des microbes connus. Cette méthode peut être appliquée à n’importe quel système dans lequel l’inconnu ne peut pas être séparé expérimentalement, tant que la séquence de référence sans la cible génomique est disponible. Cette technique demande des essais et des erreurs, donc la patience est importante.
Vous devrez peut-être difficulté à tirer sur les programmes. Vous pouvez utiliser des programmes différents de ceux que nous décrivons ici. Utilisez autant que possible les manuels d’utilisation.
La démonstration visuelle de cette méthode est utile parce que le travail de calcul dépend d’une compréhension de base de la façon dont la programmation des lignes de commande est structurée. Pour commencer, utilisez Trimmomatic 0.32 pour enlever les adaptateurs d’illumina et les bases de mauvaise qualité. Utilisez pear version 0.9.11 pour créer des lectures fusionnées de haute qualité à partir de lectures paires de sortie trimmomatique à l’aide de paramètres par défaut.
Ensuite, utilisez reptile version 1.1 pour corriger les lectures produites par Pear. Utilisez enfin trinity version 2.4.0 en mode par défaut pour assembler les séquences corrigées. Pour les bibliothèques spécifiques au brin, utilisez le paramètre SS_lib_type’utilisation.
La sortie est un fichier FASTA qui sera placé dans un nouveau répertoire appelé trinity_output. Faites une base de données BLAST de la séquence de référence nucleotide_reference. fasta à la ligne de commande.
BLAST correspondait à la requête rassemblée dans la base de données de référence. Pour obtenir un fichier de sortie, utilisez BLAST_results. txt Pour générer la sortie tabulaire requise pour les étapes de traitement de la subséquence avec les scripts Python, utilisez outfmt 6 Pour une plus grande rigueur, utilisez des séquences protéiques de l’assemblage comme requête BLAST avec blast nucléotide traduit, qui effectue la traduction à six sens de la base de données nucléotide.
Pour obtenir des séquences protéiques pour la requête, exécutez le TransDecoder. Commande Long0rfs pour identifier les plus longs cadres de lecture ouverts à partir de séquences de requêtes assemblées. Maintenant, exécutez tblastn.
Si nécessaire, assurez-vous que le code génétique correct est sélectionné pour l’organisme à l’étude en utilisant db_gencode avec l’option de code appropriée. Si une référence protéique de haute qualité est disponible, utilisez l’appariement protéines-protéines avec blastp plutôt que tblastn Faites une base de données BLAST de la référence protéique. Assurez-vous d’enregistrer le résultat en tant que fichier pour le traitement en aval, et utilisez la sortie tabulaire pour vous assurer que les scripts Python peuvent les affiner correctement.
Maintenant, utilisez le script Python soustractif pour supprimer toutes les séquences correspondantes. Pour cartographier les lectures sur l’assemblage, utilisez la version BWA-MEM 0.7.12 ou le nœud papillon 2 pour cartographier les premières téléchargées sur l’assemblage de requêtes. Tout d’abord, indexer l’assemblage, puis cartographier les lectures.
La sortie sera format SAM. Exécutez le script Python supprimerUnmapped. py en utilisant le fichier SAM comme entrée.
Cela identifie les noms des séquences de requête sans aucune lecture correspondante et les enregistre dans un nouveau fichier texte. La sortie de l’étape précédente est une liste de noms de séquences dans un fichier txt. Extraire un fichier FASTA avec ces séquences.
La sortie sera un fichier fasta. Utilisez Genius pour déterminer manuellement les séquences optimales d’amorce. Mettez en surbrillance une séquence de candidats de 21 à 28 paires de base pour l’amorce avant, en évitant les courses de quatre ou plus de n’importe quelle base.
Essayez de cibler une région avec une combinaison assez uniforme de toutes les paires de base. Un seul G ou C à trois Prime End est bénéfique, aidant à ancrer l’amorce. Cliquez sur l’onglet Statistiques sur le côté droit de l’écran pour afficher la température de fusion estimée de cette séquence au fur et à mesure que la région candidate est mise en évidence.
Visez une température de fusion comprise entre 55 et 60 degrés Celsius, tout en évitant les répétitions, et de longues courses de G C.Choisissez une amorce inverse de la même manière, située de 150 à 250 paires de base trois premiers de l’amorce avant. Bien que les longueurs d’amorce n’ont pas besoin d’correspondre, la température de fusion prévue devrait être aussi proche que possible de celle de l’amorce avant. Assurez-vous d’inverser la séquence en cliquant à droite dans Genius tandis qu’une séquence est mise en surbrillance dans une option de menu.
Une autre méthode consiste à utiliser la fonction Primer Design, que l’on retrouve dans la barre d’outils supérieure de la fenêtre Séquence. Insérez la région à amplifier sous la région cible. Sous l’onglet caractéristiques, insérez la taille désirée, la température de fusion et pour cent de G C, puis cliquez sur OK pour faire générer des amorces.
Pour effectuer la validation quantitative pcr de la séquence restante, préparez d’abord un mélange de réaction pour chaque modèle en triplicate, avec notre SYBR Green Master Mix, amorces avant et arrière, et de l’eau, pour un volume total de 25 microlitres. Exécutez un programme qPCR informé par la température et le temps d’extension précédemment validés. Les courbes finales de dénaturation devraient être générées au moins la première fois que les amorces sont utilisées dans qPCR pour valider l’amplification d’un seul produit d’ADN.
Mesurer les signaux verts qPCR SYBR par rapport à Actin par Ct Pour tous les cas, calculer la moyenne, et l’écart type de deux par rapport à Actin. Effectuez l’électrophoresis de gel de point de terminaison, pour confirmer la détection correcte de taille de produit par qPCR. Ici, exécutez 25 microlitres du produit qPCR mélangés avec cinq microlitres de colorant Glitterol 6X sur un gel Agarose 2%TAE à 200 volts pendant 20 minutes.
Si votre qPCR montre que vous n’avez pas identifié les séquences cibles, répétez l’ensemble du cycle avec une nouvelle référence, qui peut être obtenue à partir d’une base de données en ligne. Le projet subtractif dans ce cas-ci a commencé par le séquençage de l’ARN à partir de tissu tapissé de germes de pinsons zèbres adultes mâles et femelles. En fin de compte, 935 gènes somatiques qui n’étaient pas précédemment inclus dans l’annotation du génome entier ont été identifiés.
Après le filtrage computationnel, le PCR quantitatif peut donner un résultat négatif dans lequel il n’y avait aucune différence dans la détection entre les tissus d’oiseaux. Inversement, un résultat positif représentant l’identification d’une véritable séquence cible est confirmé lorsque l’ADN génomique qPCR montre une détection statistiquement plus grande dans le tissu d’intérêt, par rapport à la référence. Ici, le gène alpha snap a été validé pour être limité par la germline parce qu’il a été appauvri en tissu somatique par rapport à l’ADN des testicules où il était présent que les niveaux équivalents à Actin.
Il est important de se rappeler d’utiliser les entrées correctes pendant chacune des étapes de calcul. Vous devrez peut-être passer par la soustraction du cycle plusieurs fois afin d’obtenir la séquence ou les séquences cibles. Une variété d’analysephylogénétique, structurale et fonctionnelle peut être effectuée sur les gènes découverts.
Ces méthodes supplémentaires donnent un aperçu des rôles évolutifs et fonctionnels des gènes. Nous avons identifié le premier gène sur un chromosome d’oiseau chanteur germinale-restreint, qui a élargi l’intérêt dans cet élément génomique surprenant. Des travaux ultérieurs ont montré des chromosomes similaires chez de nombreuses espèces d’oiseaux chanteurs contenant de nombreux gènes supplémentaires.