Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Method Article
Le but de ce protocole est d’étudier l’évolution et l’expression des gènes candidats à l’aide de données de séquençage de l’ARN.
Distiller et signaler de grands ensembles de données, tels que des données sur le génome entier ou le transcriptome, est souvent une tâche ardue. Une façon de décomposer les résultats est de se concentrer sur une ou plusieurs familles de gènes qui sont importantes pour l’organisme et l’étude. Dans ce protocole, nous décrivons les étapes bioinformatiques pour générer une phylogénie et quantifier l’expression des gènes d’intérêt. Les arbres phylogénétiques peuvent donner un aperçu de l’évolution des gènes au sein des espèces et entre elles, ainsi que révéler l’orthologie. Ces résultats peuvent être améliorés en utilisant des données RNA-seq pour comparer l’expression de ces gènes dans différents individus ou tissus. Les études de l’évolution et de l’expression moléculaires peuvent révéler des modes d’évolution et de conservation de la fonction des gènes entre les espèces. La caractérisation d’une famille de gènes peut servir de tremplin pour de futures études et peut mettre en évidence une famille de gènes importante dans un nouveau génome ou un nouvel article de transcriptome.
Les progrès des technologies de séquençage ont facilité le séquençage des génomes et des transcriptomes d’organismes non modèles. En plus de la faisabilité accrue du séquençage de l’ADN et de l’ARN de nombreux organismes, une abondance de données est accessible au public pour étudier les gènes d’intérêt. Le but de ce protocole est de fournir des étapes bioinformatiques pour étudier l’évolution moléculaire et l’expression des gènes qui peuvent jouer un rôle important dans l’organisme d’intérêt.
L’étude de l’évolution d’un gène ou d’une famille de gènes peut donner un aperçu de l’évolution des systèmes biologiques. Les membres d’une famille de gènes sont généralement déterminés en identifiant des motifs conservés ou des séquences de gènes homologues. L’évolution de la famille de gènes a été précédemment étudiée à l’aide de génomes provenant d’organismes modèles lointainement apparentés1. Une limite à cette approche est qu’il n’est pas clair comment ces familles de gènes évoluent chez des espèces étroitement apparentées et le rôle des différentes pressions sélectives environnementales. Dans ce protocole, nous incluons une recherche d’homologues chez des espèces étroitement apparentées. En générant une phylogénie au niveau de l’embranchement, nous pouvons noter des tendances dans l’évolution de la famille de gènes tels que celle des gènes conservés ou des duplications spécifiques à la lignée. À ce niveau, nous pouvons également étudier si les gènes sont des orthologues ou des paralogues. Bien que de nombreux homologues fonctionnent probablement de manière similaire les uns aux autres, ce n’est pas nécessairement le cas2. L’incorporation d’arbres phylogénétiques dans ces études est importante pour déterminer si ces gènes homologues sont des orthologues ou non. Chez les eucaryotes, de nombreux orthologues conservent des fonctions similaires au sein de la cellule, comme en témoigne la capacité des protéines de mammifères à restaurer la fonction des orthologues de levure3. Cependant, il existe des cas où un gène non orthologue effectue une fonction caractérisée4.
Les arbres phylogénétiques commencent à délimiter les relations entre les gènes et les espèces, mais la fonction ne peut pas être attribuée uniquement en fonction des relations génétiques. Les études d’expression génique combinées aux annotations fonctionnelles et à l’analyse de l’enrichissement fournissent un solide soutien à la fonction des gènes. Les cas où l’expression des gènes peut être quantifiée et comparée entre les individus ou les types de tissus peuvent être plus révélateurs de la fonction potentielle. Le protocole suivant suit les méthodes utilisées dans l’étude des gènes de l’opsine dans Hydra vulgaris7, mais ils peuvent être appliqués à n’importe quelle espèce et n’importe quelle famille de gènes. Les résultats de ces études fournissent une base pour une étude plus approfondie de la fonction des gènes et des réseaux de gènes dans les organismes non modèles. A titre d’exemple, l’étude de la phylogénie des opsines, qui sont des protéines qui initient la cascade de phototransduction, donne un contexte à l’évolution de la détection des yeux et de la lumière8,9,10,11. Dans ce cas, des organismes non modèles en particulier des espèces animales basales telles que les cnidaires ou les cténophores peuvent élucider la conservation ou les changements dans la cascade de phototransduction et la vision à travers les clades12,13,14. De même, la détermination de la phylogénie, de l’expression et des réseaux d’autres familles de gènes nous renseignera sur les mécanismes moléculaires sous-jacents aux adaptations.
Ce protocole suit les directives de soins aux animaux de l’UC Irvine.
1. Préparation de la bibliothèque RNA-seq
2. Accéder à un cluster d’ordinateurs
REMARQUE: L’analyse de l’ARN-seq nécessite la manipulation de fichiers volumineux et est mieux effectuée sur un cluster informatique(table des matériaux).
3. Obtenir des lectures RNA-seq
4. Trim adaptateurs et lectures de faible qualité (facultatif)
5. Obtenir l’assemblage de référence
6. Générer un assemblage de novo (alternative à l’étape 5)
7. Lecture de la carte au génome (7.1) ou au transcriptome de novo (7.2)
8. Identifier les gènes d’intérêt
REMARQUE: Les étapes suivantes peuvent être effectuées avec des fichiers FASTA nucléotidiques ou protéiques, mais fonctionnent mieux et sont plus simples avec des séquences de protéines. BLAST recherche en utilisant des protéines à des protéines est plus susceptible de donner des résultats lors de la recherche entre différentes espèces.
9. Arbres phylogénétiques
10. Visualiser l’expression des gènes à l’aide de TPM
Les méthodes ci-dessus sont résumées à la figure 1 et ont été appliquées à un ensemble de données de tissus vulgaris Hydra. H. vulgaris est un invertébré d’eau douce qui appartient à l’embranchement Cnidaria qui comprend également des coraux, des méduses et des anémones de mer. H. vulgaris peut se reproduire de manière asexuée par bourgeonnement et ils peuvent régénérer leur tête et leur pied lorsqu’ils sont coupés en deux. Dans...
Le but de ce protocole est de fournir un aperçu des étapes pour caractériser une famille de gènes en utilisant des données RNA-seq. Il a été prouvé que ces méthodes fonctionnent pour une variété d’espèces et d’ensembles de données4,34,35. Le pipeline établi ici a été simplifié et devrait être assez facile à suivre par un novice en bioinformatique. L’importance du protocole est qu’il décrit toutes les ...
Les auteurs n’ont rien à divulguer.
Nous remercions Adriana Briscoe, Gil Smith, Rabi Murad et Aline G. Rangel pour leurs conseils et leurs conseils dans l’intégration de certaines de ces étapes dans notre flux de travail. Nous sommes également reconnaissants à Katherine Williams, Elisabeth Rebboah et Natasha Picciani pour leurs commentaires sur le manuscrit. Ce travail a été soutenu en partie par une bourse de recherche médicale de la Fondation George E. Hewitt à A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon