Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
El propósito de este protocolo es investigar la evolución y expresión de genes candidatos utilizando datos de secuenciación de ARN.
Destilar y reportar grandes conjuntos de datos, como datos de genoma completo o transcriptoma, es a menudo una tarea desalentadora. Una forma de desglosar los resultados es centrarse en una o más familias de genes que son importantes para el organismo y el estudio. En este protocolo, se describen los pasos bioinformáticos para generar una filogenia y cuantificar la expresión de genes de interés. Los árboles filogenéticos pueden dar una idea de cómo los genes están evolucionando dentro y entre las especies, así como revelar la ortología. Estos resultados se pueden mejorar utilizando datos de ARN-seq para comparar la expresión de estos genes en diferentes individuos o tejidos. Los estudios de evolución molecular y expresión pueden revelar modos de evolución y conservación de la función génica entre especies. La caracterización de una familia de genes puede servir como trampolín para futuros estudios y puede destacar una familia de genes importante en un nuevo genoma o transcriptoma.
Los avances en las tecnologías de secuenciación han facilitado la secuenciación de genomas y transcriptomas de organismos no modelo. Además de la mayor viabilidad de secuenciar adn y ARN de muchos organismos, una gran cantidad de datos está disponible públicamente para estudiar genes de interés. El propósito de este protocolo es proporcionar pasos bioinformáticos para investigar la evolución molecular y la expresión de genes que pueden desempeñar un papel importante en el organismo de interés.
Investigar la evolución de un gen o familia de genes puede proporcionar información sobre la evolución de los sistemas biológicos. Los miembros de una familia de genes se determinan típicamente mediante la identificación de motivos conservados o secuencias de genes homólogos. La evolución de la familia génica se investigó previamente utilizando genomas de organismos modelo distantemente relacionados1. Una limitación a este enfoque es que no está claro cómo evolucionan estas familias de genes en especies estrechamente relacionadas y el papel de las diferentes presiones selectivas ambientales. En este protocolo, incluimos una búsqueda de homólogos en especies estrechamente relacionadas. Al generar una filogenia a nivel de filo, podemos observar tendencias en la evolución de la familia de genes como la de genes conservados o duplicaciones específicas de linaje. En este nivel, también podemos investigar si los genes son ortólogos o parálogos. Si bien es probable que muchos homólogos funcionen de manera similar entre sí, ese no es necesariamente el caso2. La incorporación de árboles filogenéticos en estos estudios es importante para determinar si estos genes homólogos son ortólogos o no. En los eucariotas, muchos ortólogos conservan funciones similares dentro de la célula, como lo demuestra la capacidad de las proteínas de mamíferos para restaurar la función de los ortólogos de levadura3. Sin embargo, hay casos en los que un gen no ortólogo realiza una función caracterizada4.
Los árboles filogenéticos comienzan a delinear las relaciones entre los genes y las especies, sin embargo, la función no se puede asignar únicamente en función de las relaciones genéticas. Los estudios de expresión génica combinados con anotaciones funcionales y análisis de enriquecimiento proporcionan un fuerte apoyo para la función génica. Los casos en los que la expresión génica se puede cuantificar y comparar entre individuos o tipos de tejidos pueden ser más reveladores de la función potencial. El siguiente protocolo sigue los métodos utilizados en la investigación de los genes de opsina en Hydra vulgaris7,pero se pueden aplicar a cualquier especie y cualquier familia de genes. Los resultados de tales estudios proporcionan una base para la investigación adicional en la función del gen y las redes del gene en organismos no-modelo. A modo de ejemplo, la investigación de la filogenia de las opsinas, que son proteínas que inician la cascada de fototransducción, da contexto a la evolución de los ojos y la detección de la luz8,9,10,11. En este caso, los organismos no modelo, especialmente las especies animales basales como los cnidarios o los ctenophores, pueden dilucidar la conservación o los cambios en la cascada de fototransducción y la visión a través de los clados12,13,14. Del mismo modo, la determinación de la filogenia, expresión y redes de otras familias de genes nos informará sobre los mecanismos moleculares subyacentes a las adaptaciones.
Este protocolo sigue las pautas de cuidado de animales de UC Irvine.
1. Preparación de la biblioteca de ARN-seq
2. Acceder a un clúster de computadoras
NOTA: El análisis de ARN-seq requiere la manipulación de archivos grandes y se realiza mejor en un clúster de computadoras(Tabla de materiales).
3. Obtener lecturas de ARN-seq
4. Adaptadores de recorte y lecturas de baja calidad (opcional)
5. Obtener el ensamblado de referencia
6. Generar un ensamblaje de novo (Alternativa al Paso 5)
7. Mapa de lecturas del genoma (7.1) o transcriptoma de novo (7.2)
8. Identificar genes de interés
NOTA: Los siguientes pasos se pueden hacer con archivos FASTA de nucleótidos o proteínas, pero funcionan mejor y son más sencillos con las secuencias de proteínas. Las búsquedas blast usando proteína a proteína es más probable que den resultados cuando se busca entre diferentes especies.
9. Árboles filogenéticos
10. Visualizar la expresión génica usando TPM
Los métodos anteriores se resumen en la Figura 1 y se aplicaron a un conjunto de datos de tejidos de Hydra vulgaris. H. vulgaris es un invertebrado de agua dulce que pertenece al filo Cnidaria que también incluye corales, medusas y anémonas de mar. H. vulgaris puede reproducirse asexualmente por gemación y pueden regenerar su cabeza y pie cuando están divididos en dos. En este estudio, el objetivo fue investigar la evolución y expresión de los genes...
El propósito de este protocolo es proporcionar un contorno de los pasos para caracterizar a una familia del gene usando datos del ARN-seq. Se ha demostrado que estos métodos funcionan para una variedad de especies y conjuntos de datos4,34,35. La tubería establecida aquí se ha simplificado y debería ser lo suficientemente fácil como para ser seguida por un novato en bioinformática. La importancia del protocolo es que descr...
Los autores no tienen nada que revelar.
Agradecemos a Adriana Briscoe, Gil Smith, Rabi Murad y Aline G. Rangel por su asesoramiento y orientación para incorporar algunos de estos pasos en nuestro flujo de trabajo. También estamos agradecidos a Katherine Williams, Elisabeth Rebboah y Natasha Picciani por los comentarios sobre el manuscrito. Este trabajo fue apoyado en parte por una beca de investigación médica de la Fundación George E. Hewitt para A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados