Este protocolo describe los pasos bioinformáticos para investigar la evolución molecular y la expresión de genes candidatos. Aquí proporcionamos instrucciones exhaustivas para que cualquier persona con una experiencia bioinformática mínima pueda ejecutar este protocolo. Esta tubería se puede aplicar a cualquier organismo y a cualquier familia de genes.
Un problema común al hacer bioinformática es el error de los scripts de shell. Al intentar este protocolo, asegúrese de tener el software más actualizado, lea los archivos de error y revise el manual cuidadosamente. Para empezar, inicie sesión en la cuenta de clúster de equipos en una ventana de aplicación de terminal o PuTTY.
En el terminal, descargue SRA Toolkit versión 2.8.1 usando Wget, luego termine de instalar el programa. Busque ncbi para el número de acceso SRA para las muestras deseadas, después obtenga los datos de la secuencia del ARN en la ventana terminal. Obtener dos archivos FASTQ para el tipo de archivos de extremo emparejado.
Encuentre el genoma de referencia en línea si existe uno. Para obtener un ensamblado de referencia, escriba wget en la ventana de terminal y pegue la dirección del vínculo. Si está disponible, copie también el archivo GTF y el archivo FASTA de proteínas para el genoma de referencia.
Indexe el genoma, luego mapee las lecturas y calcule la expresión para cada muestra. Cambie el nombre del archivo de resultados a algo descriptivo y genere una matriz de todos los recuentos. Abra una ventana del navegador de Internet y vaya a NCBI GenBank.
En la barra de búsqueda, escriba el nombre del gen de interés y el nombre de las especies estrechamente relacionadas que han sido secuenciadas. A la izquierda de la barra de búsqueda, seleccione Proteína y, a continuación, haga clic en Buscar. Extraiga las secuencias haciendo clic en Enviar a y, a continuación, seleccione Archivo.
En Formato, seleccione FASTA y, a continuación, haga clic en Crear archivo. Mueva el archivo FASTA de homólogos al clúster de equipos mediante una ventana de terminal local o FileZilla. A continuación, busque genes candidatos usando BLAST+En el clúster de computadoras, haga una base de datos BLAST a partir del genoma o la proteína traducida por transcriptoma, FASTA.
BLAST las secuencias de genes homólogos de NCBI a la base de datos de las especies de interés, a continuación, ver el archivo de salida utilizando el comando más. Copie los identificadores de genes únicos de las especies de interés en un nuevo archivo de texto. Extraiga las secuencias de genes candidatos.
Para confirmar la anotación de genes mediante Reciprocal BLAST, vaya a la herramienta de búsqueda de alineación local BLAST, seleccione BLASTP, luego pegue las secuencias candidatas, seleccione la base de datos de secuencias de proteínas no redundantes y haga clic en BLAST. Abra MEGA, haga clic en Alinear, luego en Editar alineación de compilación, seleccione Crear una nueva alineación y haga clic en Aceptar. Seleccione Proteína. Cuando se abra la ventana Alineación, haga clic en Editar.
Haga clic en Insertar secuencias desde archivo y seleccione el FASTA con secuencias de proteínas de genes candidatos y homólogos probables. Seleccione Todas las secuencias. Encuentra el símbolo del brazo y pasa el cursor sobre él.
Debe decir alinear secuencias usando algoritmo muscular. Haga clic en el símbolo del brazo y, a continuación, haga clic en Alinear proteína para alinear las secuencias Editar parámetros o haga clic en Aceptar para utilizar los parámetros predeterminados. Este protocolo se aplicó a los tejidos de Hydra vulgaris que es un invertebrado de agua dulce que pertenece al filo Cnidaria.
Los genes opsinos fueron investigados para obtener información sobre la evolución de los ojos y la detección de luz en animales. Las secuencias para los genes opsina-relacionados de H.vulgaris y de otras especies fueron extraídas en un archivo de FASTA del NCBI GenBank. Los genes de opsina se alinearon en MEGA, lo que permite identificar las opsinas de Hydra a las que les faltaba un aminoácido de lisina conservado necesario para unirse a una molécula sensible a la luz.
Se generó un árbol de máxima verosimilitud utilizando secuencias de opsina de Hydra vulgaris y otras especies. La filogenia sugiere que los genes de opsina están evolucionando por duplicaciones específicas del linaje en cnidarios, y potencialmente por duplicación en tándem en H.vulgaris. A continuación, se realizó un análisis de expresión diferencial en edgeR para investigar la expresión absoluta de los genes de opsina.
Para determinar si una o más opsinas están reguladas en el hipostoma, o la cabeza, se realizaron comparaciones en pares de hipostoma versus la columna corporal, la zona en ciernes, el pie y los tentáculos. Fue encontrado que 1, 774 transcripciones fueron expresadas diferenciado entre el hypostome y la columna del cuerpo. Se determinaron los genes que se regularon a través de comparaciones múltiples, y se realizó un enriquecimiento funcional en Blast2GO.
Finalmente, se investigó la expresión absoluta de los genes de la opsina en diferentes tejidos durante diferentes etapas de la brotación, y durante diferentes puntos de tiempo de regeneración. La inspección visual de la alineación y el árbol confirmará si los genes candidatos pertenecen a la familia de interés. Los genes que son demasiado diferentes en secuencia o un grupo fuera de todo lo demás, son probablemente parte de una familia de genes diferente.
Los resultados de este protocolo se pueden considerar generadores de hipótesis. Esta tubería puede destacar los genes candidatos para estudiar funcionalmente en estudios futuros. Después de explorar la expresión de la opsina de Hydra, ahora estamos utilizando técnicas similares para investigar genes relacionados entre especies con el fin de identificar similitudes y diferencias en la función.