Questo protocollo delinea i passaggi bioinformatici per indagare l'evoluzione molecolare e l'espressione dei geni candidati. Qui forniamo istruzioni approfondite in modo che chiunque abbia un'esperienza bioinformatica minima possa eseguire questo protocollo. Questa pipeline può essere applicata a qualsiasi organismo e a qualsiasi famiglia genica.
Un problema comune quando si fa bioinformatica è che gli script shell non riescono. Quando si tenta questo protocollo, assicurarsi di avere il software più aggiornato, leggere i file di errore e controllare attentamente il manuale. Per iniziare, accedere all'account cluster del computer in un terminale o in una finestra dell'applicazione PuTTY.
Sul terminale, scaricare SRA Toolkit versione 2.8.1 utilizzando Wget, quindi completare l'installazione del programma. Cercare ncbi per il numero di adesione SRA per i campioni desiderati, quindi ottenere i dati della sequenza di RNA nella finestra terminale. Ottenere due file FASTQ per il tipo di file con estremità accoppiata.
Trova il genoma di riferimento online se ne esiste uno. Per ottenere un assembly di riferimento, digitare wget nella finestra terminale e incollare l'indirizzo del collegamento. Se disponibile, copiare anche il file GTF e il file FASTA proteico per il genoma di riferimento.
Indicizza il genoma, quindi mappa le letture e calcola l'espressione per ogni campione. Rinominare il file dei risultati in un valore descrittivo e generare una matrice di tutti i conteggi. Aprire una finestra del browser Internet e passare a NCBI GenBank.
Nella barra di ricerca digitare il nome del gene di interesse e il nome delle specie strettamente correlate che sono state sequenziate. A sinistra della barra di ricerca selezionare Proteine e quindi fare clic su Cerca. Estrarre le sequenze facendo clic su Invia a e quindi selezionare File.
In Formato selezionare FASTA e quindi fare clic su Crea file. Spostare il file FASTA degli omologhi nel cluster di computer utilizzando una finestra terminale locale o FileZilla. Successivamente, cerca i geni candidati usando BLAST+ Sull'ammasso del computer, crea un database BLAST dal genoma o dalla proteina tradotta con trascrimi, FASTA.
BLAST le sequenze geniche omologhe da NCBI al database delle specie di interesse, quindi visualizza il file di output usando di più il comando. Copia ID gene univoci dalle specie di interesse in un nuovo file di testo. Estrarre le sequenze dei geni candidati.
Per confermare l'annotazione genica utilizzando Reciprocal BLAST, passare allo strumento di ricerca dell'allineamento locale BLAST, selezionare BLASTP, quindi incollare le sequenze candidate, selezionare il database di sequenze proteiche non ridondanti e fare clic su BLAST. Aprire MEGA, fare clic su Allinea, quindi modificare l'allineamento della compilazione, selezionare Crea nuovo allineamento e quindi fare clic su OK. Selezionare Proteina. Quando viene visualizzata la finestra Allineamento, fare clic su Modifica.
Fate clic su Inserisci sequenze da file (Insert Sequences From File) e selezionate fasta con sequenze proteiche di geni candidati e probabili omologhi. Selezionate Tutte le sequenze (All sequences). Trova il simbolo del braccio e passa il mouse su di esso.
Dovrebbe dire allineare le sequenze usando l'algoritmo muscolare. Fare clic sul simbolo del braccio e quindi su Allinea proteine per allineare le sequenze Modifica parametri oppure su OK per utilizzare i parametri predefiniti. Questo protocollo è stato applicato ai tessuti di Hydra vulgaris che è un invertebrato d'acqua dolce che appartiene al phylum Cnidaria.
I geni Opsin sono stati studiati per comprendere l'evoluzione degli occhi e il rilevamento della luce negli animali. Sequenze per geni correlati all'opsina di H.vulgaris e altre specie sono state estratte in un file FASTA dalla NCBI GenBank. I geni dell'opsina sono stati allineati in MEGA, rendendo possibile identificare le opsine hydra che mancavano di un amminoacido di lisina conservato necessario per legare una molecola sensibile alla luce.
Un albero a massima verosimiglianza è stato generato usando sequenze di opsina da Hydra vulgaris e altre specie. La filogenesi suggerisce che i geni dell'opsina si stanno evolvendo per duplicazioni specifiche del lignaggio nei cnidari, e potenzialmente per duplicazione tandem in H.vulgaris. Successivamente, un'analisi dell'espressione differenziale è stata eseguita in edgeR per indagare l'espressione assoluta dei geni opsina.
Per determinare se una o più opsine sono regolate in alto nell'ipostoma, o nella testa, sono stati eseguiti confronti a coppie tra ipotoma e colonna corporea, zona in erba, piede e tentacoli. Si scoprì che 1.774 trascrizioni erano espresse in modo differenziato tra l'ipostoma e la colonna corporea. Sono stati determinati i geni che erano regolati in più confronti, ed è stato eseguito un arricchimento funzionale in Blast2GO.
Infine, l'espressione assoluta dei geni opsin è stata studiata in diversi tessuti durante diverse fasi di germogliatura e durante diversi punti di rigenerazione del tempo. L'ispezione visiva dell'allineamento e dell'albero confermerà se i geni candidati appartengono alla famiglia di interesse. I geni che sono troppo diversi in sequenza o un gruppo al di fuori di tutto il resto, fanno probabilmente parte di una famiglia genica diversa.
I risultati di questo protocollo possono essere considerati generatori di ipotesi. Questa pipeline può evidenziare i geni candidati per studiare funzionalmente negli studi futuri. Dopo aver esplorato l'espressione dell'idra opsina, ora stiamo usando tecniche simili per indagare i geni correlati tra le specie al fine di identificare somiglianze e differenze di funzione.