Il protocollo qui descritto fornisce istruzioni dettagliate sull'analisi delle regioni genomiche di interesse per il potenziale di codifica proteica utilizzando phyloCSF sul browser del genoma UCSC di facile utilizzo. PhloCSF è in grado di identificare efficacemente brevi frame di lettura aperti conservati con potenziale di codifica di micro proteine in regioni genomiche che sono attualmente annotate come non codificanti. I metodi qui descritti sono facilmente utilizzabili e possono essere implementati da ricercatori di ogni provenienza senza previa formazione o esperienza in bioiformatica o genomica comparativa.
Per iniziare, apri una finestra del browser Internet e vai al browser del genoma dell'Università della California Santa Cruz o UCSC. Sotto l'intestazione i nostri strumenti, seleziona l'opzione track hubs. Nella scheda Hub pubblici digitare phyloCSF nella casella dei termini di ricerca.
Quindi, fai clic sul pulsante Cerca hub pubblici. Connettersi a phyloCSF facendo clic sul pulsante di connessione per il nome hub phyloCSF. Dopo aver fatto clic su Connetti, attendere il reindirizzamento alla pagina del gateway del browser del genoma UCSC.
Per interrogare una specie diversa, selezionare la specie di interesse sotto l'intestazione Sfoglia o seleziona specie facendo clic sull'icona appropriata o digitare la specie nella casella di testo che dice, inserisci il nome comune della specie o l'ID dell'assieme.Utilizzando il menu a discesa scegli l'assieme da cercare sotto l'intestazione della posizione definita, quindi inserisci il simbolo del gene di posizione o i termini di ricerca nella casella della posizione o del termine di ricerca e fai clic su Vai per navigare a un gene di interesse sul browser del genoma. Se la ricerca ha portato a più corrispondenze, attendere di essere reindirizzati a una pagina che richiede la selezione di una posizione di interesse, quindi fare clic sul gene di interesse appropriato. Dopo aver navigato nel browser del genoma UCSC, seleziona lo strumento di allineamento simile a un'esplosione o blat sotto l'intestazione dei nostri strumenti per interrogare una specifica sequenza di DNA o proteine.
In alternativa, passa il cursore sulla scheda degli strumenti e seleziona l'opzione blat o segui il link specificato. Utilizzando il menu a discesa selezionare la specie, il genoma e l'assemblaggio di interesse. Quindi, definire il tipo di query, incollare la sequenza di interesse nella casella di testo del genoma di blat search e fare clic su Invia.
Quindi, fai clic sul link del browser sotto l'intestazione delle azioni per navigare verso la regione genomica di interesse. Scansiona visivamente l'area genomica di interesse per ottenere un punteggio positivo nelle regioni phyloCSF. Utilizzate la funzione di zoom per ingrandire le regioni di interesse per esaminare le caratteristiche della sequenza e cercare i codoni di inizio e di fine.
Per ingrandire manualmente, tieni premuto il tasto Maiusc e fai clic e tieni premuto il pulsante del mouse mentre trascini lungo la regione di interesse. In alternativa, utilizzare i pulsanti di zoom avanti e zoom indietro nella parte superiore della pagina per navigare. Ingrandire fino a quando il nucleotide o la sequenza di base è visibile.
Scansiona visivamente la sequenza di maree nucleari vicino all'inizio e alla fine delle regioni phyloCSF con punteggio positivo per identificare i codoni punitivi di inizio e arresto. Passa il cursore del mouse sull'intestazione della vista nella parte superiore della pagina e fai clic sull'opzione di conversione in altri genomi, quindi definisci il genoma di interesse utilizzando il menu a discesa sotto l'intestazione del nuovo genoma. Selezionare l'assemblaggio genomico di interesse sotto l'intestazione nuovo assieme e fare clic sul pulsante invia.
Una volta che il browser restituisce un elenco di regioni nel nuovo assembly con somiglianza. Fare clic sul collegamento posizione cromosomica per passare alla regione omologa di interesse. Seguire le strategie di navigazione descritte in precedenza per analizzare la sequenza.
Per accedere alla pagina di descrizione del gene, fare clic sul gene di interesse nella traccia del codice gen sul browser del genoma UCSC. Sotto la sequenza e i collegamenti agli strumenti e ai database fare clic sul collegamento nella tabella che legge più velocemente le altre specie. Clicca sulle caselle associate alle specie di interesse per selezionarle.
Quindi, fai clic su Invia. Copia e incolla le sequenze visualizzate nella parte inferiore della pagina in un formato più veloce in un documento di elaborazione testi. Quindi, apri una seconda finestra del browser e vai allo strumento di allineamento a sequenza multipla omega clustal sul sito web dell'Istituto europeo di bioinformatica.
Incollare i file di sequenza negli Appunti nella casella del primo passaggio che legge le sequenze in qualsiasi formato supportato. Scorri fino in fondo alla pagina e fai clic su Invia. Osservare sotto i risultati allineati per i simboli che indicano il grado di conservazione di ciascun amminoacido.
Per visualizzare le proprietà degli amminoacidi e il colore clicca sul link mostra colori direttamente sopra le sequenze per colorare gli amminoacidi in base alle loro proprietà. Quindi copiare e incollare l'allineamento della sequenza in un programma di elaborazione testi o presentazione per generare un file di figura o illustrazione. Per visualizzare altri output dalla pagina dei risultati dell'omega clustal, fare clic sull'albero guida delle schede o sull'albero genealogico.
Infine, fai clic sulla scheda del visualizzatore dei risultati per le opzioni per visualizzare le informazioni sulla sequenza utilizzando jalview o per accedere ai collegamenti diretti a mview e alla filogenesi semplice. Un'analisi filoCSF rappresentativa del gene mitoregulina indica una regione di elevata conservazione della sequenza corrispondente a una microproteina convalidata. La sequenza completa di codifica della mitoregulina è contenuta all'interno dell'esone uno e ha un punteggio molto alto sul phyloCSF meno una traccia.
Un codone di partenza conservato può essere osservato all'inizio della regione di punteggio positivo nel phyloCSF meno una traccia. La regione di punteggio positivo nel primo esone di mitoregulina inizia direttamente su un codone di partenza e termina al codone di arresto. L'allineamento a sequenza multipla della microproteina mitoregulina per otto specie diverse è mostrato qui.
L'analisi della lunga aria calda di RNA non codificante ha mostrato un punteggio negativo in tutto il gene su tutte e sei le tracce, indicando una mancanza di conservazione della sequenza e sostenendo che l'aria calda è correttamente annotata come RNA non codificante. L'analisi PhyloCSF del gene topo uno, otto, uno, zero, zero, cinque, otto, I 24 rike ha mostrato che un frame di lettura aperto conservato si estende su tre esoni e il punteggio phyloCSF positivo salta dalla traccia più due nell'esone uno alla traccia più tre nell'esone due, e poi di nuovo alla traccia più due nell'esone tre. L'analisi PhyloCSF del locus del gene meet one è stata anche efficacemente utilizzata per identificare più distinti frame di lettura aperti codificanti all'interno di una singola molecola di RNA.
È importante notare che mentre un punteggio phyloCSF positivo è altamente indicativo della capacità di codifica delle microprotezioni, questa linea di prove non può stare da sola e deve essere convalidata sperimentalmente. Una volta identificato un periodo di microprotezione, la sequenza di amminoacidi può essere analizzata per domini conservati o caratteristiche di sequenza per fornire informazioni sulla sua funzione. PhyloCSF è stato efficacemente utilizzato per identificare nuove microproteine in regioni genomiche precedentemente ritenute non codificanti e continuerà ad essere uno strumento utile nei futuri studi di identificazione delle microprotezioni.