Method Article
Vi presentiamo un sito web pubblico computazionali per l'analisi di sequenze genomiche. Rileva schemi sequenza di DNA con diverse composizioni nucleotide non casuale. Questa risorsa genera anche sequenze randomizzati con diversi livelli di complessità.
Regioni non codificanti genomiche negli eucarioti complesso, comprese le zone intergeniche, introni, e segmenti non tradotti degli esoni, sono profondamente non casuale nella loro composizione nucleotidica e consistono in un complesso mosaico di modelli di sequenza. Questi modelli includono i cosiddetti Mid-Range disomogeneità (MRI) le regioni - sequenze di 3-10 nucleotidi di lunghezza che si arricchiscono di una base particolare o una combinazione di basi (ad esempio (G + T)-ricchi, ricchi di purine, ecc ). Regioni risonanza magnetica sono associati con le strutture del DNA insolito (non-B-forma) che sono spesso coinvolte nella regolazione dell'espressione dei geni, ricombinazione e altri processi genetici (Fedorova e Fedorov 2010). L'esistenza di un pregiudizio forte fissazione all'interno delle regioni risonanza magnetica contro le mutazioni che tendono a ridurre la loro disomogeneità sequenza supporta inoltre la funzionalità e l'importanza di queste sequenze genomiche (Prakash et al. 2009).
Qui mostriamo una risorsa liberamente disponibile su Internet - il pacchetto di Genomic MRI programma - (. Bechtel et al 2008) progettato per l'analisi computazionale di sequenze genomiche al fine di individuare e caratterizzare i vari modelli di risonanza magnetica al loro interno. Questo pacchetto permette inoltre la generazione di sequenze randomizzati con diverse proprietà e il livello di corrispondenza alle sequenze naturali del DNA di ingresso. L'obiettivo principale di questa risorsa è quello di facilitare l'esame di vaste regioni di DNA non codificante, che sono ancora poco indagato e attendono l'esplorazione approfondita e riconoscimento.
Tutti i programmi usati nel documento sono stati scritti usando perl, e tutte le pagine web sono stati creati utilizzando PHP.
1. Punto di partenza:
Aprire la home page del pacchetto on-line Genomic RM http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. La risorsa web fornisce anche istruzioni / spiegazioni sui programmi nella "Guida (How-to/README)" anello di collegamento, mentre tutto il materiale pubblicato sul Genomic algoritmi di risonanza magnetica e simili sono elencati nella sezione "Links a risorse rilevanti".
2. Preparazione e caricamento della sequenza di ingresso (s).
Creare un file con formato FASTA-sequenza (s) per avviare una sessione di analisi GMRI. Ogni sequenza nucleotidica in questo formato dovrebbe essere preceduto da una singola linea di partenza con il carattere ">" che rappresenta un identificatore, seguito sulla stessa linea da una breve descrizione di questa sequenza. Sequenze nucleotidiche per l'analisi GMRI permette anche personaggi come R, Y, N, X, ecc Hwever, non-A, T, C, G personaggi non saranno trattati dal programma e verrà ignorato. Le sequenze in cui gli elementi ripetitivi sono state "mascherate" (sostituito da "N" s) può essere utilizzato come input. Nota che i caratteri sequenza sono case insensitive.
NOTA: D'ora in poi le sequenze di ingresso sono denominati "userfile".
3. Ottenere una distribuzione di frequenza Oligonucleotide delle sequenze di input (opzionale).
Clicca su "SRI Analyzer" scheda (riga in alto) al fine di ottenere una distribuzione di frequenze oligonucleotide per l'intero set di sequenze di input. L'acronimo sta per SRI a corto raggio disomogeneità. A questo punto, l'utente può specificare la lunghezza massima di oligonucleotidi (da 2 fino a 9 nucleotidi, predefinito 6 NTS) per i quali frequenze verranno calcolati. Questa selezione viene fatta cliccando sull'opzione desiderata all'interno del "Dimensione massima oligomeri" casella di riepilogo. Quindi premere il pulsante "Analizza File" per avviare il calcolo. Una rappresentazione approssimativa della composizione sequenza di input verrà immediatamente visualizzato come una tabella breve nel mezzo di questa pagina web e scaricabile come "userfile.comp.tbl". Questo tavolo rappresenta solo gli oligonucleotidi più e il meno abbondante nei sequenze di input.
La tabella di frequenza per tutti gli oligonucleotidi possibile è generato come un file chiamato "userfile.comp", che può essere ottenuto attraverso il "Download file di composizione" link.
NOTA: SRI analizzatore conta l'intero insieme di tutte le oligonucleotidi che si sovrappongono.
4. Generare sequenze casuali con la stessa composizione oligonucleotidi Come in sequenze di input (opzionale).
(Completamento della fase 3 del protocollo è necessario per questo compito).
5. Analisi di Mid-Range disomogeneità (MRI) di ingresso e sequenze casuali.
6. I programmi nel quadro del pacchetto Genomic RM (opzionale).
La risorsa Genomic RM ha inoltre due opzioni avanzate per la generazione di sequenze casuali molto specifiche. Sono disponibili attraverso il "Generatore di risonanza magnetica" e "CDS Generator" schede nella riga superiore.
7. Rappresentante Risultati
Questo protocollo permette ad un utente di studio disomogeneità compositiva delle sequenze nucleotidiche. Importante, supporta anche la generazione di una serie di sequenze randomizzati con una composizione oligonucleotide approssimazione che delle sequenze di input. Di solito, le sequenze genomiche di eucarioti complessi non sono omogenei nella composizione, ma rappresentano invece un complesso mosaico di segmenti di sequenza di nucleotidi arricchito da particolari (ad esempio, ricchi di purine, (G + T)-ricchi, (A + T)-ricchi, ecc.) Questi modelli di fascia media scala (3-10 bp) sono visualizzati con l'output grafico di analizzatore di risonanza magnetica che mostra selezionato ricchi di contenuti come i segmenti superiori picchi blu e poveri di contenuti, come i segmenti più bassi picchi rossi (vedi figure 1 e 2). Tipicamente, il numero di regioni ricche di contenuti e povero di contenuti in una sequenza naturale (Figura 1) è nell'ordine di volte superiore al numero degli stessi tipi di regioni corrispondenti sequenze randomizzati (Figura 2) avere la stessa oligonucleotide composizione. Questi segmenti sequenza con mid-range disomogeneità nella composizione dei nucleotidi possono essere di interesse per l'utente. Sono disponibili i file di output Genomic risonanza magnetica per ulteriori indagini.
Figura 1. Un esempio di output analizzatore di risonanza magnetica grafico a partire dal punto 5.7. I risultati sono stati ottenuti su un campione di 44 introni umani. Barre blu rappresentano le posizioni di GC regioni ricche lungo questi introni. Barre rosse rappresentano GC-poveri (o ricchi) MRI regioni. L'asse y contiene soglie inferiori e superiori per il tipo di contenuti.
Figura 2. MRI uscita analizzatore per la sequenza casuale "userfile.rand1_4".
Il graficamentecal rappresentazione di risonanza magnetica all'interno di una sequenza generata in modo casuale utilizzando il programma generatore di SRI.
Figura 3. Un esempio l'inizio di un file di output testuale da analizzatore di risonanza magnetica.
Tutte le sequenze ricche di contenuti e povero di contenuti individuati dal programma sono presentati negli ultimi (quarto) colonna. Le loro posizioni relative, misurata in numero di finestre, sono riportati nella prima colonna. La seconda e terza colonna sono indicatori per le regioni ricche di contenuti e povero di contenuti, rispettivamente.
Regioni con disomogenea composizione nucleotide al mid-range scale (3-10 nucleotidi) sono sovrabbondante nel genoma degli eucarioti complessi e possono essere trovati ovunque (regioni intergeniche, introni, regioni non tradotte degli esoni, elementi ripetitivi). Queste regioni sono frequentemente associate con conformazioni del DNA insolito. Per esempio, le sequenze purine-/pyrimidine-rich tendono a formare triplexes DNA (H-DNA), con alternanza di sequenze purina / pirimidina basi sono associati con Z-DNA conformazioni; (G + C)-regioni ricche mostrano anomalie strutturali in B- DNA e potrebbe essere soggetta a scissione spina dorsale; (A + T)-regioni ricche potrebbe formare un insolito struttura - un elemento di svolgimento del DNA, ecc (recensito da Fedorov & Fedorova 2010). Alcuni di questi modelli di fascia media (ad esempio (G + T)-regioni ricche) sono scarsamente indagato e ancora in attesa di esplorazione approfondita e riconoscimento. L'obiettivo principale della nostra risorsa Genomic web MRI è quello di aiutare gli utenti nella individuazione di queste regioni MRI per la loro ulteriore analisi sperimentale e per l'esplorazione delle loro funzioni possibili. Conoscenza delle regioni MRI potrebbero essere inserite in e migliorare la nuova generazione di programmi predittore gene (Shepard 2010) e migliorare la nostra comprensione delle funzioni del genoma e proprietà.
Siamo grati a Samuel Shepard, Peter Bazeley e John David Bell per la gestione delle pagine web Genomic risonanza magnetica. Questo lavoro è stato sostenuto dal National Science Foundation Career "Indagine su introne ruoli cellulare" premio [codice di autorizzazione MCB-0643542].
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon