Method Article
Se presenta un sitio web público de computación para el análisis de secuencias genómicas. Se detecta patrones de secuencias de ADN con varias organizaciones no-aleatorio composiciones de nucleótidos. Este recurso también genera secuencias al azar, con diversos niveles de complejidad.
Regiones no codificantes genómica en eucariotas complejas, incluyendo las zonas intergénicas, intrones, y los segmentos no traducidos de los exones, son profundamente no-aleatorio en su composición de nucleótidos y se componen de un mosaico complejo de patrones de secuencia. Estos modelos incluyen los llamados Tres homogeneidad (MRI) regiones - 30-10000 secuencias de nucleótidos de longitud que se enriquecen con una base o de una combinación de bases (por ejemplo, (G + T)-ricos, ricos en purina, etc ). Regiones RM están asociados con estructuras de ADN extraño (no-B-forma), que a menudo están involucrados en la regulación de la expresión genética, la recombinación, y otros procesos genéticos (Fedorova y Fedorov 2010). La existencia de un sesgo fuerte fijación en las regiones MRI contra las mutaciones que tienden a reducir su falta de homogeneidad de secuencias, además, compatible con la funcionalidad y la importancia de estas secuencias genómicas (Prakash et al. 2009).
Aquí se demuestra un recurso de Internet de libre acceso - el paquete de Genómica programa MRI - (. Bechtel et al 2008) diseñado para el análisis computacional de secuencias genómicas con el fin de encontrar y caracterizar diferentes patrones de resonancia magnética en su interior. Este paquete también permite la generación de secuencias al azar con diferentes propiedades y el nivel de correspondencia con las secuencias de ADN natural de entrada. El objetivo principal de este recurso es facilitar el examen de las vastas regiones de ADN no codificante que aún no se ha investigado y esperar minuciosa exploración y reconocimiento.
Todos los programas que se utilizan en el documento se han escrito usando Perl, y todas las páginas web se han creado usando PHP.
1. Punto de partida:
Abra la página principal del paquete en línea MRI Genómica http://mco321125.meduohio.edu/ ~ jbechtel / GMRI /. El recurso en la web también proporciona instrucciones / explicaciones sobre los programas de la "Ayuda (How-to/README)" que aparece, mientras que todos los materiales publicados en Genómica algoritmos de resonancia magnética y otras similares aparecen en la "Enlaces a los recursos pertinentes" enlace.
2. Preparación y carga de entrada de secuencia (s).
Cree un archivo con formato FASTA-secuencia (s) para iniciar una sesión de análisis GMRI. Cada secuencia de nucleótidos en este formato debe ser precedido por una sola línea de partida con el carácter ">" que representa un identificador, seguido en la misma línea con una breve descripción de esta secuencia. Las secuencias de nucleótidos para el análisis también permite GMRI personajes como R, S, N, X, etc Hwever, no-A, T, C, G personajes no serán procesados por el programa y se evitará. Secuencias en las que los elementos repetitivos han sido "enmascarado" (por "N" s) se puede utilizar como entrada. Tenga en cuenta que los caracteres de la secuencia son mayúsculas y minúsculas.
NOTA: A partir de entonces las secuencias de entrada se conocen como "userfile".
3. Obtener una distribución de frecuencias de oligonucleótidos de las secuencias de entrada (opcional).
Haga clic en el "Analizador de SRI" (la fila de arriba) con el fin de obtener una distribución de frecuencias de oligonucleótidos para el conjunto de secuencias de entrada. El acrónimo SRI representa la falta de homogeneidad de corto alcance. En este momento, el usuario puede especificar la longitud máxima de oligonucleótidos (de 2 a 9 nucleótidos, por defecto 6 noches) para los que las frecuencias se calcula. Esta selección se realiza haciendo clic en la opción deseada en el cuadro "Tamaño máximo de oligómero" lista. A continuación, pulse el botón "Analizar archivos" para iniciar el cálculo. Una representación aproximada de la composición de la secuencia de entrada de inmediato aparecerá como una pequeña tabla en medio de esta página web y descargarse como "userfile.comp.tbl". Esta tabla representa sólo los oligonucleótidos más y el menos abundante en las secuencias de entrada.
La tabla de frecuencias para todos los oligonucleótidos posibles se genera un archivo llamado "userfile.comp", que se puede obtener a través de la "Descarga de archivos composición" enlace.
NOTA: SRI analizador cuenta el conjunto de todos los oligonucleótidos se superponen.
4. Generar secuencias aleatorias con la misma composición de oligonucleótidos Al igual que en las secuencias de entrada (opcional).
(Finalización de la etapa 3 del protocolo es necesario para esta tarea).
5. Análisis de la media en la falta de homogeneidad (MRI) de entrada y secuencias aleatorias.
6. Programas adicionales en el paquete de Genómica resonancia magnética (opcional).
El recurso de MRI genómica también tiene dos opciones avanzadas para la generación de secuencias aleatorias muy específicas. Están disponibles a través del "Generador de resonancia magnética" y "Generador de CDS" fichas de la fila superior.
7. Resultados representante
Este protocolo permite a los usuarios para estudiar la falta de homogeneidad de la composición de las secuencias de nucleótidos. Es importante destacar, que también apoya la generación de una variedad de secuencias al azar, con una composición de oligonucleótidos que se aproxima a una de las secuencias de entrada. Por lo general, las secuencias genómicas de los eucariotas complejos no son homogéneos en su composición, sino que representan un complejo mosaico de segmentos de secuencia enriquecida con nucleótidos en particular (por ejemplo, ricos en purina, (G + T)-rica, (A + T)-rica, etc.) Estos patrones de gama media escala (desde 30 hasta 1.000 pb) se visualizan en la salida gráfica del analizador de resonancia magnética que muestra seleccionada de contenido rico en segmentos como los picos superior azul y el contenido de los pobres como los segmentos más bajos picos rojos (ver Figuras 1 y 2). Normalmente, el número de las regiones que gran cantidad de contenido y el contenido de los pobres-en una secuencia natural (Figura 1) es del orden de veces mayor que el número de los mismos tipos de regiones en las correspondientes secuencias al azar (Figura 2) tener el mismo oligonucleótido composición. Estos segmentos de la secuencia de gama media con la falta de homogeneidad en la composición de nucleótidos pueden ser de interés para el usuario. Están disponibles en los archivos de salida Genómica resonancia magnética para una mayor investigación.
Figura 1. Un ejemplo de la salida del analizador de resonancia magnética gráfica del paso 5.7. Los resultados han sido obtenidos en una muestra de 44 intrones humanos. Barras azules representan las posiciones de las regiones ricas en GC-a lo largo de estos intrones. Las barras rojas representan GC-pobre (o rica en AT) MRI regiones. El eje y contiene los umbrales superior e inferior para el tipo de contenido determinado.
Figura 2. MRI de salida del analizador de la secuencia aleatoria "userfile.rand1_4".
El gráficamentecal representación de la resonancia magnética dentro de una secuencia aleatoria generada con el programa generador de SRI.
Figura 3. Un ejemplo de los principios de un archivo de salida de texto de analizador de resonancia magnética.
Todas las secuencias ricas en contenido y el contenido de los pobres detectados por el programa se presentan en el último (cuarto) de la columna. Su posición relativa, medido en el número de ventanas, se muestran en la primera columna. La segunda y tercera columnas son los indicadores para las regiones ricas en contenido y el contenido de los pobres, respectivamente.
Regiones con una composición no homogénea de nucleótidos en las escalas de gama media (30 a 1000 nucleótidos) son sobreabundantes en los genomas de eucariotas complejas y se pueden encontrar en cualquier lugar (regiones intergénicas, intrones, regiones no traducidas de los exones, elementos repetitivos). Estas regiones se asocia con frecuencia a las conformaciones de ADN extraño. Por ejemplo, las secuencias de purine-/pyrimidine-rich tienden a formar tríplex de ADN (H-DNA), con la alternancia de secuencias de purina / pirimidina se asocian a Z-DNA conformaciones; (G + C) regiones ricas presentan anomalías estructurales en el B- ADN y podrían ser propensos a la ruptura columna vertebral, (A + T)-regiones ricas podrían formar una estructura inusual - un elemento de la anulación de ADN, etc (revisado por Fedorov y Fedorova 2010). Algunos de estos modelos de gama media (por ejemplo, (G + T)-regiones ricas) se no se ha investigado y aún esperan minuciosa exploración y reconocimiento. El objetivo principal de nuestro recurso Genómica web RM es ayudar a los usuarios en la identificación de estas regiones de resonancia magnética para su análisis experimental más allá y para la exploración de sus posibles funciones. El conocimiento de las regiones de la RM puede ser incorporada y mejorar la nueva generación de programas de predicción de genes (Shepard 2010) y avanzar en nuestra comprensión de las funciones y propiedades del genoma.
Agradecemos a Samuel Shepard, Bazeley Pedro y Juan David Bell para la administración de las páginas web de MRI Genómica. Este trabajo fue apoyado por la National Science Carrera premio de la Fundación "La investigación de intrón funciones celulares" [el número de concesión MCB-0643542].
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados