El protocolo descrito aquí proporciona instrucciones detalladas sobre el análisis de regiones genómicas de interés para el potencial de codificación de proteínas utilizando phyloCSF en el navegador del genoma UCSC fácil de usar. PhloCSF puede identificar eficazmente marcos de lectura abiertos cortos conservados con potencial de codificación de microproteínas en regiones genómicas que actualmente están anotadas como no codificantes. Los métodos descritos aquí son fácilmente utilizados y pueden ser implementados por investigadores de todos los orígenes sin capacitación previa o experiencia en bioiformatics o genómica comparativa.
Para comenzar, abra una ventana del navegador de Internet y navegue hasta el navegador del genoma de la Universidad de California en Santa Cruz o UCSC. En el encabezado Nuestras herramientas, seleccione la opción Centros de seguimiento. En la pestaña concentradores públicos, escriba phyloCSF en el cuadro de términos de búsqueda.
Luego, haga clic en el botón buscar centros públicos. Conéctese a phyloCSF haciendo clic en el botón de conexión para el nombre del concentrador phyloCSF. Después de hacer clic en conectar, espere para redirigir a la página de la puerta de enlace del navegador del genoma UCSC.
Para consultar una especie diferente, seleccione la especie de interés en el encabezado Examinar o seleccionar especie haciendo clic en el icono correspondiente, o escriba la especie en el cuadro de texto que dice, ingrese el nombre común de la especie o el ID de ensamblaje.Usando el menú desplegable, elija el conjunto para buscar bajo el encabezado de posición definida, luego ingrese el símbolo del gen de posición o los términos de búsqueda en el cuadro de posición o término de búsqueda y haga clic en ir para navegar a un gen de interés en el navegador del genoma. Si la búsqueda resultó en varias coincidencias, espere a ser redirigido a una página que requiere la selección de una posición de interés, luego haga clic en el gen de interés apropiado. Después de navegar al navegador del genoma UCSC, seleccione la herramienta de alineación similar a una explosión o blat debajo del encabezado de nuestras herramientas para consultar una secuencia específica de ADN o proteína.
Alternativamente, coloque el cursor sobre la pestaña de herramientas y seleccione la opción blat o siga el enlace dado. Usando el menú desplegable seleccione la especie, el genoma y el ensamblaje de interés. Luego, defina el tipo de consulta, pegue la secuencia de interés en el cuadro de texto del genoma de búsqueda blat y haga clic en enviar.
A continuación, haga clic en el enlace del navegador debajo del encabezado de acciones para navegar a la región genómica de interés. Escanee visualmente el área genómica de interés para obtener una puntuación positiva de las regiones phyloCSF. Utilice la función de zoom para ampliar las regiones de interés para examinar las características de la secuencia y buscar los codones de inicio y parada.
Para acercar manualmente, mantenga presionada la tecla Mayús y mantenga presionado el botón del mouse mientras arrastra a lo largo de la región de interés. Alternativamente, use los botones de acercar y alejar en la parte superior de la página para navegar. Amplíe el zoom hasta que el nucleótido o la secuencia de bases sea visible.
Escanee visualmente la secuencia de mareas nucleares cerca del principio y el final de las regiones filoCSF con puntuación positiva para identificar codones punitivos de inicio y parada. Coloque el cursor del mouse sobre el encabezado de la vista en la parte superior de la página y haga clic en la opción de conversión en otros genomas, luego defina el genoma de interés usando el menú desplegable debajo del nuevo encabezado del genoma. Seleccione el conjunto genómico de interés en el nuevo encabezado de conjunto y haga clic en el botón Enviar.
Una vez que el explorador devuelve una lista de regiones en el nuevo ensamblado con similitud. Haga clic en el enlace de posición cromosómica para navegar a la región homóloga de interés. Siga las estrategias de navegación descritas anteriormente para analizar la secuencia.
Para navegar a la página de descripción del gen, haga clic en el gen de interés en la pista del código gen en el navegador del genoma UCSC. Debajo de la secuencia y los enlaces a herramientas y bases de datos, haga clic en el enlace de la tabla que lee otras especies más rápido. Haga clic en las casillas asociadas a las especies de interés para seleccionarlas.
Luego, haga clic en enviar. Copie y pegue las secuencias que aparecen en la parte inferior de la página en formato más rápido en un documento de procesamiento de textos. A continuación, abra una segunda ventana del navegador y navegue hasta la herramienta de alineación de secuencias múltiples omega clustal en el sitio web del Instituto Europeo de Bioinformática.
Pegue los archivos de secuencia en el portapapeles en el cuadro del paso uno que lee secuencias en cualquier formato compatible. Desplácese hasta la parte inferior de la página y haga clic en enviar. Observe a continuación los resultados alineados para los símbolos que indican el grado de conservación de cada aminoácido.
Para ver las propiedades de los aminoácidos y el color, haga clic en el enlace Mostrar colores directamente encima de las secuencias para colorear los aminoácidos de acuerdo con sus propiedades. A continuación, copie y pegue la alineación de la secuencia en un programa de procesamiento de textos o presentación de diapositivas para generar una figura o un archivo de ilustración. Para ver otros resultados de la página de resultados de omega clustal, haga clic en el árbol guía de pestañas o árbol genético filo.
Finalmente, haga clic en la pestaña del visor de resultados para ver las opciones para ver la información de la secuencia utilizando jalview o para acceder a enlaces directos a mview y filogenia simple. Un análisis representativo de phyloCSF del gen de la mitoregulina indica una región de conservación de alta secuencia correspondiente a una microproteína validada. La secuencia codificante completa de la mitoregulina está contenida dentro del exón uno y puntúa muy alto en el filoCSF menos una pista.
Se puede observar un codón de inicio conservado al comienzo de la región de puntuación positiva en el filoCSF menos una pista. La región de puntuación positiva en el primer exón de la mitoregulina comienza directamente sobre un codón de inicio y termina en el codón de parada. La alineación de secuencia múltiple de la microproteína mitoregulina para ocho especies diferentes se muestra aquí.
El análisis del aire caliente de ARN largo no codificante mostró una puntuación negativa en todo el gen en las seis pistas, lo que indica una falta de conservación de la secuencia y apoya que el aire caliente está correctamente anotado como un ARN no codificante. El análisis PhyloCSF del gen ratón uno, ocho, uno, cero, cero, cinco, ocho, I 24 rike mostró que un marco de lectura abierto conservado abarca tres exones y la puntuación positiva de phyloCSF salta de la pista más dos en el exón uno a la pista más tres en el exón dos, y luego de vuelta a la pista más dos en el exón tres. El análisis PhyloCSF del locus de meet one gene también se utilizó de manera efectiva para identificar múltiples marcos de lectura abiertos codificantes distintos dentro de una sola molécula de ARN.
Es importante tener en cuenta que, si bien una puntuación positiva de phyloCSF es altamente sugestiva de la capacidad de codificación de microproteínas, esta línea de evidencia no puede ser independiente y debe validarse experimentalmente. Una vez que se ha identificado un período de microproteína, la secuencia de aminoácidos se puede analizar en busca de dominios conservados o características de secuencia para proporcionar información sobre su función. PhyloCSF se ha utilizado eficazmente para identificar nuevas microproteínas en regiones genómicas que antes se pensaba que no eran codificantes y seguirá siendo una herramienta útil en futuros estudios de identificación de microproteínas.