miRDeep2 se puede utilizar para identificar con precisión los microARN de las plantas que son reguladores transcripcionales importantes en el desarrollo de plantas y son cruciales para responder a los desafíos ambientales. miRDeep2 requiere un tiempo de funcionamiento notablemente corto y exhibe un excelente rendimiento tanto en sensibilidad como en precisión, especialmente para predecir microARN en plantas con un genoma grande. Los falsos positivos y el largo tiempo de procesamiento son desafíos en la anotación de microARN de la planta.
Al agregar una nueva estrategia de campo, revisar el algoritmo de puntuación e integrar criterios estrictos, miRDeep2 puede superar estos problemas. La anotación de microARN de alta confianza es fundamental para descubrir el papel del microARN en la regulación de la función diversa del genoma. La guía paso a paso puede ser útil para los anotadores de microARN por primera vez.
Para investigadores experimentados, el método es útil para comprender las ventajas y los beneficios de usar miRDeep2 sobre otras herramientas. Para instalar el paquete miRDeep2, vaya a la página web miRDeep2 y busque los archivos tarball. A continuación, extraiga todo el contenido del archivo descargado en una carpeta y establezca la ruta de la carpeta en path.
Para probar la canalización miRDeep2, descargue los datos de prueba y la salida esperada que contiene un archivo de secuenciación GSM formateado y un archivo genoma de Arabidopsis thaliana y mueva todos los archivos descargados al directorio de trabajo actual. Después de extraer los archivos tarball comprimidos, cree el índice de referencia del genoma de Arabidopsis y el índice de referencia de ARN no codificante. Se generará automáticamente una carpeta en el user_selected_folder que contiene todos los archivos y resultados intermedios.
A continuación, la canalización miRDeep2 se puede ejecutar con los datos de prueba. Para comprobar las salidas de prueba, vea el archivo de salida delimitado por tabulaciones. La salida final de los microARN previstos contendrá columnas que indican el ID de cromosoma, la dirección de la hebra, las lecturas representativas ID, el ID de precursor, la ubicación del miRNA maduro, la ubicación del precursor, la secuencia madura y la secuencia del precursor.
A continuación, compruebe el archivo de progress_log que proporciona información sobre los pasos terminados y los archivos de script_log y script_err que contienen salidas y advertencias del programa. Antes de ejecutar la canalización, para asegurarse de que las lecturas de entrada se procesan previamente en el formato adecuado, quite los adaptadores de los cinco y tres extremos principales de las lecturas de secuenciación profunda y asegúrese de que todos los identificadores FAST A son únicos. Cada identificador de secuencia debe terminar con un carácter de subrayado x y un entero que indica el número de copia de la secuencia exacta que se recuperó en los conjuntos de datos de secuenciación profunda.
Para garantizar un identificador único de FAST A, incluya un número de ejecución en el ID.To construir un índice de referencia, si se han indexado las secuencias del genoma de las especies de interés, descargue los archivos de índice de Bowtie 2 desde el sitio web de iGenomes. A continuación, cree un índice de ARN no codificante sin microARN que contenga las principales secuencias de no codificación de la fam de ARN, incluyendo ARN ribosomal, ARN de transferencia, ARN nuclear pequeño y ARN nucleolar pequeño para filtrar secuencias ruidosas de otros fragmentos de ARN no codificante. Para usar miRDeep2 para detectar nuevos microRNAs a partir de datos de secuenciación profunda, ejecute el script bash en el paquete para iniciar la canalización de análisis.
El número de ubicaciones diferentes a las que se podría asignar una lectura, el número de discordancia para ejecutar Bowtie 2 y el umbral de las lecturas por millón se pueden modificar según sea necesario. Para comprobar las salidas miRDeep2, vea los datos en el output_folder generado automáticamente. En este análisis representativo, la canalización de anotación de microARN miRDeep2 se aplicó a 10 bibliotecas públicas de secuencias de ARNs de cinco especies de plantas con un tamaño del genoma aumentado gradualmente como se indica.
Para cada especie, dos pequeñas bibliotecas representativas de ARN de diferentes tejidos y sus secuencias del genoma del índice se procesan como dos entradas. Utilizando métodos anteriores, el procesamiento del genoma podría tardar más de 100 horas o a veces se detendría en medio del análisis debido a la longitud del genoma. miRDeep2, sin embargo, terminar estos procesos de predicción en un período de tiempo notablemente más corto de minutos a horas.
Para los dos ARN pequeños de Arabidopsis secuenciados utilizados en esta prueba, miRDeep2 tuvo un mejor desempeño tanto en sensibilidad como en precisión en comparación con otras herramientas. Asegúrese de que el índice de entrada del programa es correcto. Por ejemplo, utilice Bowtie solo con un índice Bowtie y utilice una opción de índice grande para genomas grandes.
Los objetivos del microARN resultante se pueden predecir utilizando datos de secuenciación que pueden proporcionar información sobre la función de microARN. Como miRDeep2 se puede utilizar para identificar con precisión y sensibilidad la mayoría del microARN en una especie de planta específica, se puede estudiar el papel de la función del microARN en su conjunto.