NOTA: En este protocolo, el uso de JUMPn se ilustra utilizando un conjunto de datos publicado de perfiles de proteoma completo durante la diferenciación de células B cuantificado por el reactivo de etiqueta isobárica TMT27.
1. Configuración del software JUMPn
NOTA: Se proporcionan dos opciones para configurar el software JUMPn: (i) instalación en un equipo local para uso personal; y (ii) implementación de JUMPn en un shiny server remoto para múltiples usuarios. Para la instalación local, una computadora personal con acceso a Internet y ≥4 Gb de RAM es suficiente para ejecutar el análisis JUMPn para un conjunto de datos con un tamaño de muestra pequeño (n < 30); se necesita una RAM más grande (por ejemplo, 16 Gb) para el análisis de cohortes grandes (por ejemplo, n = 200 muestras).
- Instale el software en un equipo local. Después de la instalación, permita que el navegador web inicie JUMPn y deje que el análisis se ejecute en el equipo local.
- Instale anaconda42 o miniconda43 siguiendo las instrucciones en línea.
- Descargue el código fuente de JUMPn41. Haga doble clic para descomprimir el archivo descargado JUMPn_v_1.0.0.zip; se creará una nueva carpeta denominada JUMPn_v_1.0.0.
- Abra el terminal de línea de comandos. En Windows, utilice el símbolo del sistema Anaconda. En MacOS, usa la aplicación Terminal integrada.
- Crear el entorno JUMPn Conda: Obtenga la ruta absoluta de JUMPn_v_1.0.0 (por ejemplo, /path/to/JUMPn_v_1.0.0). Para crear y activar un entorno Conda vacío, escriba los siguientes comandos en el terminal
conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
conda activate /path/to/JUMPn_v_1.0.0/JUMPn
- Instalar dependencias JUMPn: Instale R (en el terminal, escriba conda install -c conda-forge r=4.0.0 -y), cambie el directorio actual a la carpeta JUMPn_v_1.0.0 (en el terminal, escriba cd path/to/JUMPn_v_1.0.0), e instale los paquetes de dependencia (en el terminal, escriba Rscript bootstrap. R)
- Inicie JUMPn en el navegador web: Cambie el directorio actual a la carpeta de ejecución (en el terminal, escriba cd execution) e inicie JUMPn (en el terminal, escriba R -e "shiny::runApp()")
- Una vez ejecutado lo anterior, la pantalla del terminal aparecerá Escuchando en http://127.0.0.1:XXXX (aquí XXXX indica 4 números aleatorios). Copie y pegue http://127.0.0.1:XXXX en el navegador web, en el que aparecerá la página de bienvenida de JUMPn (Figura 2).
- Implementación en Shiny Server. Ejemplos de Shiny Server incluyen el servidor comercial shinyapps.io o cualquier Shiny Servers con soporte institucional.
- Descargue e instale RStudio siguiendo las instrucciones44.
- Obtenga el permiso de implementación para Shiny Server. Para el servidor shinyapps.io, configure la cuenta de usuario siguiendo las instrucciones45. Para el servidor Shiny institucional, póngase en contacto con el administrador del servidor para solicitar permisos.
- Descargue el código fuente41 de JUMPn en la máquina local; la instalación no es necesaria. Abra el servidor. R o ui. R en RStudio y haga clic en el menú desplegable Publicar en el servidor en la parte superior derecha del IDE de RStudio.
- En el panel Publicar en cuenta , escriba la dirección del servidor. Pulse el botón Publicar . La implementación correcta se valida tras la redirección automática desde RStudio al servidor RShiny donde se implementó la aplicación.
2. Ejecución de demostración utilizando un conjunto de datos de ejemplo
NOTA: JUMPn ofrece una ejecución de demostración utilizando el conjunto de datos de proteómica de células B publicado. La ejecución de demostración ilustra un flujo de trabajo optimizado que toma la matriz de cuantificación de proteínas expresadas diferencialmente como entrada y realiza agrupamiento de coexpresión, enriquecimiento de vías y análisis de red PPI secuencialmente.
- En la página de inicio de JUMPn (Figura 2), haga clic en el botón Comenzar análisis para iniciar el análisis de JUMPn.
- En la esquina inferior izquierda de la página Comenzar análisis (Figura 3), haga clic en el botón Cargar datos proteómicos de células B de demostración ; aparecerá un cuadro de diálogo notificando el éxito de la carga de datos.
- En la esquina inferior derecha de la página, haga clic en el botón Enviar análisis JUMPn para iniciar la ejecución de la demostración utilizando los parámetros predeterminados; aparecerá una barra de progreso que denota el curso del análisis. Espere hasta que se cumpla la barra de progreso (se esperan 3 minutos).
- Una vez finalizada la ejecución de la demostración, aparecerá un cuadro de diálogo con el mensaje de ejecución correcta y la ruta absoluta a la carpeta de resultados. Haga clic en Continuar a Resultados para continuar.
- La página web primero guiará al usuario a los resultados del clúster de coexpresión de WGCNA. Haga clic en Ver resultados en la ventana de diálogo para continuar.
- Busque los patrones de coexpresión de proteínas a la izquierda de la página Página de resultados 1: Salida de WGCNA . Haga clic en el cuadro desplegable Seleccionar el formato de expresión para navegar entre dos formatos de figura:
- Seleccione Tendencias para mostrar la gráfica de tendencias, con cada línea representando la abundancia de proteínas individuales en todas las muestras. El color de cada línea representa qué tan cerca está el patrón de expresión del consenso del clúster de coexpresión (es decir, "eigengene" según lo definido por el algoritmo WGCNA).
- Seleccione Boxplot para mostrar patrones de coexpresión en formato boxplot para cada muestra.
- Vea el mapa de calor de enriquecimiento de vía/ontología a la derecha de la página de salida de WGCNA. Las vías más enriquecidas para cada cúmulo se muestran juntas en un mapa de calor, con la intensidad del color reflejando el valor p ajustado de Benjamini-Hochberg.
- Desplácese hacia abajo en la página web para ver el patrón de expresión de proteínas individuales.
- Utilice el cuadro desplegable Seleccione el clúster de coexpresión para ver las proteínas de cada clúster (el valor predeterminado es clúster 1). Seleccione una proteína específica en la tabla, en la que la gráfica de barras debajo de la tabla se actualizará automáticamente para reflejar su abundancia de proteínas.
- Busque nombres de proteínas específicas usando el cuadro de búsqueda en el lado derecho de la tabla para una proteína específica.
- Para ver los resultados de PPI, haga clic en la página de resultados 2: Salida de PPI en la parte superior.
- Haga clic en Seleccionar el clúster de coexpresión para ver los resultados de un clúster de coexpresión específico (el valor predeterminado es el clúster 1). Las pantallas de todos los paneles de figuras de esta página se actualizarán para el clúster recién seleccionado.
- Vea las redes PPI del clúster de coexpresión seleccionado en el panel de figuras de la izquierda:
- Haga clic en el cuadro desplegable Seleccionar por grupo para resaltar los módulos PPI individuales dentro de la red. Haga clic en el cuadro desplegable Seleccionar un formato de diseño de red para cambiar el diseño de red (el valor predeterminado es de Fruchterman Reingold).
- Utilice el ratón y el trackpad para realizar los pasos 2.11.3-2.11.5.
- Acercar o alejar la red PPI según sea necesario. Los nombres genéticos de cada nodo de la red se mostrarán cuando se amplíen lo suficiente.
- Cuando se acerque, seleccione y haga clic en una determinada proteína para resaltar esa proteína y sus vecinos de red.
- Arrastre un determinado nodo (proteína) en la red para cambiar su posición en el diseño; por lo tanto, el diseño de la red puede ser reorganizado por el usuario.
- En el panel derecho de la página de resultados del PPI, vea la información de nivel de clúster de coexpresión que ayuda a la interpretación de los resultados del PPI:
- Vea el patrón de coexpresión del clúster seleccionado como diagrama de cuadro de forma predeterminada.
- Haga clic en el cuadro desplegable Seleccionar el formato de expresión para obtener más información o pantallas como se menciona en los pasos 2.12.3-2.12.5.
- Seleccione Tendencias para mostrar el gráfico de tendencias para el patrón de coexpresión.
- Seleccione Pathway Barplot para mostrar vías significativamente enriquecidas para el clúster de coexpresión.
- Seleccione Trazado de círculo de trazado para mostrar trazados significativamente enriquecidos para el clúster de coexpresión en el formato de trazado de círculo.
- Desplácese hacia abajo en la página web Página de resultados 2: Salida de PPI para ver los resultados en el nivel de módulo de PPI individual. Haga clic en el cuadro desplegable Seleccionar el módulo para seleccionar un módulo PPI específico para su visualización (Cluster1: El módulo 1 se muestra de forma predeterminada).
- Vea el módulo PPI en el panel izquierdo. Para manipular la visualización de la red, siga los pasos 2.11.2-2.11.5.
- Vea los resultados del enriquecimiento de la vía/ontología en el panel derecho. Haga clic en el cuadro desplegable Seleccionar el estilo de anotación de ruta para obtener más información y mostrar:
- Seleccione Barplot para mostrar rutas significativamente enriquecidas para el módulo PPI seleccionado.
- Seleccione Trazado de círculo para mostrar rutas significativamente enriquecidas para el módulo PPI seleccionado en el formato de un gráfico de círculo.
- Seleccione Mapa de calor para mostrar las vías significativamente enriquecidas y los nombres de genes asociados del módulo PPI seleccionado.
- Seleccione Tabla para mostrar los resultados detallados del enriquecimiento de la vía, incluido el nombre de las vías / términos ontológicos, los nombres de los genes y el valor P de la prueba exacta de Fisher.
- Vea la tabla de publicación en formato de hoja de cálculo: siga la ruta absoluta (impresa en la parte superior de ambas páginas de resultados) y busque la tabla de hoja de cálculo de publicación denominada ComprehensiveSummaryTables.xlsx.
3. Preparación del archivo de entrada y subida a JUMPn
NOTA: JUMPn toma como entrada la matriz de cuantificación de las proteínas expresadas diferencialmente (método supervisado) o de las proteínas más variables (método no supervisado). Si el objetivo del proyecto es comprender las proteínas cambiadas a través de múltiples condiciones (por ejemplo, diferentes grupos de enfermedades o análisis de series temporales del proceso biológico), se prefiere el método supervisado para realizar el análisis de DE; de lo contrario, se puede utilizar un enfoque no supervisado de selección de las proteínas más variables para el propósito exploratorio.
- Genere la tabla de cuantificación de proteínas, con cada proteína como filas y cada muestra como columnas. Logre esto a través de la moderna suite de software de proteómica basada en espectrometría de masas (por ejemplo, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
- Definir el proteoma variable.
- Utilice los resultados del análisis estadístico proporcionados por el conjunto de software de proteómica para definir proteínas expresadas diferencialmente (DE) (por ejemplo, con valor p ajustado < 0,05).
- Alternativamente, los usuarios pueden seguir el ejemplo del código R47 para definir DE o la mayoría de las proteínas variables.
- Formatee el archivo de entrada utilizando el proteoma de variable definido.
NOTA: El formato de archivo de entrada requerido (Figura 4) incluye una fila de encabezado; las columnas incluyen la adhesión de proteínas (o cualquier identificación única), GN (símbolos genéticos oficiales), descripción de proteínas (o cualquier información proporcionada por el usuario), seguida de cuantificación de proteínas de muestras individuales.
- Siga el orden de las columnas especificado en el paso 3.1, pero los nombres de columna del encabezado son flexibles para el usuario.
- Para el proteoma cuantificado TMT (o similar), utilice la intensidad resumida del informador TMT como valores de cuantificación de entrada. Para los datos sin etiqueta, utilice recuentos espectrales normalizados (por ejemplo, NSAF48) o métodos basados en la intensidad (por ejemplo, intensidad LFQ o intensidad de proteína iBAQ informada por Maxquant46).
- Los valores que faltan están permitidos para el análisis JUMPn. Asegúrese de etiquetarlos como NA en la matriz de cuantificación. Sin embargo, se recomienda utilizar únicamente proteínas con cuantificación en más del 50% de las muestras.
- Guarde el archivo de entrada resultante como formato .txt, .xlsx o .csv (los tres son compatibles con JUMPn).
- Cargar archivo de entrada:
- Haga clic en el botón Navegador y seleccione el archivo de entrada (Figura 3, panel izquierdo); el formato de archivo (xlsx, csv y txt son compatibles) se detectará automáticamente.
- Si el archivo de entrada contiene valores de cuantificación similares a la intensidad (por ejemplo, los generados por JUMP suite39) o similares a la relación (por ejemplo, de Proteome Discoverer), seleccione Sí para la opción Ejecutar log2-Transformación de datos; de lo contrario, es posible que los datos ya se hayan transformado en el registro, así que seleccione No para esta opción.
4. Análisis de agrupamiento de coexpresión
NOTA: Nuestro grupo 25,26,27 y otros 28,29,31 han demostrado que WGCNA49 es un método eficaz para el análisis de agrupación de coexpresión de proteómica cuantitativa. JUMPn sigue un procedimiento de 3 pasos para el análisis WGCNA25,50: (i) definición inicial de grupos de coexpresión génica/proteína mediante el corte dinámico de árboles51 basado en la matriz de superposición topológica (TOM; determinada por similitudes de cuantificación entre genes/proteínas); ii) fusión de agrupaciones similares para reducir la redundancia (basada en el dendrograma de similitudes entre genes propios); y (iii) asignación final de genes/proteínas a cada grupo que exceda el límite mínimo de correlación de Pearson.
- Configure los parámetros WGCNA (Figura 3, panel central). Los tres parámetros siguientes controlan los tres pasos, respectivamente:
- Establezca el tamaño mínimo del clúster como 30. Este parámetro define el número mínimo de proteínas requeridas para cada clúster de coexpresión en el paso inicial (i) del corte dinámico de árboles híbrido basado en TOM. Cuanto mayor sea el valor, menor será el número de clústeres devueltos por el algoritmo.
- Establezca la distancia mínima del clúster como 0,2. Aumentar este valor (por ejemplo, de 0,2 a 0,3) puede provocar una mayor fusión de clústeres durante el paso ii), lo que da como resultado un menor número de clústeres.
- Establezca kME mínimo como 0.7. Las proteínas se asignarán al grupo más correlacionado definido en el paso (ii), pero solo se conservarán las proteínas con correlación de Pearson que supere este umbral. Las proteínas que fallen en este paso no se asignarán a ningún clúster (clúster 'NA' para las proteínas fallidas en el informe final).
- Inicie el análisis. Hay dos formas de enviar el análisis de agrupación en clústeres de coexpresión:
- Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para iniciar el análisis exhaustivo de WGCNA automáticamente seguido del análisis de red PPI.
- Alternativamente, seleccione ejecutar solo el paso WGCNA (especialmente con el fin de ajustar los parámetros; consulte los pasos 4.2.3-4.2.4):
- Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. En el widget inferior, Seleccione el modo de análisis, seleccione Solo WGCNA y, a continuación, haga clic en Descartar para continuar.
- En la página Comenzar análisis , haga clic en el botón Enviar análisis JUMPn .
- En cualquiera de los casos anteriores, aparecerá una barra de progreso al enviar el análisis.
NOTA: Una vez finalizado el análisis (normalmente < 1 minuto para el análisis WGCNA Only y <3 min para el análisis completo), aparecerá un cuadro de diálogo con un mensaje de ejecución correcta y la ruta absoluta a la carpeta de resultados.
- Examine los resultados de WGCNA como se ilustra en los pasos 2.4-2.8 (Figura 5). Tenga en cuenta que la ruta absoluta al archivo co_exp_clusters_3colums.txt está resaltada en la parte superior de la página de resultados: Salida WGCNA para registrar la pertenencia al clúster de cada proteína y usarla como entrada para el análisis PPI Only .
- Solución de problemas. Se discuten los siguientes tres casos comunes. Una vez que los parámetros se actualicen como se describe a continuación, siga los pasos 4.2.2-4.2.4 para generar nuevos resultados de WGCNA.
- Si se espera un patrón de coexpresión importante de los datos pero el algoritmo lo omite, siga los pasos 4.4.2-4.4.4
- Un grupo faltante es especialmente probable para grupos pequeños de coexpresión, es decir, solo un número limitado (por ejemplo, <30) de proteínas que exhiben este patrón. Antes del nuevo análisis, vuelva a examinar el archivo de entrada de la matriz de cuantificación de proteínas y localice varias proteínas de control positivas que se adhieran a ese importante patrón de coexpresión.
- Para rescatar los clústeres pequeños, disminuya el tamaño mínimo del clúster (por ejemplo, 10; el tamaño del clúster inferior a 10 puede no ser robusto, por lo que no se recomienda) y disminuya la distancia mínima del clúster (por ejemplo, 0,1; aquí también se permite la configuración como 0, lo que significa que se omitirá la fusión automática del clúster).
- Después de ejecutar el paso de agrupación en clústeres de coexpresión con los parámetros actualizados, primero, verifique si el clúster se rescata de las gráficas de patrones de coexpresión y, a continuación, verifique los controles positivos buscando sus accesiones de proteínas en Cuantificación detallada de proteínas (asegúrese de seleccionar el clúster de coexpresión apropiado en el widget desplegable del lado izquierdo antes de la búsqueda).
NOTA: Es posible que se necesiten varias iteraciones de ajuste y repetición de parámetros para el rescate.
- Si hay demasiadas proteínas que no se pueden asignar a ningún grupo, siga los pasos 4.4.6-4.4.7.
NOTA: Por lo general, un pequeño porcentaje (generalmente <10%) de proteínas puede no asignarse a ningún grupo, ya que pueden ser proteínas atípicas que no siguieron ninguno de los patrones de expresión comunes del conjunto de datos. Sin embargo, si dicho porcentaje es significativo (por ejemplo, >30%), sugiere que existen patrones de coexpresión adicionales que no se pueden ignorar.
- Disminuya los parámetros Tamaño mínimo de clúster y Distancia mínima de clúster para aliviar esta situación mediante la detección de clústeres de coexpresión "nuevos".
- Además, disminuya el parámetro de correlación mínima de Pearson (kME) para reducir estas proteínas de 'grupo NA'.
NOTA: Ajustar este parámetro no generará nuevos clústeres, sino que aumentará el tamaño de los clústeres "existentes" al aceptar más proteínas previamente fallidas con el umbral más bajo; sin embargo, esto también aumentará la heterogeneidad de cada grupo, ya que ahora se permiten proteínas más ruidosas.
- Dos grupos tienen una diferencia muy pequeña de patrones; combinarlos en un clúster siguiendo los pasos 4.4.9-4.4.11.
- Aumente el parámetro Distancia mínima del clúster para resolver el problema.
- Sin embargo, en algunas situaciones, es posible que el algoritmo nunca devuelva el patrón deseado; en tal instante, ajuste o edite manualmente la pertenencia al clúster en el archivo co_exp_clusters_3colums.txt (archivo del paso 4.3) para fusionar.
- Tome el archivo post-editado como entrada para el análisis de red PPI descendente. En caso de edición manual, justifique los criterios de asignación de clústeres y registre el procedimiento de edición manual.
5. Análisis de la red de interacción proteína-proteína
NOTA: Al superponer clústeres de coexpresión en la red PPI, cada clúster de coexpresión se estratifica aún más en módulos PPI más pequeños. El análisis se realiza para cada clúster de coexpresión e incluye dos etapas: en la primera etapa, JUMPn superpone proteínas del clúster de coexpresión a la red PPI y encuentra todos los componentes conectados (es decir, múltiples grupos de nodos / proteínas conectados; como ejemplo, ver Figura 6A); luego, se detectarán comunidades o módulos (de nodos densamente conectados) para cada componente conectado de forma iterativa utilizando el método52 de matriz de superposición topológica (TOM).
- Configure los parámetros para el análisis de red PPI (Figura 3, panel derecho).
- Establezca el tamaño mínimo del módulo PPI como 2. Este parámetro define el tamaño mínimo de los componentes desconectados del análisis de la primera etapa. Cualquier componente menor que el parámetro especificado se eliminará de los resultados finales.
- Establezca el tamaño máximo del módulo PPI como 40. Los componentes grandes y desconectados que superen este umbral se someterán a un análisis basado en TOM de segunda etapa. El análisis de la segunda etapa dividirá aún más cada componente grande en módulos más pequeños: cada módulo presumiblemente contiene proteínas más densamente conectadas que el componente original en su conjunto.
- Inicie el análisis. Hay dos formas de enviar el análisis de red PPI:
- Presione el botón Enviar análisis JUMPn para realizar automáticamente el análisis PPI después del análisis WGCNA de forma predeterminada.
- Como alternativa, cargue resultados personalizados del clúster de coexpresión y realice un análisis de solo PPI siguiendo los pasos 5.2.3-5.2.5.
- Prepare el archivo de entrada siguiendo el formato del archivo co_exp_clusters_3colums.txt (consulte la subsección 4.4).
- Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. En la sesión superior Cargar resultado del clúster de coexpresión para el análisis 'Solo PPI', haga clic en Navegador para cargar el archivo de entrada preparado por el paso 5.2.3.
- En el widget inferior, Seleccione el modo de análisis, seleccione solo PPI y luego haga clic en Descartar para continuar. En la página Comenzar análisis , haga clic en el botón Enviar análisis JUMPn .
- Una vez finalizado el análisis (normalmente <3 min), examine los resultados del IPP como se ilustra en los pasos 2.10-2.15 (Figura 6).
- Paso avanzado opcional) Ajuste la modularización del PPI ajustando los parámetros:
- Aumente el parámetro Tamaño máximo del módulo para permitir que se incluyan más proteínas en los resultados del PPI. Cargue la red PPI personalizada para cubrir las interacciones no documentadas, siguiendo los pasos 5.4.2-5.4.3.
- Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. Prepare el archivo PPI personalizado, que contiene tres columnas en formato de , conexión C y ; aquí se presentan por los nombres genéticos oficiales de cada proteína.
- En Cargar una base de datos PPI, haga clic en el botón Examinar para cargar el archivo PPI personalizado.
6. Análisis de enriquecimiento de vías
NOTA: Las estructuras jerárquicas derivadas de JUMPn de los clústeres de coexpresión y los módulos PPI dentro se anotan automáticamente con vías sobrerrepresentadas utilizando la prueba exacta de Fisher. Las bases de datos de vía/topología utilizadas incluyen Gene Ontology (GO), KEGG, Hallmark y Reactome. Los usuarios pueden utilizar opciones avanzadas para cargar bases de datos personalizadas para el análisis (por ejemplo, en el caso de analizar datos de especies no humanas).
- De forma predeterminada, el análisis de enriquecimiento de vías se inicia automáticamente con la agrupación en clústeres de coexpresión y el análisis de red PPI.
- Vea los resultados del enriquecimiento de la vía:
- Siga los pasos 2.7, 2.12 y 2.15 para visualizar diferentes formatos en las páginas de resultados. Vea los resultados detallados en la tabla de publicación de la hoja de cálculo en el archivo .xlsx ComprehensiveSummaryTables (paso 2.16).
- (Paso avanzado opcional) Cargue una base de datos personalizada para el análisis de enriquecimiento de vías:
- Prepare el archivo de antecedentes genéticos, que generalmente contiene los nombres genéticos oficiales de todos los genes de una especie.
- Prepare el archivo de biblioteca de ontología siguiendo los pasos 6.3.3-6.3.4.
- Descargue los archivos de la biblioteca de ontología de sitios web públicos, incluidos EnrichR53 y MSigDB54. Por ejemplo, descargue ontología de Drosophila desde el sitio web de EnrichR55.
- Edite el archivo descargado para el formato requerido con dos columnas: el nombre de la ruta como la primera columna y luego los símbolos genéticos oficiales (separados por "/") como la segunda columna. El formato de archivo detallado se describe en la página de Ayuda del software JUMPn R shiny.
NOTA: Busque archivos de ejemplo de fondo genético y biblioteca de ontología (usando Drosophila como instancia) en el sitio JUMPn GitHub56.
- Haga clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis; aparecerá una nueva ventana de parámetros.
- Busque el elemento Cargar un archivo de fondo para el análisis de enriquecimiento de rutas y haga clic en Navegador para cargar el archivo de fondo preparado en el paso 6.3.1. Luego, en la sesión, seleccione el fondo que se utilizará para el análisis de enriquecimiento de la vía, haga clic en Fondo proporcionado por el usuario.
- Busque el elemento Cargar un archivo de biblioteca de ontología para el análisis de enriquecimiento de vías y haga clic en Navegador para cargar el archivo de biblioteca de ontologías preparado en los pasos 6.3.2-6.3.4. Luego, en la sesión, Seleccione Bases de datos para el análisis de enriquecimiento de rutas, haga clic en Base de datos suministrada por el usuario en formato .xlsx.
- Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para iniciar el análisis utilizando la base de datos personalizada.
7. Análisis del conjunto de datos con gran tamaño de muestra
NOTA: JUMPn admite el análisis de conjuntos de datos con un gran tamaño de muestra (hasta 200 muestras probadas). Para facilitar la visualización de un tamaño de muestra grande, se necesita un archivo adicional (denominado "meta archivo") que especifique el grupo de ejemplo para facilitar la visualización de los resultados de la agrupación en clústeres de coexpresión.
- Prepare y cargue el meta archivo.
- Prepare el metaarchivo que especifique la información del grupo (por ejemplo, grupos de control y de enfermedades) para cada muestra siguiendo los pasos 7.1.2-7.1.3.
- Asegúrese de que el metaarchivo contenga al menos dos columnas: la columna 1 debe contener los nombres de muestra idénticos a los nombres de columna y el orden del archivo de matriz de cuantificación de proteínas (como se prepara en el paso 3.3); La columna 2 en adelante se utilizará para la asignación de grupos para cualquier número de características definidas por el usuario. El número de columnas es flexible.
- Asegúrese de que la primera fila del meta archivo contiene los nombres de columna para cada columna; a partir de la segunda fila, se debe enumerar la información de la muestra individual de grupos u otras características (por ejemplo, sexo, edad, tratamiento, etc.).
- Cargue el meta archivo haciendo clic en el botón Parámetros avanzados en la parte inferior de la página Comenzar análisis ; aparecerá una nueva ventana de parámetros. Continúe con el paso 7.1.5
- Busque Cargar un elemento de archivo meta y haga clic en Navegador para cargar el archivo de fondo. Si JUMPn detecta el formato inesperado o los nombres de ejemplo no coincidentes, aparecerá un mensaje de error para formatear más el meta archivo (pasos 7.1.1-7.1.3).
- Ajuste los parámetros para el análisis de agrupación en clústeres de coexpresión: establezca Correlación mínima de Pearson como 0,2. Este parámetro debe relajarse debido al mayor tamaño de la muestra.
- Haga clic en el botón Enviar análisis JUMPn en la esquina inferior derecha para enviar el análisis.
- Ver resultados del análisis: todos los resultados de los datos son los mismos, excepto para mostrar los patrones de clúster de coexpresión.
- En la página Página de resultados 1: Salida de WGCNA , visualice los clústeres de coexpresión como diagramas de caja con muestras estratificadas por los grupos de muestra o características definidos por el usuario. Cada punto en la gráfica representa el gen propio (es decir, el patrón de consenso del clúster) calculado por el algoritmo WGCNA.
- Si el usuario proporcionó varias características (por ejemplo, edad, sexo, tratamiento, etc.) para agrupar las muestras, haga clic en el cuadro desplegable Seleccionar el formato de expresión para seleccionar otra función para agrupar las muestras.