NOTA: In questo protocollo, l'uso di JUMPn è illustrato utilizzando un set di dati pubblicato di profilazione dell'intero proteoma durante la differenziazione delle cellule B quantificata dal reagente isobarico dell'etichetta TMT27.
1. Configurazione del software JUMPn
NOTA: per la configurazione del software JUMPn sono disponibili due opzioni: (i) installazione su un computer locale per uso personale; e (ii) distribuzione di JUMPn su un Shiny Server remoto per più utenti. Per l'installazione locale, un personal computer con accesso a Internet e ≥4 Gb di RAM è sufficiente per eseguire l'analisi JUMPn per un set di dati con una dimensione del campione ridotta (n < 30); per l'analisi di coorte di grandi dimensioni è necessaria una RAM più grande (ad esempio, 16 Gb) (ad esempio, n = 200 campioni).
- Installare il software in un computer locale. Dopo l'installazione, consentire al browser Web di avviare JUMPn e lasciare che l'analisi venga eseguita sul computer locale.
- Installare anaconda42 o miniconda43 seguendo le istruzioni online.
- Scarica il codice sorgente JUMPn41. Fare doppio clic per decomprimere il file scaricato JUMPn_v_1.0.0.zip; verrà creata una nuova cartella denominata JUMPn_v_1.0.0.
- Apri il terminale della riga di comando. In Windows, utilizzare il prompt di Anaconda. Su MacOS, usa l'applicazione Terminale integrata.
- Creare l'ambiente JUMPn Conda: ottenere il percorso assoluto della cartella JUMPn_v_1.0.0 (ad esempio, /path/to/JUMPn_v_1.0.0). Per creare e attivare un ambiente Conda vuoto digitare i seguenti comandi sul terminale
conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
conda activate /path/to/JUMPn_v_1.0.0/JUMPn
- Installare le dipendenze JUMPn: Installare R (sul terminale, digitare conda install -c conda-forge r=4.0.0 -y), modificare la directory corrente nella cartella JUMPn_v_1.0.0 (sul terminale, digitare cd path/to/JUMPn_v_1.0.0) e installare i pacchetti di dipendenza (sul terminale, digitare Rscript bootstrap. R)
- Avvia JUMPn sul browser web: cambia la directory corrente nella cartella di esecuzione (sul terminale, digita cd execution) e avvia JUMPn (sul terminale, digita R -e "shiny::runApp()")
- Una volta eseguito quanto sopra, la schermata del terminale verrà visualizzata In ascolto su http://127.0.0.1:XXXX (qui XXXX indica 4 numeri casuali). Copiare e incollare http://127.0.0.1:XXXX nel browser Web, in cui verrà visualizzata la pagina di benvenuto di JUMPn (Figura 2).
- Distribuzione su Shiny Server. Esempi di Shiny Server includono il server commerciale shinyapps.io o qualsiasi server Shiny supportato istituzionalmente.
- Scarica e installa RStudio seguendo le istruzioni44.
- Ottenere l'autorizzazione di distribuzione per Shiny Server. Per il server shinyapps.io, configurare l'account utente seguendo le istruzioni45. Per il server Shiny istituzionale, contattare l'amministratore del server per richiedere le autorizzazioni.
- Scaricare il codice sorgente JUMPn41 sul computer locale; l'installazione non è necessaria. Aprire il server. R o ui. R in RStudio e fai clic sul menu a discesa Pubblica su server in alto a destra dell'IDE di RStudio.
- Nel pannello Pubblica su account , digitate l'indirizzo del server. Premere il pulsante Pubblica . La corretta distribuzione viene convalidata in caso di reindirizzamento automatico da RStudio al server RShiny in cui è stata distribuita l'applicazione.
2. Esecuzione della demo utilizzando un set di dati di esempio
NOTA: JUMPn offre un'esecuzione demo utilizzando il set di dati di proteomica delle cellule B pubblicato. L'esecuzione della demo illustra un flusso di lavoro semplificato che prende la matrice di quantificazione delle proteine differenzialmente espresse come input ed esegue il clustering di co-espressione, l'arricchimento del percorso e l'analisi della rete PPI in sequenza.
- Nella home page di JUMPn (Figura 2), fare clic sul pulsante Inizia analisi per avviare l'analisi JUMPn.
- Nell'angolo in basso a sinistra della pagina Inizia analisi (Figura 3), fare clic sul pulsante Carica dati proteomici B Cell Demo ; apparirà una finestra di dialogo che notifica l'esito positivo del caricamento dei dati.
- Nell'angolo in basso a destra della pagina, fai clic sul pulsante Invia analisi JUMPn per avviare l'esecuzione della demo utilizzando i parametri predefiniti; apparirà una barra di avanzamento che denota il corso dell'analisi. Attendere fino a quando la barra di avanzamento non è soddisfatta (3 minuti previsti).
- Al termine dell'esecuzione della demo, verrà visualizzata una finestra di dialogo con il messaggio di esecuzione riuscita e il percorso assoluto della cartella dei risultati. Clicca su Continua ai risultati per continuare.
- La pagina Web guiderà innanzitutto l'utente ai risultati del cluster di coespressione di WGCNA. Fare clic su Visualizza risultati nella finestra di dialogo per continuare.
- Trova i modelli di co-espressione proteica a sinistra della pagina dei risultati 1: Output WGCNA . Fare clic sulla casella a discesa Seleziona formato espressione per spostarsi tra due formati di figure:
- Selezionare Tendenze per visualizzare il grafico delle tendenze, con ogni riga che rappresenta l'abbondanza di proteine individuali tra i campioni. Il colore di ogni riga rappresenta quanto sia vicino il modello di espressione al consenso del cluster di co-espressione (cioè "autogene" come definito dall'algoritmo WGCNA).
- Selezionare Boxplot per visualizzare i modelli di coespressione in formato boxplot per ogni campione.
- Visualizza la mappa di calore dell'arricchimento del percorso/ontologia a destra della pagina di output di WGCNA. I percorsi più arricchiti per ciascun cluster sono visualizzati insieme in una mappa di calore, con l'intensità del colore che riflette il valore p regolato da Benjamini-Hochberg.
- Scorrere verso il basso la pagina Web per visualizzare il modello di espressione per le singole proteine.
- Utilizzare la casella a discesa Selezionare il cluster di co-espressione per visualizzare le proteine di ciascun cluster (l'impostazione predefinita è Cluster 1). Seleziona una proteina specifica nella tabella, su cui il grafico a barre sotto la tabella verrà automaticamente aggiornato per riflettere la sua abbondanza proteica.
- Cerca nomi di proteine specifiche utilizzando la casella di ricerca sul lato destro della tabella per una proteina specifica.
- Per visualizzare i risultati PPI, fare clic sulla pagina dei risultati 2: Output PPI in alto.
- Fare clic su Seleziona il cluster di co-espressione per visualizzare i risultati per uno specifico cluster di co-espressione (l'impostazione predefinita è il cluster 1). Le visualizzazioni di tutti i pannelli delle figure in questa pagina verranno aggiornate per il cluster appena selezionato.
- Visualizzare le reti PPI per il cluster di coespressione selezionato nel pannello di sinistra:
- Fare clic sulla casella a discesa Seleziona per gruppo per evidenziare i singoli moduli PPI all'interno della rete. Fare clic sulla casella a discesa Seleziona un formato di layout di rete per modificare il layout di rete (l'impostazione predefinita è di Fruchterman Reingold).
- Utilizzare il mouse e il trackpad per eseguire i passaggi 2.11.3-2.11.5.
- Ingrandire o rimpicciolire la rete PPI in base alle esigenze. I nomi dei geni di ciascun nodo della rete verranno mostrati quando vengono ingranditi a sufficienza.
- Quando si esegue lo zoom avanti, selezionare e fare clic su una determinata proteina per evidenziare quella proteina e i suoi vicini di rete.
- Trascinare un determinato nodo (proteina) nella rete per cambiarne la posizione nel layout; in tal modo il layout di rete può essere riorganizzato dall'utente.
- Nel pannello di destra della pagina dei risultati PPI visualizzare le informazioni a livello di cluster di coespressione che facilitano l'interpretazione dei risultati PPI:
- Visualizzare il modello di coespressione del cluster selezionato come boxplot per impostazione predefinita.
- Fare clic sulla casella a discesa Seleziona il formato dell'espressione per ulteriori informazioni o visualizzazioni come indicato nei passaggi 2.12.3-2.12.5.
- Selezionare Tendenze per visualizzare il grafico delle tendenze per il modello di coespressione.
- Selezionare Pathway Barplot per mostrare percorsi significativamente arricchiti per il cluster di co-espressione.
- Selezionate Diagramma cerchio percorso (Pathway Circle Plot ) per visualizzare percorsi significativamente arricchiti per il cluster di coespressione nel formato di grafico cerchio.
- Scorrere verso il basso la pagina Web Dei risultati 2: Output PPI per visualizzare i risultati a livello di singolo modulo PPI. Fare clic sulla casella a discesa Seleziona il modulo per selezionare un modulo PPI specifico per la visualizzazione (Cluster1: Modulo 1 viene visualizzato per impostazione predefinita).
- Visualizza il modulo PPI sul pannello di sinistra. Per manipolare la visualizzazione di rete, attenersi alla procedura 2.11.2-2.11.5.
- Visualizza i risultati dell'arricchimento del percorso/ontologia sul pannello di destra. Fare clic sulla casella a discesa Seleziona lo stile di annotazione del percorso per ulteriori informazioni e visualizzare:
- Selezionare Barplot per mostrare percorsi significativamente arricchiti per il modulo PPI selezionato.
- Selezionate Plot cerchio (Circle Plot ) per visualizzare percorsi significativamente arricchiti per il modulo PPI selezionato nel formato di un grafico circolare.
- Selezionare Heatmap per mostrare i percorsi significativamente arricchiti e i nomi dei geni associati dal modulo PPI selezionato.
- Selezionare Tabella per visualizzare i risultati dettagliati dell'arricchimento del percorso, inclusi il nome dei termini di pathways/ontologia, i nomi dei geni e il valore P dal test esatto di Fisher.
- Visualizzare la tabella di pubblicazione in formato foglio di calcolo: seguire il percorso assoluto (stampato nella parte superiore di entrambe le pagine dei risultati) e trovare la tabella del foglio di calcolo di pubblicazione denominata ComprehensiveSummaryTables.xlsx.
3. Preparazione del file di input e caricamento su JUMPn
NOTA: JUMPn prende come input la matrice di quantificazione delle proteine differenzialmente espresse (metodo supervisionato) o delle proteine più variabili (metodo non supervisionato). Se l'obiettivo del progetto è comprendere le proteine cambiate in più condizioni (ad esempio, diversi gruppi di malattie o analisi di serie temporali del processo biologico), è preferibile il metodo supervisionato per eseguire l'analisi DE; in caso contrario, un approccio non supervisionato di selezione delle proteine più variabili può essere utilizzato a scopo esplorativo.
- Generare la tabella di quantificazione delle proteine, con ogni proteina come righe e ogni campione come colonne. Raggiungi questo obiettivo attraverso la moderna suite software di proteomica basata sulla spettrometria di massa (ad esempio, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
- Definire il proteoma variabile.
- Utilizzare i risultati dell'analisi statistica forniti dalla suite di software di proteomica per definire le proteine differenzialmente espresse (DE) (ad esempio, con valore p aggiustato < 0,05).
- In alternativa, gli utenti possono seguire l'esempio R codice47 per definire DE o la maggior parte delle proteine variabili.
- Formattare il file di input utilizzando il proteoma variabile definito.
NOTA: il formato di file di input richiesto (Figura 4) include una riga di intestazione; le colonne includono l'adesione alle proteine (o eventuali ID univoci), GN (simboli genetici ufficiali), descrizione delle proteine (o qualsiasi informazione fornita dall'utente), seguita dalla quantificazione proteica dei singoli campioni.
- Seguire l'ordine delle colonne specificato nel passaggio 3.1, ma i nomi delle colonne dell'intestazione sono flessibili per l'utente.
- Per il proteoma quantificato TMT (o simile), utilizzare l'intensità del reporter TMT riepilogata come valori di quantificazione dell'input. Per i dati privi di etichette, utilizzare conteggi spettrali normalizzati (ad esempio, NSAF48) o metodo basato sull'intensità (ad esempio, intensità LFQ o intensità della proteina iBAQ riportata da Maxquant46).
- I valori mancanti sono consentiti per l'analisi JUMPn. Assicurarsi di etichettarli come NA nella matrice di quantificazione. Tuttavia, si raccomanda di utilizzare proteine con quantificazione solo in oltre il 50% dei campioni.
- Salvare il file di input risultante in formato .txt, .xlsx o .csv (tutti e tre sono supportati da JUMPn).
- Carica file di input:
- Fare clic sul pulsante Browser e selezionare il file di input (Figura 3, pannello di sinistra); il formato di file (xlsx, csv e txt sono supportati) verrà rilevato automaticamente.
- Se il file di input contiene valori di quantificazione simili all'intensità (ad esempio, quelli generati dalla suite JUMP39) o simili al rapporto (ad esempio, da Proteome Discoverer), selezionare Sì per l'opzione Esegui log2-trasformazione dei dati; in caso contrario, i dati potrebbero essere già stati trasformati nel registro, quindi selezionare No per questa opzione.
4. Analisi del clustering di co-espressione
NOTA: Il nostro gruppo 25,26,27 e altri 28,29,31 hanno dimostrato WGCNA 49 un metodo efficace per l'analisi del clustering di co-espressione della proteomica quantitativa. JUMPn segue una procedura in 3 fasi per l'analisi WGCNA25,50: (i) definizione iniziale di cluster gene/proteina di co-espressione mediante taglio dinamico dell'albero51 basato sulla matrice di sovrapposizione topologica (TOM; determinato dalle somiglianze di quantificazione tra geni/proteine); ii) fusione di cluster simili per ridurre la ridondanza (sulla base del dendrogramma delle somiglianze degli autogeni); e (iii) assegnazione finale di geni/proteine a ciascun cluster che superano il limite minimo di correlazione di Pearson.
- Configurare i parametri WGCNA (Figura 3, pannello centrale). I tre parametri seguenti controllano rispettivamente i tre passaggi:
- Impostare la dimensione minima del cluster su 30. Questo parametro definisce il numero minimo di proteine richieste per ogni cluster di co-espressione nella fase iniziale (i) del taglio dinamico dinamico ibrido basato su TOM. Maggiore è il valore, minore è il numero di cluster restituiti dall'algoritmo.
- Impostare la distanza minima del cluster su 0,2. L'aumento di questo valore (ad esempio, da 0,2 a 0,3) può causare una maggiore fusione di cluster durante il passaggio (ii), con conseguente riduzione del numero di cluster.
- Impostare il kME minimo su 0,7. Le proteine saranno assegnate al cluster più correlato definito nel passaggio (ii), ma solo le proteine con correlazione di Pearson che supera questa soglia saranno mantenute. Le proteine che falliscono in questa fase non saranno assegnate a nessun cluster (cluster 'NA' per le proteine fallite nel rapporto finale).
- Avviare l'analisi. Esistono due modi per inviare l'analisi del clustering di coespressione:
- Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per avviare automaticamente l'analisi completa di WGCNA seguita dall'analisi della rete PPI.
- In alternativa, selezionare per eseguire solo il passaggio WGCNA (in particolare ai fini dell'ottimizzazione dei parametri; vedere i passaggi 4.2.3-4.2.4):
- Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Nel widget in basso, Seleziona modalità di analisi, seleziona Solo WGCNA, quindi fai clic su Ignora per continuare.
- Nella pagina Inizia analisi , fare clic sul pulsante Invia analisi JUMPn .
- In entrambi i casi sopra, una barra di avanzamento apparirà al momento dell'invio dell'analisi.
NOTA: al termine dell'analisi (in genere < 1 minuto per l'analisi solo WGCNA e <3 minuti per l'analisi completa), verrà visualizzata una finestra di dialogo con un messaggio di esecuzione riuscita e il percorso assoluto della cartella dei risultati.
- Esaminare i risultati del WGCNA come illustrato nei passaggi 2.4-2.8 (Figura 5). Si noti che il percorso assoluto del file co_exp_clusters_3colums.txt è evidenziato nella parte superiore della pagina dei risultati: WGCNA Output per registrare l'appartenenza al cluster di ciascuna proteina e utilizzarla come input per l'analisi PPI Only .
- Risoluzione dei problemi. Vengono discussi i seguenti tre casi comuni. Una volta aggiornati i parametri come illustrato di seguito, seguire i passaggi 4.2.2-4.2.4 per generare nuovi risultati WGCNA.
- Se dall'algoritmo è previsto un importante modello di co-espressione ma non è stato raggiunto dall'algoritmo, seguire i passaggi 4.4.2-4.4.4
- Un cluster mancante è particolarmente probabile per piccoli cluster di co-espressione, cioè solo un numero limitato (ad esempio, <30) di proteine che presentano questo modello. Prima della nuova analisi, riesaminare il file di input della matrice di quantificazione delle proteine e individuare diverse proteine di controllo positive che aderiscono a quell'importante modello di co-espressione.
- Per salvare i cluster di piccole dimensioni, ridurre la dimensione minima del cluster (ad esempio, 10; la dimensione del cluster inferiore a 10 potrebbe non essere robusta, quindi non consigliata) e diminuire la distanza minima del cluster (ad esempio, 0,1; qui è consentita anche l'impostazione come 0, il che significa che l'unione automatica del cluster verrà saltata).
- Dopo aver eseguito il passaggio di clustering di co-espressione con i parametri aggiornati, in primo luogo, verificare se il cluster viene salvato dai grafici del modello di co-espressione, quindi controllare i controlli positivi cercando le loro accessioni proteiche da Detailed Protein Quantification (assicurarsi di selezionare il cluster di co-espressione appropriato dal widget a discesa sul lato sinistro prima della ricerca).
NOTA: per il ripristino potrebbero essere necessarie più iterazioni di ottimizzazione ed esecuzione dei parametri.
- Se ci sono troppe proteine che non possono essere assegnate a nessun cluster, seguire i passaggi 4.4.6-4.4.7.
NOTA: Di solito, una piccola percentuale (in genere <10%) di proteine potrebbe non essere assegnata a nessun cluster in quanto potrebbero essere proteine anomale che non hanno seguito nessuno dei modelli di espressione comuni del set di dati. Tuttavia, se tale percentuale è significativa (ad esempio, >30%), suggerisce che esistono ulteriori modelli di co-espressione che non possono essere ignorati.
- Ridurre i parametri Dimensione minima cluster e Distanza minima cluster per alleviare questa situazione rilevando "nuovi" cluster di coespressione.
- Inoltre, ridurre il parametro Minimal Pearson Correlation (kME) per ridurre queste proteine "NA cluster".
NOTA: l'ottimizzazione di questo parametro non genererà nuovi cluster, ma aumenterà invece la dimensione dei cluster "esistenti" accettando più proteine precedentemente fallite con la soglia inferiore; tuttavia, ciò aumenterà anche l'eterogeneità di ciascun cluster, poiché ora sono consentite proteine più rumorose.
- Due cluster hanno una differenza molto minore di modelli; unirli in un unico cluster seguendo i passaggi 4.4.9-4.4.11.
- Aumentare il parametro Minimal Cluster Distance per risolvere il problema.
- Tuttavia, in alcune situazioni, l'algoritmo potrebbe non restituire mai il modello desiderato; in un istante del genere, regolare o modificare manualmente l'appartenenza al cluster nel file co_exp_clusters_3colums.txt (file dal passaggio 4.3) da unire.
- Prendi il file post-modificato come input per l'analisi della rete PPI a valle. In caso di modifica manuale, giustificare i criteri di assegnazione del cluster e registrare la procedura di modifica manuale.
5. Analisi della rete di interazione proteina-proteina
NOTA: sovrapponendo cluster di coespressione alla rete PPI, ogni cluster di coespressione viene ulteriormente stratificato in moduli PPI più piccoli. L'analisi viene eseguita per ogni cluster di co-espressione e comprende due fasi: nella prima fase, JUMPn sovrappone le proteine del cluster di co-espressione alla rete PPI e trova tutti i componenti collegati (cioè più cluster di nodi/proteine connessi; ad esempio, vedi Figura 6A); quindi, comunità o moduli (di nodi densamente connessi) verranno rilevati per ciascun componente connesso iterativamente utilizzando il metodo TOM (Topological Overlap Matrix)52.
- Configurare i parametri per l'analisi della rete PPI (Figura 3, pannello di destra).
- Impostare La dimensione minima del modulo PPI su 2. Questo parametro definisce la dimensione minima dei componenti disconnessi dall'analisi della prima fase. Qualsiasi componente più piccolo del parametro specificato verrà rimosso dai risultati finali.
- Impostare la dimensione massima del modulo PPI su 40. I componenti di grandi dimensioni e disconnessi che superano questa soglia saranno sottoposti a un'analisi basata su TOM di seconda fase. L'analisi del secondo stadio dividerà ulteriormente ogni componente di grandi dimensioni in moduli più piccoli: ogni modulo contiene presumibilmente proteine più densamente connesse rispetto al componente originale nel suo complesso.
- Avviare l'analisi. Esistono due modi per inviare l'analisi della rete PPI:
- Premere il pulsante Invia analisi JUMPn per eseguire automaticamente l'analisi PPI dopo l'analisi WGCNA per impostazione predefinita.
- In alternativa, caricare i risultati del cluster di coespressione personalizzati ed eseguire l'analisi solo PPI seguendo i passaggi 5.2.3-5.2.5.
- Preparare il file di input seguendo il formato del file co_exp_clusters_3colums.txt (vedere la sottosezione 4.4).
- Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Nella sessione superiore Upload Co-Expression Cluster Result for 'PPI Only' Analysis, fare clic su Browser per caricare il file di input preparato al passaggio 5.2.3.
- Nel widget in basso, Seleziona modalità di analisi, seleziona Solo PPI, quindi fai clic su Ignora per continuare. Nella pagina Inizia analisi , fare clic sul pulsante Invia analisi JUMPn .
- Una volta terminata l'analisi (in genere <3 min), esaminare i risultati PPI come illustrato nei passaggi 2.10-2.15 (Figura 6).
- Passaggio avanzato opzionale) Regolare la modularizzazione PPI regolando i parametri:
- Aumentare il parametro Maximal Module Size per consentire più proteine incluse nei risultati PPI. Carica una rete PPI personalizzata per coprire le interazioni non documentate, seguendo i passaggi 5.4.2-5.4.3.
- Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Preparare il file PPI personalizzato, che contiene tre colonne nel formato , C onnection e ; qui sono presentati dai nomi ufficiali dei geni di ciascuna proteina.
- In Carica un database PPI, fare clic sul pulsante Sfoglia per caricare il file PPI personalizzato.
6. Analisi dell'arricchimento del percorso
NOTA: le strutture gerarchiche derivate da JUMPn di entrambi i cluster di co-espressione e i moduli PPI all'interno vengono automaticamente annotate con percorsi sovrarappresentati utilizzando il test esatto di Fisher. I database pathway/topologici utilizzati includono Gene Ontology (GO), KEGG, Hallmark e Reactome. Gli utenti possono utilizzare opzioni avanzate per caricare database personalizzati per l'analisi (ad esempio, nel caso di analisi di dati di specie non umane).
- Per impostazione predefinita, l'analisi dell'arricchimento del percorso viene avviata automaticamente con il clustering di co-espressione e l'analisi della rete PPI.
- Visualizza i risultati dell'arricchimento del percorso:
- Seguire i passaggi 2.7, 2.12 e 2.15 per visualizzare formati diversi nelle pagine dei risultati. Visualizzare i risultati dettagliati nella tabella di pubblicazione del foglio di calcolo nel file ComprehensiveSummaryTables.xlsx (passaggio 2.16).
- (Passaggio avanzato opzionale) Carica un database personalizzato per l'analisi dell'arricchimento del percorso:
- Preparare il file di base del gene, che in genere contiene i nomi ufficiali dei geni di tutti i geni di una specie.
- Preparare il file della libreria di ontologia seguendo i passaggi 6.3.3-6.3.4.
- Scarica i file della libreria di ontologia da siti Web pubblici, tra cui EnrichR53 e MSigDB54. Ad esempio, scarica l'ontologia da Drosophila dal sito Web EnrichR55.
- Modifica il file scaricato per il formato richiesto con due colonne: il nome del percorso come prima colonna e quindi i simboli genetici ufficiali (separati da "/") come seconda colonna. Il formato di file dettagliato è descritto nella pagina di aiuto del software JUMPn R shiny.
NOTA: trova file di esempio di background genetico e libreria di ontologia (usando Drosophila come istanza) nel sito JUMPn GitHub56.
- Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi; verrà visualizzata una nuova finestra dei parametri.
- Trova Carica un file in background per l'elemento Analisi arricchimento percorso e fai clic su Browser per caricare il file in background preparato al passaggio 6.3.1. Quindi, nella sessione, selezionare Lo sfondo da utilizzare per l'analisi dell'arricchimento del percorso, fare clic su Sfondo fornito dall'utente.
- Trova Carica un file di libreria di ontologia per l'elemento analisi dell'arricchimento del percorso e fai clic su Browser per caricare il file della libreria di ontologia preparato ai passaggi 6.3.2-6.3.4. Quindi, nella sessione, selezionare Database per l'analisi dell'arricchimento del percorso, fare clic su Database fornito dall'utente in formato .xlsx.
- Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per avviare l'analisi utilizzando il database personalizzato.
7. Analisi di dataset con campione di grandi dimensioni
NOTA: JUMPn supporta l'analisi di set di dati con campioni di grandi dimensioni (fino a 200 campioni testati). Per facilitare la visualizzazione di un campione di grandi dimensioni, è necessario un file aggiuntivo (denominato "meta file") che specifichi il gruppo di esempio per facilitare la visualizzazione dei risultati del clustering di coespressione.
- Prepara e carica il meta file.
- Preparare il meta file che specifica le informazioni sui gruppi (ad esempio, gruppi di controllo e di malattia) per ciascun campione seguendo i passaggi 7.1.2-7.1.3.
- Assicurarsi che il meta file contenga almeno due colonne: la colonna 1 deve contenere i nomi dei campioni identici ai nomi delle colonne e l'ordine del file della matrice di quantificazione delle proteine (come preparato nel passaggio 3.3); La colonna 2 in poi verrà utilizzata per l'assegnazione di gruppo per qualsiasi numero di funzionalità definite dall'utente. Il numero di colonne è flessibile.
- Assicurarsi che la prima riga del meta file contenga i nomi delle colonne per ogni colonna; dalla seconda riga in poi, dovrebbero essere elencate le informazioni sui singoli campioni di gruppi o altre caratteristiche (ad esempio, sesso, età, trattamento, ecc.).
- Carica il meta file facendo clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Procedere al passaggio 7.1.5
- Trova carica un elemento Meta File e fai clic su Browser per caricare il file in background. Se JUMPn rileva il formato imprevisto o nomi di esempio non corrispondenti, verrà visualizzato un messaggio di errore per un'ulteriore formattazione del meta file (passaggi 7.1.1-7.1.3).
- Regolare i parametri per l'analisi del clustering di co-espressione: impostare Correlazione minima di Pearson su 0,2. Questo parametro deve essere allentato a causa della maggiore dimensione del campione.
- Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per inviare l'analisi.
- Visualizza i risultati dell'analisi: tutti i dati in uscita sono uguali ad eccezione della visualizzazione dei modelli di cluster di coespressione.
- Nella pagina Risultati Pagina 1: Output WGCNA visualizzare i cluster di coespressione come boxplot con esempi stratificati dai gruppi di campioni o dalle funzionalità definiti dall'utente. Ogni punto nel grafico rappresenta l'autogene (cioè il modello di consenso del cluster) calcolato dall'algoritmo WGCNA.
- Se l'utente ha fornito più funzionalità (ad esempio, età, sesso, trattamento, ecc.) per raggruppare i campioni, fare clic sulla casella a discesa Seleziona il formato dell'espressione per selezionare un'altra funzionalità per raggruppare i campioni.