Method Article
Eseguendo il Pathway Association Study Tool (PAST), attraverso l'applicazione Shiny o attraverso la console R, i ricercatori possono acquisire una comprensione più profonda del significato biologico dei risultati del loro studio di associazione genome-wide (GWAS) studiando le vie metaboliche coinvolte.
Recentemente, è stata sviluppata e rilasciata una nuova implementazione di un metodo precedentemente descritto per interpretare i dati dello studio di associazione genome-wide (GWAS) utilizzando l'analisi delle vie metaboliche. Il Pathway Association Study Tool (PAST) è stato sviluppato per affrontare le preoccupazioni relative alla facilità d'uso e alle analisi a esecuzione lenta. Questo nuovo strumento user-friendly è stato rilasciato su Bioconductor e Github. Nei test, PAST ha eseguito analisi in meno di un'ora che in precedenza richiedevano ventiquattro o più ore. In questo articolo, presentiamo il protocollo per l'utilizzo dell'applicazione Shiny o della console R per eseguire PAST.
Gli studi di associazione genome-wide (GWAS) sono un metodo popolare per studiare tratti complessi e le regioni genomiche ad essi associate1,2,3. In questo tipo di studio, centinaia di migliaia di marcatori di polimorfismo a singolo nucleotide (SNP) vengono testati per la loro associazione con il tratto e viene valutato il significato delle associazioni. Le associazioni marcatore-tratto che soddisfano la soglia del tasso di falsa scoperta (FDR) (o qualche altro tipo di soglia di significatività) vengono mantenute per lo studio, ma le associazioni vere possono essere filtrate. Per tratti complessi e poligenici, l'effetto di ciascun gene potrebbe essere piccolo (e quindi filtrato), e alcuni alleli sono espressi solo in condizioni specifiche che potrebbero non essere presenti nello studio3. Pertanto, mentre molti SNP possono essere mantenuti come associati al tratto, ognuno può avere un effetto molto piccolo. Mancheranno troppe chiamate SNP e un'interpretazione del significato biologico e dell'architettura genetica del tratto potrebbe essere incompleta e confusa. L'analisi delle vie metaboliche può aiutare ad affrontare alcuni di questi problemi concentrandosi sugli effetti combinati di geni raggruppati in base alla loro funzione biologica4,5,6.
Diversi studi sono stati completati utilizzando una precedente implementazione del metodo descritto in questo articolo. L'accumulo di aflatossina7,la resistenza del verme dell'orecchio del mais8e la biosintesi dell'olio9 sono stati tutti studiati con l'implementazione precedente. Mentre queste analisi hanno avuto successo, il processo di analisi è stato complicato, dispendioso in termini di tempo e ingombrante, perché gli strumenti di analisi sono stati scritti in una combinazione di R, Perl e Bash e la pipeline non è stata automatizzata. A causa delle conoscenze specialistiche necessarie per modificare questo metodo per ogni analisi, è stato ora sviluppato un nuovo metodo che può essere condiviso con altri ricercatori.
Il Pathway Association Study Tool (PAST)10 è stato progettato per affrontare le carenze del metodo precedente richiedendo una minore conoscenza dei linguaggi di programmazione ed eseguendo analisi in un periodo più breve. Mentre il metodo è stato testato con il mais, PAST non fa ipotesi specie-specifiche. PAST può essere eseguito attraverso la console R, come app Shiny, e una versione online dovrebbe essere presto disponibile su MaizeGDB.
1. Configurazione
2. Personalizza l'analisi Shiny (opzionale)
Figura 1. Fare clic qui per visualizzare una versione più grande di questa figura.
3. Carica i dati GWAS
NOTA: verificare che i dati GWAS siano delimitati da tabulazioni. Assicurarsi che il file di associazione contenga le seguenti colonne: tratto, nome del marcatore, locus o cromosoma, posizione sul cromosoma, valore p e valore R2 per il marcatore. Assicurarsi che il file degli effetti contenga le seguenti colonne: tratto, nome del marcatore, locus o cromosoma, posizione sul cromosoma ed effetto. L'ordine di queste colonne non è importante, in quanto l'utente può specificare i nomi delle colonne durante il caricamento dei dati. Eventuali colonne aggiuntive vengono ignorate. TASSEL13 può essere utilizzato per produrre questi file.
Figura 2. Fare clic qui per visualizzare una versione più grande di questa figura.
4. Dati di squilibrio del collegamento di carico (LD)
NOTA: verificare che i dati di squilibrio di collegamento (LD) siano delimitati da tabulazioni e contengano i seguenti tipi di dati: Locus, Position1, Site1, Position2, Site2, Distance in base pairs between Position1 e Position2 e R2 value.
Figura 3. Fare clic qui per visualizzare una versione più grande di questa figura.
5. Assegna SNP ai geni
NOTA: scaricare o individuare in altro modo le annotazioni in formato GFF. Queste annotazioni possono spesso essere trovate in database online per organismi specifici. Prestare attenzione alle annotazioni di bassa qualità, poiché la qualità dei dati delle annotazioni influenzerà la qualità dell'analisi del percorso. Verificare che la prima colonna di queste annotazioni (il cromosoma) corrisponda al formato del locus/cromosoma nei dati di associazione, effetti e LD. Ad esempio, le annotazioni non dovrebbero chiamare il primo cromosoma "chr1" se i file di dati GWAS e LD chiamano il primo cromosoma "1".
Figura 4. Fare clic qui per visualizzare una versione più grande di questa figura.
6. Scopri percorsi significativi
NOTA: verificare che il file pathways contenga i seguenti dati in formato delimitato da tabulazioni, con una riga per ogni gene in ogni pathway: pathway ID - un identificatore come "PWY-6475-1"; descrizione del percorso - una descrizione più lunga di ciò che i percorsi fanno come la "biosintesi trans-licopene"; gene - un gene nel percorso, che dovrebbe corrispondere ai nomi forniti nelle annotazioni. Le informazioni sul percorso possono probabilmente essere trovate in database online per organismi specifici, come MaizeGDB. La seconda opzione specificata dall'utente è la modalità. "Crescente" si riferisce a fenotipi che riflettono quando è desiderabile un valore crescente del tratto misurato, come la resa, mentre "decrescente" si riferisce a un tratto in cui una diminuzione dei valori misurati è benefica, come le valutazioni dei danni agli insetti. Il significato dei percorsi viene testato utilizzando i metodi precedentemente descritti4,6,14.
Figura 5. Fare clic qui per visualizzare una versione più grande di questa figura.
NOTA: in questo passaggio vengono utilizzati il numero di core e la modalità impostata all'inizio dell'analisi PAST Shiny (passaggio 2.2). Il numero predefinito di geni è attualmente impostato su 5 geni, quindi i percorsi con meno geni noti verranno rimossi. L'utente può abbassare questo valore a 4 o 3, per includere percorsi più brevi, ma così facendo rischierà risultati falsi positivi. L'aumento di questo valore può aumentare la potenza dell'analisi, ma rimuoverà più percorsi dall'analisi. La modifica del numero di permutazioni utilizzate aumenta e diminuisce la potenza del test.
7. Visualizza Rugplots
Figura 6. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 7. Fare clic qui per visualizzare una versione più grande di questa figura.
Se i risultati non vengono prodotti a seguito di un'esecuzione dello strumento software PAST, verificare che tutti i file di input siano formattati correttamente. Un'esecuzione riuscita utilizzando i dati di esempio nel pacchetto PAST, che si basano su un GWAS di mais di colore granuloso, è mostrata nella Figura 8. Questa tabella e l'immagine risultante possono essere scaricate utilizzando il pulsante Scarica risultati. Un esempio dell'immagine scaricata è mostrato nella Figura 210. Impostazioni errate potrebbero portare a risultati che non hanno senso biologico, ma determinare l'inesattezza deve spettare al ricercatore, che dovrebbe ricontrollare la validità delle impostazioni scelte e considerare tutte le prove conosciute riguardanti il tratto di interesse.
La Figura 910 mostra il tappeto prodotto dall'analisi del percorso dei risultati GWAS creati con un pannello di mais di 288 linee inbred che erano state fenotipizzate per il colore del grano. Questo esempio semplicistico, in cui i fenotipi erano "bianchi" o "gialli", è stato usato perché il percorso responsabile della creazione dei pigmenti carotenoidi gialli brillanti è noto e dovrebbe essere responsabile della maggior parte del fenotipo. Pertanto, ci aspettavamo di vedere la via della biosintesi trans-licopene (che produce carotenoidi) essere significativamente associata al colore del grano, che è. L'ID e il nome del percorso sono elencati nella parte superiore del grafico. L'asse orizzontale del grafico classifica tutti i geni che sono stati inclusi nell'analisi, disposti da sinistra a destra in ordine di effetto maggiore sul tratto al più piccolo. Tuttavia, solo i geni nella via di biosintesi trans-licopene sono marcati (nella parte superiore del grafico, come segni di tratteggio, che appaiono nel rango genico del loro effetto rispetto a tutti gli altri geni nell'analisi). Ci sono 7 geni in questo percorso. Il punteggio di arricchimento in esecuzione (ES) viene tracciato lungo l'asse verticale. L'ES per ciascun gene viene aggiunto al totale corrente in ordine di effetto e il totale viene regolato in base al numero di geni analizzati. Pertanto, il punteggio cambia man mano che ci si muove lungo l'asse orizzontale e tende ad aumentare man mano che vengono inclusi i geni dell'effetto più grandi, ma ad un certo punto, l'aumento dell'effetto è inferiore all'aggiustamento per aver aggiunto un altro gene e l'intero punteggio inizia a diminuire. L'apice della linea ES in esecuzione è contrassegnato da una linea verticale tratteggiata; questo è l'ES per l'intero percorso e viene utilizzato dal programma per determinare se il percorso viene scelto e presentato come un tappeto.
Figura 8: Esecuzione completata di PAST Shiny. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 9: Immagine del percorso dall'esecuzione completata di PAST (o scaricata da Shiny). Questa cifra è stata citata da Thrash et al.10. Fare clic qui per visualizzare una versione più grande di questa figura.
Un obiettivo primario di PAST è quello di portare le analisi delle vie metaboliche dei dati GWAS a un pubblico più ampio, in particolare per gli organismi non umani e non animali. I metodi alternativi a PAST sono spesso programmi a riga di comando che si concentrano su esseri umani o animali. La facilità d'uso è stato un obiettivo primario nello sviluppo di PAST, sia nella scelta di sviluppare un'applicazione Shiny sia nella scelta di utilizzare R e Bioconductor per rilasciare l'applicazione. Gli utenti non hanno bisogno di imparare a compilare programmi per utilizzare PAST.
Come con la maggior parte dei tipi di software di analisi, i risultati di PAST sono buoni solo quanto i dati di input; se i dati di input ingessero errori o fossero formattati in modo errato, PAST non verrà eseguito o produrrà risultati non informativi. Garantire che i dati GWAS, i dati LD, le annotazioni e i file pathways siano formattati correttamente è fondamentale per ricevere l'output corretto da PAST. PAST analizza solo i marcatori biallici e può eseguire un solo tratto per ogni set di dati di input. Inoltre, i dati GWAS prodotti da una genotipizzazione scadente o da una fenotipizzazione errata o imprecisa non sono suscettibili di produrre risultati chiari o ripetibili. PAST può aiutare nell'interpretazione biologica dei risultati GWAS, ma è improbabile che chiarisca set di dati caotici se la variazione ambientale, l'errore sperimentale o la struttura della popolazione non sono stati adeguatamente contabilati.
Gli utenti possono scegliere di modificare alcuni parametri dell'analisi, sia nell'applicazione Shiny che passando tali parametri alle funzioni di PAST nella console R. Questi parametri possono modificare i risultati riportati da PAST e gli utenti devono fare attenzione quando li modificano dai valori predefiniti. Poiché LD viene misurato dagli utenti, in genere utilizzando lo stesso set di dati marcatori utilizzato anche nel GWAS, le misurazioni LD sono specifiche per la popolazione. Per tutti gli studi, in particolare per le specie diverse dal mais (in particolare le specie autoimpollinanti, poliploidi o altamente eterogenee), possono essere giustificati cambiamenti nelle impostazioni predefinite.
Gli autori non hanno nulla da rivelare.
Nessuno.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon