Method Article
Durch die Ausführung des Pathway Association Study Tool (PAST), entweder über die Shiny-Anwendung oder über die R-Konsole, können Forscher ein tieferes Verständnis der biologischen Bedeutung ihrer Ergebnisse einer genomweiten Assoziationsstudie (GWAS) erlangen, indem sie die beteiligten Stoffwechselwege untersuchen.
Vor kurzem wurde eine neue Implementierung einer zuvor beschriebenen Methode zur Interpretation von GWAS-Daten (Genome-Wide Association Study) mittels Stoffwechselweganalyse entwickelt und veröffentlicht. Das Pathway Association Study Tool (PAST) wurde entwickelt, um Bedenken hinsichtlich Benutzerfreundlichkeit und langsam laufenden Analysen auszuräumen. Dieses neue benutzerfreundliche Tool wurde auf Bioconductor und Github veröffentlicht. In Tests führte PAST Analysen in weniger als einer Stunde durch, die zuvor vierundzwanzig oder mehr Stunden benötigten. In diesem Artikel stellen wir das Protokoll für die Verwendung der Shiny-Anwendung oder der R-Konsole zum Ausführen von PAST vor.
Genomweite Assoziationsstudien (GWAS) sind eine beliebte Methode zur Untersuchung komplexer Merkmale und der damit verbundenen genomischen Regionen1,2,3. In dieser Art von Studie werden Hunderttausende von Einzelnukleotidpolymorphismusmarkern (SNP) auf ihre Assoziation mit dem Merkmal getestet und die Bedeutung der Assoziationen bewertet. Marker-Merkmals-Assoziationen, die den Schwellenwert für die falsche Entdeckungsrate (FDR) (oder eine andere Art von Signifikanzschwelle) erfüllen, werden für die Studie beibehalten, aber wahre Assoziationen können herausgefiltert werden. Bei komplexen, polygenen Merkmalen kann die Wirkung jedes Gens gering sein (und somit herausgefiltert werden), und einige Allele werden nur unter bestimmten Bedingungen exprimiert, die in der Studie möglicherweise nicht vorhanden sind3. Während also viele SNPs als mit dem Merkmal verbunden beibehalten werden können, kann jede einen sehr geringen Effekt haben. Zu viele SNP-Aufrufe werden fehlen, und eine Interpretation der biologischen Bedeutung und der genetischen Architektur des Merkmals kann unvollständig und verwirrend sein. Die Analyse des Stoffwechselwegs kann helfen, einige dieser Probleme anzugehen, indem sie sich auf die kombinierten Wirkungen von Genenkonzentriert,die nach ihrer biologischen Funktion gruppiert sind4,5,6.
Mehrere Studien wurden mit einer früheren Implementierung der in diesem Artikel beschriebenen Methode abgeschlossen. Aflatoxinakkumulation7, Maisohrwurmresistenz8und Ölbiosynthese9 wurden alle mit der vorherigen Implementierung untersucht. Während diese Analysen erfolgreich waren, war der Analyseprozess kompliziert, zeitaufwendig und umständlich, da die Analysewerkzeuge in einer Kombination aus R, Perl und Bash geschrieben wurden und die Pipeline nicht automatisiert war. Aufgrund des Fachwissens, das erforderlich ist, um diese Methode für jede Analyse zu modifizieren, wurde nun eine neue Methode entwickelt, die mit anderen Forschern geteilt werden kann.
Das Pathway Association Study Tool (PAST)10 wurde entwickelt, um die Mängel der vorherigen Methode zu beheben, indem weniger Kenntnisse in Programmiersprachen erforderlich sind und Analysen in kürzerer Zeit ausgeführt werden. Während die Methode mit Mais getestet wurde, macht PAST keine artspezifischen Annahmen. PAST kann über die R-Konsole als Shiny-App ausgeführt werden, und eine Online-Version wird voraussichtlich bald auf MaizeGDB verfügbar sein.
1. Einrichtung
2. Shiny-Analyse anpassen (optional)
Abbildung 1. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
3. GWAS-Daten laden
HINWEIS: Stellen Sie sicher, dass die GWAS-Daten tabulatorgetrennt sind. Stellen Sie sicher, dass die Assoziationsdatei die folgenden Spalten enthält: Merkmal, Markername, Locus oder Chromosom, Position auf dem Chromosom, p-Wert undR2-Wert für den Marker. Stellen Sie sicher, dass die Effektdatei die folgenden Spalten enthält: Merkmal, Markername, Ort oder Chromosom, Position auf dem Chromosom und Effekt. Die Reihenfolge dieser Spalten ist nicht wichtig, da der Benutzer beim Laden der Daten die Namen der Spalten angeben kann. Alle zusätzlichen Spalten werden ignoriert. Tassel13 kann verwendet werden, um diese Dateien zu erzeugen.
Abbildung 2. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
4. Lastverknüpfungs-Ungleichgewichtsdaten (LD)
HINWEIS: Stellen Sie sicher, dass die LD-Daten (Linkage Disequilibrium) tabulatorgetrennt sind und die folgenden Datentypen enthalten: Locus, Position1, Site1, Position2, Site2, Abstand in Basispaaren zwischen Position1 und Position2 undR2-Wert.
Abbildung 3. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
5. Zuweisen von SNPs zu Genen
HINWEIS: Laden Sie Anmerkungen im GFF-Format herunter oder suchen Sie sie anderweitig. Diese Anmerkungen sind oft in Online-Datenbanken für bestimmte Organismen zu finden. Seien Sie vorsichtig bei Anmerkungen von geringer Qualität, da die Qualität der Anmerkungsdaten die Qualität der Pfadanalyse beeinflusst. Vergewissern Sie sich, dass die erste Spalte dieser Anmerkungen (das Chromosom) mit dem Format des Locus/Chromosoms in den Assoziations-, Effekt- und LD-Daten übereinstimmt. Beispielsweise sollten die Anmerkungen das erste Chromosom nicht "chr1" nennen, wenn die GWAS- und LD-Datendateien das erste Chromosom "1" nennen.
Abbildung 4. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
6. Entdecken Sie wichtige Pfade
HINWEIS: Stellen Sie sicher, dass die Pathways-Datei die folgenden Daten im tabulatorgetrennten Format mit einer Zeile für jedes Gen in jedem Pathway enthält: Pathway ID - ein Bezeichner wie "PWY-6475-1"; Pfadbeschreibung - eine längere Beschreibung dessen, was die Wege tun, wie "Trans-Lycopin-Biosynthese"; Gen - ein Gen im Signalweg, das mit den in den Anmerkungen angegebenen Namen übereinstimmen sollte. Pathway-Informationen können wahrscheinlich in Online-Datenbanken für bestimmte Organismen wie MaizeGDB gefunden werden. Die zweite vom Benutzer angegebene Option ist der Modus. "Zunehmend" bezieht sich auf Phänotypen, die widerspiegeln, wann ein steigender Wert des gemessenen Merkmals wünschenswert ist, wie z. B. Ertrag, während "abnehmend" sich auf ein Merkmal bezieht, bei dem eine Abnahme der gemessenen Werte von Vorteil ist, z. B. Insektenschadenswerte. Die Signifikanz von Signalwegen wird mit den zuvorbeschriebenenMethoden4,6,14getestet.
Abbildung 5. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
HINWEIS: In diesem Schritt wird die Anzahl der Kerne und der Modus verwendet, der zu Beginn der PAST Shiny-Analyse (Schritt 2.2) eingestellt wurde. Die Standardanzahl der Gene ist derzeit auf 5 Gene festgelegt, so dass Wege mit weniger bekannten Genen entfernt werden. Der Benutzer kann diesen Wert auf 4 oder 3 senken, um kürzere Pfade einzubeziehen, aber dadurch werden falsch positive Ergebnisse riskiert. Die Erhöhung dieses Wertes kann die Leistungsfähigkeit der Analyse erhöhen, entfernt jedoch mehr Pfade aus der Analyse. Das Ändern der Anzahl der verwendeten Permutationen erhöht und verringert die Leistung des Tests.
7. Rugplots ansehen
Abbildung 6. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 7. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Wenn nach einer Ausführung des PAST-Softwaretools keine Ergebnisse erzielt werden, überprüfen Sie, ob alle Eingabedateien korrekt formatiert sind. Ein erfolgreicher Lauf anhand der Beispieldaten im PAST-Paket, die auf einem Mais-GWAS kornfarbener Farbe basieren, ist in Abbildung 8 dargestellt. Diese Tabelle und das resultierende Bild können über die Schaltfläche Ergebnisse herunterladen heruntergeladen werden. Ein Beispiel für das heruntergeladene Bild ist in Abbildung 210 dargestellt. Falsche Einstellungen können zu Ergebnissen führen, die biologisch nicht sinnvoll sind, aber die Bestimmung der Unrichtigkeit muss dem Forscher überlassen werden, der die Gültigkeit der gewählten Einstellungen überprüfen und alle bekannten Beweise für das interessierende Merkmal berücksichtigen sollte.
Abbildung 910 zeigt den Rugplot, der aus der Pfadanalyse der GWAS-Ergebnisse hergestellt wurde, die mit einer Maisplatte von 288 Inzuchtlinien erstellt wurden, die für die Kornfarbe phänotypisiert worden waren. Dieses vereinfachte Beispiel, bei dem die Phänotypen entweder "weiß" oder "gelb" waren, wurde verwendet, weil der Weg, der für die Schaffung der hellgelben Carotinoidpigmente verantwortlich ist, bekannt ist und für den größten Teil des Phänotyps verantwortlich sein sollte. Daher erwarteten wir, dass der Trans-Lycopin-Biosyntheseweg (der Carotinoide produziert) signifikant mit der Kornfarbe assoziiert ist, was er ist. Pfad-ID und Name sind oben im Diagramm aufgeführt. Die horizontale Achse des Diagramms ordnet alle Gene, die in die Analyse einbezogen wurden, von links nach rechts in der Reihenfolge der größten Wirkung auf das Merkmal bis zum kleinsten. Allerdings sind nur die Gene im Trans-Lycopin-Biosyntheseweg markiert (oben in der Grafik als Schraffurmarkierungen, die im Vergleich zu allen anderen Genen in der Analyse im Genrang ihrer Wirkung erscheinen). Es gibt 7 Gene in diesem Weg. Der Running Enrichment Score (ES) wird entlang der vertikalen Achse gezeichnet. Die ES für jedes Gen wird in der Reihenfolge der Wirkung in die laufende Summe aufgenommen und die Summe wird an die Anzahl der analysierten Gene angepasst. So ändert sich der Score, wenn man sich direkt entlang der horizontalen Achse bewegt und neigt dazu, zu steigen, wenn die größeren Effektgene eingeschlossen werden, aber irgendwann ist die Zunahme des Effekts kleiner als die Anpassung für das Hinzufügen eines anderen Gens, und der gesamte Score beginnt zu sinken. Die Spitze der laufenden ES-Linie ist mit einer gepunkteten vertikalen Linie markiert; Dies ist der ES für den gesamten Pathway und wird vom Programm verwendet, um festzustellen, ob der Pathway ausgewählt und als Rugplot dargestellt wird.
Abbildung 8: Abgeschlossener Lauf von PAST Shiny. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 9:Pfadbild von abgeschlossener Ausführung von PAST (oder von Shiny heruntergeladen). Diese Zahl wurde aus Thrash et al.10zitiert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Ein primäres Ziel von PAST ist es, Stoffwechselweganalysen von GWAS-Daten einem breiteren Publikum zugänglich zu machen, insbesondere für nicht-menschliche und nicht-tierische Organismen. Alternative Methoden zu PAST sind oft Befehlszeilenprogramme, die sich auf Menschen oder Tiere konzentrieren. Benutzerfreundlichkeit war ein primäres Ziel bei der Entwicklung von PAST, sowohl bei der Entscheidung für die Entwicklung einer Shiny-Anwendung als auch bei der Entscheidung, R und Bioconductor zur Freigabe der Anwendung zu verwenden. Benutzer müssen nicht lernen, wie man Programme kompiliert, um PAST zu verwenden.
Wie bei den meisten Arten von Analysesoftware sind die Ergebnisse von PAST nur so gut wie die Eingabedaten; Wenn die Eingabedaten Fehler aufweisen oder falsch formatiert sind, kann PAST nicht ausgeführt werden oder führt zu uninformativen Ergebnissen. Sicherzustellen, dass die GWAS-Daten, LD-Daten, Anmerkungen und Pfaddateien korrekt formatiert sind, ist entscheidend für den Erhalt der korrekten Ausgabe von PAST. PAST analysiert nur biallele Marker und kann nur ein Merkmal für jeden Satz von Eingabedaten ausführen. Darüber hinaus ist es unwahrscheinlich, dass GWAS-Daten, die durch schlechte Genotypisierung oder falsche oder ungenaue Phänotypisierung erzeugt werden, klare oder wiederholbare Ergebnisse liefern. PAST kann bei der biologischen Interpretation von GWAS-Ergebnissen helfen, aber es ist unwahrscheinlich, dass chaotische Datensätze geklärt werden, wenn Umweltschwankungen, experimentelle Fehler oder Populationsstrukturen nicht richtig berücksichtigt wurden.
Benutzer können einige Parameter der Analyse ändern, sowohl in der Shiny-Anwendung als auch durch Übergeben dieser Parameter an die Funktionen von PAST in der R-Konsole. Diese Parameter können die von PAST gemeldeten Ergebnisse ändern, und Benutzer sollten vorsichtig sein, wenn sie diese von den Standardwerten ändern. Da LD von den Benutzern gemessen wird, in der Regel mit dem gleichen Markerdatensatz, der auch in der GWAS verwendet wurde, sind die LD-Messungen spezifisch für die Population. Für alle Studien, insbesondere für andere Arten als Mais (insbesondere selbstbestäubende, polyploide oder hochheterogene Arten), können Änderungen der Standardwerte gerechtfertigt sein.
Die Autoren haben nichts preiszugeben.
Nichts.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten