HINWEIS: In diesem Protokoll wird die Verwendung von JUMPn durch die Verwendung eines veröffentlichten Datensatzes der Profilerstellung des gesamten Proteoms während der B-Zell-Differenzierung veranschaulicht, der mit dem isobaren TMT-Markierungsreagenz27 quantifiziert wurde.
1. Einrichtung der JUMPn-Software
HINWEIS: Für die Einrichtung der JUMPn-Software stehen zwei Optionen zur Verfügung: (i) Installation auf einem lokalen Computer für den persönlichen Gebrauch; und (ii) Bereitstellung von JUMPn auf einem Remote-Shiny-Server für mehrere Benutzer. Für die lokale Installation reicht ein PC mit Internetzugang und ≥4 GB RAM aus, um die JUMPn-Analyse für einen Datensatz mit einer kleinen Stichprobengröße (n < 30) durchzuführen. Für die Analyse großer Kohorten (z. B. n = 200 Proben) wird ein größerer Arbeitsspeicher (z. B. 16 GB) benötigt.
- Installieren Sie die Software auf einem lokalen Computer. Lassen Sie den Webbrowser nach der Installation JUMPn starten und lassen Sie die Analyse auf dem lokalen Computer laufen.
- Installieren Sie anaconda42 oder miniconda43 gemäß den Online-Anweisungen.
- Laden Sie den JUMPn-Quellcode41 herunter. Doppelklicken Sie, um die heruntergeladene Datei JUMPn_v_1.0.0.zip zu entpacken; Ein neuer Ordner mit dem Namen JUMPn_v_1.0.0 wird erstellt.
- Öffnen Sie das Befehlszeilenterminal. Verwenden Sie unter Windows die Anaconda-Eingabeaufforderung. Verwenden Sie unter MacOS die integrierte Terminal-Anwendung.
- Erstellen Sie die JUMPn Conda-Umgebung: Rufen Sie den absoluten Pfad des Ordners JUMPn_v_1.0.0 ab (z. B. /path/to/JUMPn_v_1.0.0). Um eine leere Conda-Umgebung zu erstellen und zu aktivieren, geben Sie die folgenden Befehle auf dem Terminal ein
conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
conda aktivieren /path/to/JUMPn_v_1.0.0/JUMPn
- Installieren Sie JUMPn-Abhängigkeiten: Installieren Sie R (geben Sie auf dem Terminal conda install -c conda-forge r=4.0.0 -y ein), ändern Sie das aktuelle Verzeichnis in den Ordner JUMPn_v_1.0.0 (geben Sie auf dem Terminal cd path/to/JUMPn_v_1.0.0) ein und installieren Sie die Abhängigkeitspakete (geben Sie auf dem Terminal Rscript bootstrap ein. R)
- Starten Sie JUMPn im Webbrowser: Ändern Sie das aktuelle Verzeichnis in den Ausführungsordner (geben Sie auf dem Terminal cd execution ein) und starten Sie JUMPn (geben Sie auf dem Terminal R -e "shiny::runApp()" ein)
- Sobald das oben Genannte ausgeführt wurde, wird auf dem Terminalbildschirm Listening auf http://127.0.0.1: XXXX angezeigt (hier zeigt XXXX 4 Zufallszahlen an). Kopieren Sie http://127.0.0.1:XXXX und fügen Sie es in den Webbrowser ein, auf dem die JUMPn-Willkommensseite angezeigt wird (Abbildung 2).
- Bereitstellung auf Shiny Server. Beispiele für Shiny Server sind der kommerzielle shinyapps.io Server oder alle institutionell unterstützten Shiny Server.
- Laden Sie RStudio herunter und installieren Sie es gemäß den Anweisungen44.
- Holen Sie sich die Bereitstellungsberechtigung für den Shiny Server. Richten Sie für den shinyapps.io Server das Benutzerkonto ein, indem Sie die Anweisung45 befolgen. Für den institutionellen Shiny-Server wenden Sie sich an den Serveradministrator, um Berechtigungen anzufordern.
- Laden Sie den JUMPn-Quellcode41 auf den lokalen Computer herunter. Eine Installation ist nicht notwendig. Öffnen Sie entweder den Server. R oder ui. R-Dateien in RStudio und klicken Sie auf das Dropdown-Menü Auf Server veröffentlichen oben rechts in der RStudio-IDE.
- Geben Sie im Bereich "In Konto veröffentlichen " die Serveradresse ein. Klicken Sie auf die Schaltfläche Veröffentlichen . Die erfolgreiche Bereitstellung wird bei der automatischen Umleitung von RStudio auf den RShiny-Server, auf dem die Anwendung bereitgestellt wurde, überprüft.
2. Demolauf mit einem Beispieldatensatz
HINWEIS: JUMPn bietet einen Demolauf mit dem veröffentlichten B-Zell-Proteomik-Datensatz an. Der Demolauf veranschaulicht einen optimierten Workflow, der die Quantifizierungsmatrix differentiell exprimierter Proteine als Input verwendet und Co-Expressionsclustering, Signalweganreicherung und PPI-Netzwerkanalyse nacheinander durchführt.
- Klicken Sie auf der JUMPn-Startseite (Abbildung 2) auf die Schaltfläche Analyse beginnen, um die JUMPn-Analyse zu starten.
- Klicken Sie in der unteren linken Ecke der Seite Anfangsanalyse (Abbildung 3) auf die Schaltfläche Demo B Cell Proteomic Data hochladen. Ein Dialogfeld wird angezeigt, in dem Sie über den Erfolg des Datenuploads informiert werden.
- Klicken Sie in der unteren rechten Ecke der Seite auf die Schaltfläche JUMPn-Analyse senden , um den Demolauf mit Standardparametern zu starten. Es erscheint ein Fortschrittsbalken, der den Verlauf der Analyse angibt. Warten Sie, bis der Fortschrittsbalken erfüllt ist (3 min erwartet).
- Sobald der Demolauf abgeschlossen ist, wird ein Dialogfeld mit der Erfolgsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt. Klicken Sie auf Weiter zu den Ergebnissen , um fortzufahren.
- Die Webseite führt den Benutzer zunächst zu den Ergebnissen des Co-Expression-Clusters von WGCNA. Klicken Sie im Dialogfenster auf Ergebnisse anzeigen , um fortzufahren.
- Die Protein-Co-Expressionsmuster finden Sie links auf der Ergebnisseite 1: WGCNA-Ausgabeseite. Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um zwischen zwei Abbildungsformaten zu navigieren:
- Wählen Sie Trends aus, um das Trenddiagramm anzuzeigen, wobei jede Zeile die individuelle Proteinhäufigkeit über Proben hinweg darstellt. Die Farbe jeder Zeile stellt dar, wie nahe das Ausdrucksmuster am Konsens des Koexpressionsclusters liegt (d. h. "Eigengen" gemäß der Definition des WGCNA-Algorithmus).
- Wählen Sie Boxplot aus, um für jedes Beispiel Co-Ausdrucksmuster im Boxplot-Format anzuzeigen.
- Sehen Sie sich die Heatmap zur Pathway-/Ontologieanreicherung rechts neben der WGCNA-Ausgabeseite an. Die am stärksten angereicherten Pfade für jeden Cluster werden zusammen in einer Heatmap angezeigt, wobei die Farbintensität den angepassten p-Wert von Benjamini-Hochberg widerspiegelt.
- Scrollen Sie auf der Webseite nach unten, um das Expressionsmuster für einzelne Proteine anzuzeigen.
- Verwenden Sie das Dropdown-Feld Wählen Sie den Co-Expression-Cluster aus, um Proteine aus jedem Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Wählen Sie ein bestimmtes Protein in der Tabelle aus, auf dem das Balkendiagramm unter der Tabelle automatisch aktualisiert wird, um seine Proteinhäufigkeit widerzuspiegeln.
- Suchen Sie bestimmte Proteinnamen mithilfe des Suchfelds auf der rechten Seite der Tabelle nach einem bestimmten Protein.
- Um die PPI-Ergebnisse anzuzeigen, klicken Sie oben auf die Ergebnisseite 2: PPI-Ausgabe .
- Klicken Sie auf Co-Expression-Cluster auswählen, um die Ergebnisse für einen bestimmten Co-Expression-Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Die Anzeigen aller Abbildungsfelder auf dieser Seite werden für den neu ausgewählten Cluster aktualisiert.
- Zeigen Sie die PPI-Netzwerke für den ausgewählten Co-Expression-Cluster im linken Abbildungsbereich an:
- Klicken Sie auf das Dropdown-Feld Nach Gruppe auswählen , um einzelne PPI-Module innerhalb des Netzwerks hervorzuheben. Klicken Sie auf das Dropdown-Feld Netzwerklayoutformat auswählen , um das Netzwerklayout zu ändern (standardmäßig von Fruchterman Reingold).
- Verwenden Sie die Maus und das Trackpad, um die Schritte 2.11.3-2.11.5 auszuführen.
- Vergrößern oder verkleinern Sie das PPI-Netzwerk nach Bedarf. Die Gennamen der einzelnen Knoten im Netzwerk werden angezeigt, wenn sie ausreichend vergrößert werden.
- Wählen Sie beim Vergrößern ein bestimmtes Protein aus und klicken Sie darauf, um dieses Protein und seine Netzwerknachbarn hervorzuheben.
- Ziehen Sie einen bestimmten Knoten (Protein) im Netzwerk, um seine Position im Layout zu ändern. Dadurch kann das Netzwerklayout vom Benutzer neu organisiert werden.
- Zeigen Sie im rechten Bereich der PPI-Ergebnisseite die Informationen auf Clusterebene mit gemeinsamem Ausdruck an, die die Interpretation der PPI-Ergebnisse unterstützen:
- Zeigen Sie das Co-Ausdrucksmuster des ausgewählten Clusters standardmäßig als Boxplot an.
- Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um weitere Informationen zu erhalten, oder werden Sie wie in den Schritten 2.12.3-2.12.5 beschrieben angezeigt.
- Wählen Sie Trends aus, um das Trenddiagramm für das Co-Ausdrucksmuster anzuzeigen.
- Wählen Sie Pfadbarplot aus, um deutlich angereicherte Pfade für den Co-Ausdruckscluster anzuzeigen.
- Wählen Sie "Pfadkreisdiagramm", um deutlich angereicherte Pfade für den Co-Ausdruckscluster im Kreisdiagrammformat anzuzeigen.
- Scrollen Sie auf der Webseite Ergebnisseite 2: PPI-Ausgabe nach unten, um die Ergebnisse auf der Ebene der einzelnen PPI-Module anzuzeigen. Klicken Sie auf das Dropdown-Feld Wählen Sie das Modul aus , um ein bestimmtes PPI-Modul für die Anzeige auszuwählen (Cluster1: Modul 1 wird standardmäßig angezeigt).
- Sehen Sie sich das PPI-Modul im linken Bereich an. Führen Sie die Schritte 2.11.2-2.11.5 aus, um die Netzwerkanzeige zu manipulieren.
- Sehen Sie sich die Ergebnisse der Signalweg-/Ontologieanreicherung im rechten Bereich an. Klicken Sie auf das Dropdown-Feld Pfadanmerkungsstil auswählen, um weitere Informationen und Anzeigen zu erhalten:
- Wählen Sie Barplot aus, um deutlich angereicherte Pfade für das ausgewählte PPI-Modul anzuzeigen.
- Wählen Sie "Kreisdiagramm ", um deutlich angereicherte Pfade für das ausgewählte PPI-Modul im Format eines Kreisdiagramms anzuzeigen.
- Wählen Sie Heatmap , um deutlich angereicherte Signalwege und die zugehörigen Gennamen aus dem ausgewählten PPI-Modul anzuzeigen.
- Wählen Sie Tabelle aus, um die detaillierten Ergebnisse der Signalweganreicherung anzuzeigen, einschließlich der Namen der Signalwege/Ontologiebegriffe, Gennamen und des P-Werts nach Fishers exaktem Test.
- Zeigen Sie die Publikationstabelle in einem Tabellenkalkulationsformat an: Folgen Sie dem absoluten Pfad (oben auf beiden Ergebnisseiten abgedruckt) und suchen Sie die Publikationstabellentabelle mit dem Namen ComprehensiveSummaryTables.xlsx.
3. Vorbereitung der Eingabedatei und Upload auf JUMPn
HINWEIS: JUMPn nimmt als Eingabe die Quantifizierungsmatrix entweder der differentiell exprimierten Proteine (überwachte Methode) oder der variabelsten Proteine (unüberwachte Methode). Wenn das Ziel des Projekts darin besteht, Proteine zu verstehen, die über mehrere Bedingungen (z. B. verschiedene Krankheitsgruppen oder Zeitreihenanalyse des biologischen Prozesses) verändert wurden, wird die überwachte Methode zur Durchführung der DE-Analyse bevorzugt. Andernfalls kann ein unüberwachter Ansatz zur Auswahl der variabelsten Proteine für den explorativen Zweck verwendet werden.
- Generieren Sie die Proteinquantifizierungstabelle, wobei jedes Protein als Zeilen und jede Probe als Spalten angezeigt wird. Erreichen Sie dies über eine moderne massenspektrometriebasierte Proteomik-Software-Suite (z.B. JUMP suite13,14,39, Proteome Discoverer, Maxquant 15,46).
- Definieren Sie die Variable Proteom.
- Verwenden Sie die statistischen Analyseergebnisse der Proteomik-Software-Suite, um differentiell exprimierte (DE) Proteine zu definieren (z. B. mit angepasstem p-Wert < 0,05).
- Alternativ können Benutzer dem Beispiel-R-Code47 folgen, um entweder DE oder die meisten variablen Proteine zu definieren.
- Formatieren Sie die Eingabedatei mit dem definierten variablen Proteom.
HINWEIS: Das erforderliche Eingabedateiformat (Abbildung 4) enthält eine Kopfzeile. Die Spalten enthalten den Proteinzutritt (oder eindeutige IDs), GN (offizielle Gensymbole), die Proteinbeschreibung (oder alle vom Benutzer bereitgestellten Informationen), gefolgt von der Proteinquantifizierung einzelner Proben.
- Befolgen Sie die Reihenfolge der in Schritt 3.1 angegebenen Spalten, aber die Spaltennamen der Kopfzeile sind für den Benutzer flexibel.
- Verwenden Sie für TMT (oder ähnliches) quantifiziertes Proteom die zusammengefasste TMT-Reporterintensität als Eingangsquantifizierungswerte. Für markierungsfreie Daten verwenden Sie entweder normalisierte Spektralzählungen (z. B. NSAF48) oder intensitätsbasierte Methoden (z. B. LFQ-Intensität oder iBAQ-Proteinintensität, die von Maxquant46 gemeldet werden).
- Fehlende Werte sind für die JUMPn-Analyse zulässig. Stellen Sie sicher, dass diese in der Quantifizierungsmatrix als NA gekennzeichnet sind. Es wird jedoch empfohlen, nur Proteine mit Quantifizierung in mehr als 50% der Proben zu verwenden.
- Speichern Sie die resultierende Eingabedatei im .txt-, .xlsx- oder .csv-Format (alle drei werden von JUMPn unterstützt).
- Eingabedatei hochladen:
- Klicken Sie auf die Schaltfläche Browser und wählen Sie die Eingabedatei aus (Abbildung 3, linker Bereich); Das Dateiformat (XLSX, CSV und TXT werden unterstützt) wird automatisch erkannt.
- Wenn die Eingabedatei intensitätsähnliche Quantifizierungswerte (z. B. solche, die von der JUMP Suite39 generiert werden) oder verhältnisähnliche (z. B. aus Proteome Discoverer) enthält, wählen Sie Ja für die Option Log2-Transformation der Daten ausführen. Andernfalls wurden die Daten möglicherweise bereits protokolliert umgewandelt, daher wählen Sie für diese Option Nein aus.
4. Co-Expression-Clustering-Analyse
HINWEIS: Unsere Gruppe 25,26,27 und andere28,29,31 haben WGCNA 49 als effektive Methode zur Co-Expression-Clustering-Analyse der quantitativen Proteomik bewiesen. JUMPn folgt einem 3-stufigen Verfahren für die WGCNA-Analyse25,50: (i) anfängliche Definition von Co-Expressions-Gen-/Proteinclustern durch dynamisches Baumschneiden 51 basierend auf der topologischen Überlappungsmatrix (TOM; bestimmt durch Quantifizierungsähnlichkeiten zwischen Genen/Proteinen); (ii) Zusammenführung ähnlicher Cluster zur Verringerung der Redundanz (basierend auf dem Dendrogramm der Eigengenähnlichkeiten); und (iii) endgültige Zuordnung von Genen/Proteinen zu jedem Cluster, die den minimalen Pearson-Korrelations-Cutoff überschreiten.
- Konfigurieren Sie die WGCNA-Parameter (Abbildung 3, mittlere Abbildung). Die folgenden drei Parameter steuern jeweils die drei Schritte:
- Legen Sie die minimale Clustergröße auf 30 fest. Dieser Parameter definiert die minimale Anzahl von Proteinen, die für jeden Co-Expressionscluster im ersten Schritt (i) des TOM-basierten hybriden dynamischen Baumschneidens erforderlich sind. Je größer der Wert, desto kleiner die Anzahl der vom Algorithmus zurückgegebenen Cluster.
- Legen Sie den minimalen Clusterabstand auf 0,2 fest. Das Erhöhen dieses Werts (z. B. von 0,2 auf 0,3) kann zu einer stärkeren Clusterzusammenführung während Schritt (ii) führen, was zu einer geringeren Anzahl von Clustern führt.
- Legen Sie das Minimum kME auf 0,7 fest. Proteine werden dem am stärksten korrelierten Cluster zugeordnet, der in Schritt (ii) definiert wurde, aber nur Proteine mit Pearson-Korrelation, die diesen Schwellenwert überschreiten, werden beibehalten. Proteine, die in diesem Schritt versagen, werden keinem Cluster zugeordnet ('NA'-Cluster für die ausgefallenen Proteine im Abschlussbericht).
- Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die Clustering-Analyse für den gemeinsamen Ausdruck einzureichen:
- Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die umfassende Analyse von WGCNA automatisch gefolgt von einer PPI-Netzwerkanalyse zu starten.
- Alternativ können Sie den WGCNA-Schritt nur ausführen (insbesondere zum Zwecke der Parameterabstimmung; siehe Schritte 4.2.3-4.2.4):
- Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur WGCNA und klicken Sie dann auf Schließen, um fortzufahren.
- Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
- In beiden oben genannten Fällen wird bei der Übermittlung der Analyse ein Fortschrittsbalken angezeigt.
HINWEIS: Sobald die Analyse abgeschlossen ist (in der Regel < 1 Minute für die Nur-WGCNA-Analyse und <3 Minuten für eine umfassende Analyse), wird ein Dialogfeld mit einer Erfolgsausführungsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt.
- Untersuchen Sie die WGCNA-Ergebnisse, wie in den Schritten 2.4-2.8 dargestellt (Abbildung 5). Beachten Sie, dass der absolute Pfad zum Datei-co_exp_clusters_3colums.txt oben auf der Ergebnisseite: WGCNA-Ausgabe hervorgehoben ist, um die Clustermitgliedschaft jedes Proteins aufzuzeichnen und es als Eingabe für die Nur-PPI-Analyse zu verwenden.
- Fehlerbehebung. Die folgenden drei häufigen Fälle werden diskutiert. Sobald die Parameter wie unten beschrieben aktualisiert wurden, führen Sie die Schritte 4.2.2-4.2.4 aus, um neue WGCNA-Ergebnisse zu generieren.
- Wenn ein wichtiges Co-Ausdrucksmuster von den Daten erwartet, aber vom Algorithmus übersehen wird, führen Sie die Schritte 4.4.2-4.4.4 aus.
- Ein fehlender Cluster ist besonders wahrscheinlich für kleine Co-Expressions-Cluster, d.h. nur eine begrenzte Anzahl (z. B. <30) von Proteinen, die dieses Muster aufweisen. Überprüfen Sie vor der erneuten Analyse die Eingabedatei der Proteinquantifizierungsmatrix erneut und lokalisieren Sie mehrere Positivkontrollproteine, die diesem wichtigen Co-Expressionsmuster entsprechen.
- Um die kleinen Cluster zu retten, verringern Sie die minimale Clustergröße (z. B. 10; Clustergröße kleiner als 10 ist möglicherweise nicht robust und wird daher nicht empfohlen) und verringern Sie die minimale Clusterentfernung (z. B. 0,1; hier ist auch die Einstellung als 0 zulässig, was bedeutet, dass die automatische Clusterzusammenführung übersprungen wird).
- Überprüfen Sie nach dem Ausführen des Co-Expression-Clustering-Schritts mit den aktualisierten Parametern zunächst, ob der Cluster aus den Co-Expression-Musterdiagrammen gerettet wurde, und überprüfen Sie dann die positiven Kontrollen, indem Sie ihre Proteinakzessionen unter Detaillierte Proteinquantifizierung durchsuchen (stellen Sie sicher, dass Sie vor der Suche den entsprechenden Co-Expression-Cluster aus dem linken Dropdown-Widget auswählen).
HINWEIS: Für die Rettung sind möglicherweise mehrere Iterationen der Parameteroptimierung und -wiederholung erforderlich.
- Wenn es zu viele Proteine gibt, die keinem Cluster zugeordnet werden können, führen Sie die Schritte 4.4.6-4.4.7 aus.
HINWEIS: Normalerweise ist ein kleiner Prozentsatz (typischerweise <10%) der Proteine möglicherweise keinem Cluster zugeordnet werden, da es sich dabei um Ausreißerproteine handeln kann, die keinem der üblichen Expressionsmuster des Datensatzes folgten. Wenn ein solcher Prozentsatz jedoch signifikant ist (z. B. >30%), deutet dies darauf hin, dass es zusätzliche Koausdrucksmuster gibt, die nicht ignoriert werden können.
- Verringern Sie sowohl die Parameter Minimale Clustergröße als auch Minimale Clusterentfernung, um diese Situation zu verringern, indem Sie "neue" Co-Expression-Cluster erkennen.
- Verringern Sie außerdem den Parameter Minimal Pearson Correlation (kME), um diese "NA-Cluster" -Proteine zu schrumpfen.
HINWEIS: Durch die Optimierung dieses Parameters werden keine neuen Cluster generiert, sondern stattdessen die Größe der "bestehenden" Cluster erhöht, indem mehr zuvor ausgefallene Proteine mit dem niedrigeren Schwellenwert akzeptiert werden. Dies wird jedoch auch die Heterogenität jedes Clusters erhöhen, da jetzt mehr verrauschte Proteine erlaubt sind.
- Zwei Cluster haben einen sehr geringen Unterschied in den Mustern; Führen Sie sie in einem Cluster zusammen, indem Sie die Schritte 4.4.9-4.4.11 ausführen.
- Erhöhen Sie den Parameter Minimale Clusterentfernung, um das Problem zu beheben.
- In einigen Situationen gibt der Algorithmus jedoch möglicherweise nie das gewünschte Muster zurück. Passen Sie in einem solchen Moment die Clustermitgliedschaft in der Datei co_exp_clusters_3colums.txt (Datei aus Schritt 4.3) manuell an oder bearbeiten Sie sie, um sie zusammenzuführen.
- Nehmen Sie die nachbearbeitete Datei als Eingabe für die nachgelagerte PPI-Netzwerkanalyse. Begründen Sie im Falle einer manuellen Bearbeitung die Kriterien der Clusterzuweisung und zeichnen Sie den Ablauf der manuellen Bearbeitung auf.
5. Protein-Protein-Interaktionsnetzwerk-Analyse
HINWEIS: Durch die Überlagerung von Co-Expression-Clustern in das PPI-Netzwerk wird jeder Co-Expression-Cluster weiter in kleinere PPI-Module geschichtet. Die Analyse wird für jeden Co-Expressions-Cluster durchgeführt und umfasst zwei Phasen: In der ersten Phase überlagert JUMPn Proteine aus dem Co-Expressions-Cluster in das PPI-Netzwerk und findet alle verbundenen Komponenten (d. h. mehrere Cluster verbundener Knoten/Proteine; als Beispiel siehe Abbildung 6A); dann werden Gemeinschaften oder Module (von dicht verbundenen Knotenpunkten) für jede verbundene Komponente iterativ mit der TOM-Methode52 (Topological Overlap Matrix) detektiert.
- Konfigurieren Sie die Parameter für die PPI-Netzwerkanalyse (Abbildung 3, rechter Bereich).
- Legen Sie die minimale PPI-Modulgröße auf 2 fest. Dieser Parameter definiert die minimale Größe der getrennten Komponenten aus der ersten Analysephase. Jede Komponente, die kleiner als der angegebene Parameter ist, wird aus den Endergebnissen entfernt.
- Legen Sie die maximale PPI-Modulgröße auf 40 fest. Große, nicht verbundene Komponenten, die diesen Schwellenwert überschreiten, werden einer TOM-basierten Analyse der zweiten Stufe unterzogen. Die zweite Stufe der Analyse wird jede große Komponente weiter in kleinere Module aufteilen: Jedes Modul enthält vermutlich Proteine, die dichter miteinander verbunden sind als die ursprüngliche Komponente als Ganzes.
- Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die PPI-Netzwerkanalyse einzureichen:
- Klicken Sie auf die Schaltfläche JUMPn-Analyse senden , um die PPI-Analyse nach der WGCNA-Analyse standardmäßig automatisch durchzuführen.
- Alternativ können Sie benutzerdefinierte Co-Expression-Clusterergebnisse hochladen und eine Nur-PPI-Analyse gemäß den Schritten 5.2.3-5.2.5 durchführen.
- Bereiten Sie die Eingabedatei vor, indem Sie dem Format der Datei co_exp_clusters_3colums.txt folgen (siehe Unterabschnitt 4.4).
- Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Klicken Sie in der oberen Sitzung Upload Co-Expression Cluster Result for 'PPI Only' Analysis auf Browser, um die von Schritt 5.2.3 vorbereitete Eingabedatei hochzuladen.
- Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur PPI und klicken Sie dann auf Schließen , um fortzufahren. Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
- Sobald die Analyse abgeschlossen ist (in der Regel <3 min), untersuchen Sie die PPI-Ergebnisse, wie in den Schritten 2.10-2.15 dargestellt (Abbildung 6).
- Optionaler erweiterter Schritt) Passen Sie die PPI-Modularisierung an, indem Sie die Parameter abstimmen:
- Erhöhen Sie den Parameter Maximale Modulgröße , damit mehr Proteine in die PPI-Ergebnisse einbezogen werden können. Laden Sie ein benutzerdefiniertes PPI-Netzwerk hoch, um undokumentierte Interaktionen abzudecken, und führen Sie die Schritte 5.4.2-5.4.3 aus.
- Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Bereiten Sie die benutzerdefinierte PPI-Datei vor, die drei Spalten im Format , C onnection und enthält. Hier werden durch die offiziellen Gennamen jedes Proteins dargestellt.
- Klicken Sie unter PPI-Datenbank hochladen auf die Schaltfläche Durchsuchen , um die angepasste PPI-Datei hochzuladen.
6. Analyse der Signalweganreicherung
HINWEIS: Die von JUMPn abgeleiteten hierarchischen Strukturen sowohl von Co-Expression-Clustern als auch von PPI-Modulen innerhalb werden automatisch mit überrepräsentierten Pfaden mit Fishers exaktem Test annotiert. Zu den verwendeten Pfad-/Topologiedatenbanken gehören Gene Ontology (GO), KEGG, Hallmark und Reactome. Benutzer können erweiterte Optionen verwenden, um benutzerdefinierte Datenbanken für die Analyse hochzuladen (z. B. im Falle der Analyse von Daten von nicht-menschlichen Spezies).
- Standardmäßig wird die Pfadanreicherungsanalyse automatisch mit Co-Expression-Clustering und PPI-Netzwerkanalyse initiiert.
- Sehen Sie sich die Ergebnisse der Signalweganreicherung an:
- Führen Sie die Schritte 2.7, 2.12 und 2.15 aus, um verschiedene Formate auf den Ergebnisseiten zu visualisieren. Zeigen Sie detaillierte Ergebnisse in der Tabellenkalkulationstabellen-Veröffentlichungstabelle in der Datei ComprehensiveSummaryTables.xlsx an (Schritt 2.16).
- (Optionaler erweiterter Schritt) Laden Sie eine benutzerdefinierte Datenbank für die Analyse der Pfadanreicherung hoch:
- Bereiten Sie die Genhintergrunddatei vor, die typischerweise die offiziellen Gennamen aller Gene einer Art enthält.
- Bereiten Sie die Ontologiebibliotheksdatei gemäß den Schritten 6.3.3-6.3.4 vor.
- Laden Sie die Ontologiebibliotheksdateien von öffentlichen Websites herunter, einschließlich EnrichR53 und MSigDB54. Laden Sie beispielsweise die Ontologie von Drosophila von der EnrichR-Website55 herunter.
- Bearbeiten Sie die heruntergeladene Datei für das erforderliche Format mit zwei Spalten: dem Signalwegnamen als erste Spalte und dann den offiziellen Gensymbolen (getrennt durch "/") als zweite Spalte. Das detaillierte Dateiformat ist auf der Hilfeseite der JUMPn R Shiny-Software beschrieben.
HINWEIS: Finden Sie Beispieldateien des Genhintergrunds und der Ontologiebibliothek (mit Drosophila als Instanz) in der JUMPn GitHub-Site56.
- Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt.
- Suchen Sie nach Upload a Background File for Pathway Enrichment Analysis (Hintergrunddatei für die Pathway Enrichment Analysis ) und klicken Sie auf Browser, um die in Schritt 6.3.1 vorbereitete Hintergrunddatei hochzuladen. Wählen Sie dann in der Sitzung den Hintergrund aus, der für die Pathway-Anreicherungsanalyse verwendet werden soll, und klicken Sie auf Vom Benutzer bereitgestellter Hintergrund.
- Suchen Sie Upload an Ontology Library File for Pathway Enrichment Analysis ( Upload an Ontology Library File for Pathway Enrichment Analysis item ) und klicken Sie auf Browser , um die unter den Schritten 6.3.2-6.3.4 vorbereitete Ontologiebibliotheksdatei hochzuladen. Wählen Sie dann in der Sitzung Datenbanken für die Pathway-Anreicherungsanalyse aus und klicken Sie auf Vom Benutzer bereitgestellte Datenbank im .xlsx Format.
- Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse mit der angepassten Datenbank zu starten.
7. Analyse des Datensatzes mit großem Stichprobenumfang
HINWEIS: JUMPn unterstützt die Analyse von Datensätzen mit großer Stichprobengröße (bis zu 200 getestete Proben). Um die Visualisierung eines großen Stichprobenumfangs zu erleichtern, ist eine zusätzliche Datei (mit dem Namen "Metadatei") erforderlich, die die Beispielgruppe angibt, um die Anzeige von Clusterergebnissen für gemeinsame Ausdrücke zu erleichtern.
- Vorbereiten und Hochladen der Metadatei.
- Bereiten Sie die Metadatei vor, die Gruppeninformationen (z. B. Kontroll- und Krankheitsgruppen) für jede Probe angibt, indem Sie die Schritte 7.1.2-7.1.3 ausführen.
- Stellen Sie sicher, dass die Metadatei mindestens zwei Spalten enthält: Spalte 1 muss die Probennamen enthalten, die mit den Spaltennamen identisch sind, und die Reihenfolge aus der Proteinquantifizierungsmatrixdatei (wie in Schritt 3.3 vorbereitet); Ab Spalte 2 wird für die Gruppenzuweisung für eine beliebige Anzahl von Features verwendet, die vom Benutzer definiert wurden. Die Anzahl der Spalten ist flexibel.
- Stellen Sie sicher, dass die erste Zeile der Metadatei die Spaltennamen für jede Spalte enthält. Ab der zweiten Zeile sollten einzelne Stichprobeninformationen von Gruppen oder anderen Merkmalen (z.B. Geschlecht, Alter, Behandlung etc.) aufgelistet werden.
- Laden Sie die Metadatei hoch, indem Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter klicken. Ein neues Parameterfenster wird angezeigt. Fahren Sie mit Schritt 7.1.5 fort
- Suchen Sie das Element Metadatei hochladen und klicken Sie auf Browser , um die Hintergrunddatei hochzuladen. Wenn das unerwartete Format oder nicht übereinstimmende Beispielnamen von JUMPn erkannt werden, wird eine Fehlermeldung zur weiteren Formatierung der Metadatei angezeigt (Schritte 7.1.1-7.1.3).
- Passen Sie die Parameter für die Co-Expression-Clustering-Analyse an: Legen Sie Minimale Pearson-Korrelation auf 0,2 fest. Dieser Parameter muss aufgrund der größeren Stichprobengröße gelockert werden.
- Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse zu senden.
- Analyseergebnisse anzeigen: Alle Datenausgaben sind identisch, mit Ausnahme der Anzeige der Clustermuster für gemeinsame Ausdrücke.
- Visualisieren Sie auf der Seite Ergebnisseite 1: WGCNA-Ausgabe die Co-Ausdruckscluster als Boxplots mit Beispielen, die von den benutzerdefinierten Beispielgruppen oder Features geschichtet werden. Jeder Punkt im Diagramm stellt das Eigengen (d. h. das Konsensmuster des Clusters) dar, das vom WGCNA-Algorithmus berechnet wird.
- Wenn der Benutzer mehrere Funktionen (z. B. Alter, Geschlecht, Behandlung usw.) zum Gruppieren der Beispiele bereitgestellt hat, klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um ein anderes Feature zum Gruppieren der Beispiele auszuwählen.