JUMPn: Eine optimierte Anwendung für Protein-Co-Expressions-Clustering und Netzwerkanalyse in der Proteomik

David Vanderwall; Poudel Suresh; Yingxue Fu; Ji-Hoon Cho; Timothy I. Shaw; Ashutosh Mishra; Anthony A. High; Junmin Peng; Yuxin Li

doi:10.3791/62796

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Wir präsentieren ein systembiologisches Tool JUMPn zur Durchführung und Visualisierung von Netzwerkanalysen für quantitative Proteomikdaten mit einem detaillierten Protokoll, das Datenvorverarbeitung, Co-Expression-Clustering, Signalweganreicherung und Protein-Protein-Interaktionsnetzwerkanalyse umfasst.

Zusammenfassung

Mit den jüngsten Fortschritten bei massenspektrometriebasierten Proteomiktechnologien ist die Tiefenprofilierung von Hunderten von Proteomen zunehmend möglich geworden. Es ist jedoch eine Herausforderung, biologische Erkenntnisse aus solch wertvollen Datensätzen abzuleiten. Hier stellen wir eine auf Systembiologie basierende Software JUMPn und das zugehörige Protokoll vor, um das Proteom in Protein-Coexpressionscluster über Proben und Protein-Protein-Interaktionsnetzwerke (PPI) zu organisieren, die durch Module (z. B. Proteinkomplexe) verbunden sind. Mit der R/Shiny-Plattform optimiert die JUMPn-Software die Analyse von Co-Expression-Clustering, Pathway-Anreicherung und PPI-Modulerkennung mit integrierter Datenvisualisierung und einer benutzerfreundlichen Oberfläche. Die Hauptschritte des Protokolls umfassen die Installation der JUMPn-Software, die Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, die Bestimmung von aussagekräftigen Co-Expressionsclustern und PPI-Modulen sowie die Ergebnisvisualisierung. Während das Protokoll anhand eines isobaren, markierungsbasierten Proteomprofils demonstriert wird, ist JUMPn im Allgemeinen auf eine Vielzahl von quantitativen Datensätzen anwendbar (z. B. markierungsfreie Proteomik). Die JUMPn-Software und das JUMPn-Protokoll stellen somit ein leistungsfähiges Werkzeug zur Verfügung, um die biologische Interpretation in der quantitativen Proteomik zu erleichtern.

Einleitung

Massenspektrometrie-basierte Schrotflintenproteomik ist zum Schlüsselansatz für die Analyse der Proteomdiversität komplexer Proben^{geworden 1}. Mit den jüngsten Fortschritten in der Massenspektrometrie^{Instrumentierung 2,3}, Chromatographie 4,5, Ionenmobilitätsdetektion⁶, Erfassungsmethoden (datenunabhängig⁷ und datenabhängige Erfassung⁸), Quantifizierungsansätze (multiplexe isobare Peptidmarkierungsmethode, z. B. TMT^9,10 und markierungsfreie Quantifizierung ^11,12) und Datenanalysestrategien / Softwareentwicklung 13,14,15,16,17,18, Quantifizierung des gesamten Proteoms (z.B. über 10.000 Proteine) ist jetzt Routine 19,20,21. Wie man jedoch mechanistische Erkenntnisse aus solch tiefen quantitativen Datensätzen gewinnen kann, ist immer noch eine Herausforderung²². Erste Versuche, diese Datensätze zu untersuchen, stützten sich hauptsächlich auf die Annotation einzelner Elemente der Daten, wobei jede Komponente (Protein) unabhängig voneinander behandelt wurde. Biologische Systeme und ihr Verhalten lassen sich jedoch nicht allein durch die Untersuchung einzelner Komponenten^{erklären 23}. Daher ist ein Systemansatz, der die quantifizierten Biomoleküle in den Kontext von Interaktionsnetzwerken stellt, für das Verständnis komplexer Systeme und der damit verbundenen Prozesse wie Embryogenese, Immunantwort und Pathogenese menschlicher Krankheiten^{unerlässlich 24}.

Die netzwerkbasierte Systembiologie hat sich zu einem leistungsfähigen Paradigma für die Analyse großer quantitativer Proteomikdaten 25,26,27,28,29,30,31,32,33 entwickelt. Konzeptionell könnten komplexe Systeme wie Säugetierzellen als hierarchisches Netzwerk^34,35 modelliert werden, in dem das gesamte System in Ebenen dargestellt wird: zuerst durch eine Reihe von großen Komponenten^, von denen jede dann iterativ durch kleinere Subsysteme modelliert wird. Technisch gesehen kann die Struktur der Proteomdynamik durch miteinander verbundene Netzwerke von koexprimierten Proteinclustern (weil koexprimierte Gene / Proteine oft ähnliche biologische Funktionen oder Mechanismen der Regulation³⁶ teilen) und physikalisch interagierenden PPI-Modulen³⁷ dargestellt werden. Als aktuelles Beispiel²⁵ generierten wir zeitliche Profile des gesamten Proteoms und des Phosphoproteoms während der T-Zell-Aktivierung und verwendeten integrative Co-Expressionsnetzwerke mit PPIs, um funktionelle Module zu identifizieren, die den T-Zell-Ruhezustand vermitteln. Mehrere bioenergetische Module wurden hervorgehoben und experimentell validiert (z. B. die Mitoribosom- und komplexen IV-Module²⁵ und das Ein-Kohlenstoff-Modul³⁸). In einem weiteren Beispiel²⁶ haben wir unseren Ansatz zur Untersuchung der Pathogenese der Alzheimer-Krankheit weiter ausgebaut und erfolgreich die mit dem Krankheitsverlauf assoziierten Proteinmodule und -moleküle priorisiert. Wichtig ist, dass viele unserer unvoreingenommenen Entdeckungen durch unabhängige Patientenkohorten ^26,29 und/oder Krankheitsmausmodelle²⁶ validiert wurden. Diese Beispiele veranschaulichten die Leistungsfähigkeit des systembiologischen Ansatzes zur Sezierung molekularer Mechanismen mit quantitativer Proteomik und anderen Omics-Integrationen.

Hier stellen wir JUMPn vor, eine optimierte Software, die quantitative Proteomikdaten mit netzwerkbasierten systembiologischen Ansätzen untersucht. JUMPn dient als nachgelagerte Komponente der etablierten JUMP Proteomik-Software-Suite^13,14,39 und zielt darauf ab^, die Lücke von einzelnen Proteinquantifizierungen zu biologisch sinnvollen Signalwegen und Proteinmodulen mit dem systembiologischen Ansatz zu schließen. Durch die Berücksichtigung der Quantifizierungsmatrix von differentiell exprimierten (oder den variabelsten) Proteinen als Input zielt JUMPn darauf ab, das Proteom in einer abgestuften Hierarchie von Proteinclustern zu organisieren, die über Proben und dicht verbundene PPI-Module (z. B. Proteinkomplexe) koexprimiert werden, die durch Überrepräsentationsanalyse (oder Anreicherungsanalyse) weiter mit öffentlichen Pfaddatenbanken annotiert werden (Abbildung 1). JUMPn wurde mit der R/Shiny-Plattform⁴⁰ für eine benutzerfreundliche Oberfläche entwickelt und integriert drei Hauptfunktionsmodule: Co-Expression-Clustering-Analyse, Pathway-Enrichment-Analyse und PPI-Netzwerkanalyse (Abbildung 1). Nach jeder Analyse werden die Ergebnisse automatisch visualisiert und über die R/shiny-Widget-Funktionen einstellbar und können als Publikationstabellen im Microsoft Excel-Format heruntergeladen werden. Im folgenden Protokoll verwenden wir quantitative Gesamtproteomdaten als Beispiel und beschreiben die wichtigsten Schritte der Verwendung von JUMPn, einschließlich der Installation der JUMPn-Software, der Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, der Co-Expressionsnetzwerkanalyse und der PPI-Modulanalyse, der Ergebnisvisualisierung und -interpretation sowie der Fehlerbehebung. Die JUMPn-Software ist auf GitHub⁴¹ frei verfügbar.

Protokoll

HINWEIS: In diesem Protokoll wird die Verwendung von JUMPn durch die Verwendung eines veröffentlichten Datensatzes der Profilerstellung des gesamten Proteoms während der B-Zell-Differenzierung veranschaulicht, der mit dem isobaren TMT-Markierungsreagenz²⁷ quantifiziert wurde.

1. Einrichtung der JUMPn-Software

HINWEIS: Für die Einrichtung der JUMPn-Software stehen zwei Optionen zur Verfügung: (i) Installation auf einem lokalen Computer für den persönlichen Gebrauch; und (ii) Bereitstellung von JUMPn auf einem Remote-Shiny-Server für mehrere Benutzer. Für die lokale Installation reicht ein PC mit Internetzugang und ≥4 GB RAM aus, um die JUMPn-Analyse für einen Datensatz mit einer kleinen Stichprobengröße (n < 30) durchzuführen. Für die Analyse großer Kohorten (z. B. n = 200 Proben) wird ein größerer Arbeitsspeicher (z. B. 16 GB) benötigt.

Installieren Sie die Software auf einem lokalen Computer. Lassen Sie den Webbrowser nach der Installation JUMPn starten und lassen Sie die Analyse auf dem lokalen Computer laufen.
1. Installieren Sie anaconda⁴² oder miniconda⁴³ gemäß den Online-Anweisungen.
2. Laden Sie den JUMPn-Quellcode⁴¹ herunter. Doppelklicken Sie, um die heruntergeladene Datei JUMPn_v_1.0.0.zip zu entpacken; Ein neuer Ordner mit dem Namen JUMPn_v_1.0.0 wird erstellt.
3. Öffnen Sie das Befehlszeilenterminal. Verwenden Sie unter Windows die Anaconda-Eingabeaufforderung. Verwenden Sie unter MacOS die integrierte Terminal-Anwendung.
4. Erstellen Sie die JUMPn Conda-Umgebung: Rufen Sie den absoluten Pfad des Ordners JUMPn_v_1.0.0 ab (z. B. /path/to/JUMPn_v_1.0.0). Um eine leere Conda-Umgebung zu erstellen und zu aktivieren, geben Sie die folgenden Befehle auf dem Terminal ein
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda aktivieren /path/to/JUMPn_v_1.0.0/JUMPn
5. Installieren Sie JUMPn-Abhängigkeiten: Installieren Sie R (geben Sie auf dem Terminal conda install -c conda-forge r=4.0.0 -y ein), ändern Sie das aktuelle Verzeichnis in den Ordner JUMPn_v_1.0.0 (geben Sie auf dem Terminal cd path/to/JUMPn_v_1.0.0) ein und installieren Sie die Abhängigkeitspakete (geben Sie auf dem Terminal Rscript bootstrap ein. R)
6. Starten Sie JUMPn im Webbrowser: Ändern Sie das aktuelle Verzeichnis in den Ausführungsordner (geben Sie auf dem Terminal cd execution ein) und starten Sie JUMPn (geben Sie auf dem Terminal R -e "shiny::runApp()" ein)
7. Sobald das oben Genannte ausgeführt wurde, wird auf dem Terminalbildschirm Listening auf http://127.0.0.1: XXXX angezeigt (hier zeigt XXXX 4 Zufallszahlen an). Kopieren Sie http://127.0.0.1:XXXX und fügen Sie es in den Webbrowser ein, auf dem die JUMPn-Willkommensseite angezeigt wird (Abbildung 2).
Bereitstellung auf Shiny Server. Beispiele für Shiny Server sind der kommerzielle shinyapps.io Server oder alle institutionell unterstützten Shiny Server.
1. Laden Sie RStudio herunter und installieren Sie es gemäß den Anweisungen⁴⁴.
2. Holen Sie sich die Bereitstellungsberechtigung für den Shiny Server. Richten Sie für den shinyapps.io Server das Benutzerkonto ein, indem Sie die Anweisung⁴⁵ befolgen. Für den institutionellen Shiny-Server wenden Sie sich an den Serveradministrator, um Berechtigungen anzufordern.
3. Laden Sie den JUMPn-Quellcode⁴¹ auf den lokalen Computer herunter. Eine Installation ist nicht notwendig. Öffnen Sie entweder den Server. R oder ui. R-Dateien in RStudio und klicken Sie auf das Dropdown-Menü Auf Server veröffentlichen oben rechts in der RStudio-IDE.
4. Geben Sie im Bereich "In Konto veröffentlichen " die Serveradresse ein. Klicken Sie auf die Schaltfläche Veröffentlichen . Die erfolgreiche Bereitstellung wird bei der automatischen Umleitung von RStudio auf den RShiny-Server, auf dem die Anwendung bereitgestellt wurde, überprüft.

2. Demolauf mit einem Beispieldatensatz

HINWEIS: JUMPn bietet einen Demolauf mit dem veröffentlichten B-Zell-Proteomik-Datensatz an. Der Demolauf veranschaulicht einen optimierten Workflow, der die Quantifizierungsmatrix differentiell exprimierter Proteine als Input verwendet und Co-Expressionsclustering, Signalweganreicherung und PPI-Netzwerkanalyse nacheinander durchführt.

Klicken Sie auf der JUMPn-Startseite (Abbildung 2) auf die Schaltfläche Analyse beginnen, um die JUMPn-Analyse zu starten.
Klicken Sie in der unteren linken Ecke der Seite Anfangsanalyse (Abbildung 3) auf die Schaltfläche Demo B Cell Proteomic Data hochladen. Ein Dialogfeld wird angezeigt, in dem Sie über den Erfolg des Datenuploads informiert werden.
Klicken Sie in der unteren rechten Ecke der Seite auf die Schaltfläche JUMPn-Analyse senden , um den Demolauf mit Standardparametern zu starten. Es erscheint ein Fortschrittsbalken, der den Verlauf der Analyse angibt. Warten Sie, bis der Fortschrittsbalken erfüllt ist (3 min erwartet).
Sobald der Demolauf abgeschlossen ist, wird ein Dialogfeld mit der Erfolgsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt. Klicken Sie auf Weiter zu den Ergebnissen , um fortzufahren.
Die Webseite führt den Benutzer zunächst zu den Ergebnissen des Co-Expression-Clusters von WGCNA. Klicken Sie im Dialogfenster auf Ergebnisse anzeigen , um fortzufahren.
Die Protein-Co-Expressionsmuster finden Sie links auf der Ergebnisseite 1: WGCNA-Ausgabeseite. Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um zwischen zwei Abbildungsformaten zu navigieren:
1. Wählen Sie Trends aus, um das Trenddiagramm anzuzeigen, wobei jede Zeile die individuelle Proteinhäufigkeit über Proben hinweg darstellt. Die Farbe jeder Zeile stellt dar, wie nahe das Ausdrucksmuster am Konsens des Koexpressionsclusters liegt (d. h. "Eigengen" gemäß der Definition des WGCNA-Algorithmus).
2. Wählen Sie Boxplot aus, um für jedes Beispiel Co-Ausdrucksmuster im Boxplot-Format anzuzeigen.
Sehen Sie sich die Heatmap zur Pathway-/Ontologieanreicherung rechts neben der WGCNA-Ausgabeseite an. Die am stärksten angereicherten Pfade für jeden Cluster werden zusammen in einer Heatmap angezeigt, wobei die Farbintensität den angepassten p-Wert von Benjamini-Hochberg widerspiegelt.
Scrollen Sie auf der Webseite nach unten, um das Expressionsmuster für einzelne Proteine anzuzeigen.
1. Verwenden Sie das Dropdown-Feld Wählen Sie den Co-Expression-Cluster aus, um Proteine aus jedem Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Wählen Sie ein bestimmtes Protein in der Tabelle aus, auf dem das Balkendiagramm unter der Tabelle automatisch aktualisiert wird, um seine Proteinhäufigkeit widerzuspiegeln.
2. Suchen Sie bestimmte Proteinnamen mithilfe des Suchfelds auf der rechten Seite der Tabelle nach einem bestimmten Protein.
Um die PPI-Ergebnisse anzuzeigen, klicken Sie oben auf die Ergebnisseite 2: PPI-Ausgabe .
Klicken Sie auf Co-Expression-Cluster auswählen, um die Ergebnisse für einen bestimmten Co-Expression-Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Die Anzeigen aller Abbildungsfelder auf dieser Seite werden für den neu ausgewählten Cluster aktualisiert.
Zeigen Sie die PPI-Netzwerke für den ausgewählten Co-Expression-Cluster im linken Abbildungsbereich an:
1. Klicken Sie auf das Dropdown-Feld Nach Gruppe auswählen , um einzelne PPI-Module innerhalb des Netzwerks hervorzuheben. Klicken Sie auf das Dropdown-Feld Netzwerklayoutformat auswählen , um das Netzwerklayout zu ändern (standardmäßig von Fruchterman Reingold).
2. Verwenden Sie die Maus und das Trackpad, um die Schritte 2.11.3-2.11.5 auszuführen.
3. Vergrößern oder verkleinern Sie das PPI-Netzwerk nach Bedarf. Die Gennamen der einzelnen Knoten im Netzwerk werden angezeigt, wenn sie ausreichend vergrößert werden.
4. Wählen Sie beim Vergrößern ein bestimmtes Protein aus und klicken Sie darauf, um dieses Protein und seine Netzwerknachbarn hervorzuheben.
5. Ziehen Sie einen bestimmten Knoten (Protein) im Netzwerk, um seine Position im Layout zu ändern. Dadurch kann das Netzwerklayout vom Benutzer neu organisiert werden.
Zeigen Sie im rechten Bereich der PPI-Ergebnisseite die Informationen auf Clusterebene mit gemeinsamem Ausdruck an, die die Interpretation der PPI-Ergebnisse unterstützen:
1. Zeigen Sie das Co-Ausdrucksmuster des ausgewählten Clusters standardmäßig als Boxplot an.
2. Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um weitere Informationen zu erhalten, oder werden Sie wie in den Schritten 2.12.3-2.12.5 beschrieben angezeigt.
3. Wählen Sie Trends aus, um das Trenddiagramm für das Co-Ausdrucksmuster anzuzeigen.
4. Wählen Sie Pfadbarplot aus, um deutlich angereicherte Pfade für den Co-Ausdruckscluster anzuzeigen.
5. Wählen Sie "Pfadkreisdiagramm", um deutlich angereicherte Pfade für den Co-Ausdruckscluster im Kreisdiagrammformat anzuzeigen.
Scrollen Sie auf der Webseite Ergebnisseite 2: PPI-Ausgabe nach unten, um die Ergebnisse auf der Ebene der einzelnen PPI-Module anzuzeigen. Klicken Sie auf das Dropdown-Feld Wählen Sie das Modul aus , um ein bestimmtes PPI-Modul für die Anzeige auszuwählen (Cluster1: Modul 1 wird standardmäßig angezeigt).
Sehen Sie sich das PPI-Modul im linken Bereich an. Führen Sie die Schritte 2.11.2-2.11.5 aus, um die Netzwerkanzeige zu manipulieren.
Sehen Sie sich die Ergebnisse der Signalweg-/Ontologieanreicherung im rechten Bereich an. Klicken Sie auf das Dropdown-Feld Pfadanmerkungsstil auswählen, um weitere Informationen und Anzeigen zu erhalten:
1. Wählen Sie Barplot aus, um deutlich angereicherte Pfade für das ausgewählte PPI-Modul anzuzeigen.
2. Wählen Sie "Kreisdiagramm ", um deutlich angereicherte Pfade für das ausgewählte PPI-Modul im Format eines Kreisdiagramms anzuzeigen.
3. Wählen Sie Heatmap , um deutlich angereicherte Signalwege und die zugehörigen Gennamen aus dem ausgewählten PPI-Modul anzuzeigen.
4. Wählen Sie Tabelle aus, um die detaillierten Ergebnisse der Signalweganreicherung anzuzeigen, einschließlich der Namen der Signalwege/Ontologiebegriffe, Gennamen und des P-Werts nach Fishers exaktem Test.
Zeigen Sie die Publikationstabelle in einem Tabellenkalkulationsformat an: Folgen Sie dem absoluten Pfad (oben auf beiden Ergebnisseiten abgedruckt) und suchen Sie die Publikationstabellentabelle mit dem Namen ComprehensiveSummaryTables.xlsx.

3. Vorbereitung der Eingabedatei und Upload auf JUMPn

HINWEIS: JUMPn nimmt als Eingabe die Quantifizierungsmatrix entweder der differentiell exprimierten Proteine (überwachte Methode) oder der variabelsten Proteine (unüberwachte Methode). Wenn das Ziel des Projekts darin besteht, Proteine zu verstehen, die über mehrere Bedingungen (z. B. verschiedene Krankheitsgruppen oder Zeitreihenanalyse des biologischen Prozesses) verändert wurden, wird die überwachte Methode zur Durchführung der DE-Analyse bevorzugt. Andernfalls kann ein unüberwachter Ansatz zur Auswahl der variabelsten Proteine für den explorativen Zweck verwendet werden.

Generieren Sie die Proteinquantifizierungstabelle, wobei jedes Protein als Zeilen und jede Probe als Spalten angezeigt wird. Erreichen Sie dies über eine moderne massenspektrometriebasierte Proteomik-Software-Suite (z.B. JUMP suite^13,14,39, Proteome Discoverer, Maxquant ^15,46).
Definieren Sie die Variable Proteom.
1. Verwenden Sie die statistischen Analyseergebnisse der Proteomik-Software-Suite, um differentiell exprimierte (DE) Proteine zu definieren (z. B. mit angepasstem p-Wert < 0,05).
2. Alternativ können Benutzer dem Beispiel-R-Code⁴⁷ folgen, um entweder DE oder die meisten variablen Proteine zu definieren.
Formatieren Sie die Eingabedatei mit dem definierten variablen Proteom.
HINWEIS: Das erforderliche Eingabedateiformat (Abbildung 4) enthält eine Kopfzeile. Die Spalten enthalten den Proteinzutritt (oder eindeutige IDs), GN (offizielle Gensymbole), die Proteinbeschreibung (oder alle vom Benutzer bereitgestellten Informationen), gefolgt von der Proteinquantifizierung einzelner Proben.
1. Befolgen Sie die Reihenfolge der in Schritt 3.1 angegebenen Spalten, aber die Spaltennamen der Kopfzeile sind für den Benutzer flexibel.
2. Verwenden Sie für TMT (oder ähnliches) quantifiziertes Proteom die zusammengefasste TMT-Reporterintensität als Eingangsquantifizierungswerte. Für markierungsfreie Daten verwenden Sie entweder normalisierte Spektralzählungen (z. B. NSAF⁴⁸) oder intensitätsbasierte Methoden (z. B. LFQ-Intensität oder iBAQ-Proteinintensität, die von Maxquant⁴⁶ gemeldet werden).
3. Fehlende Werte sind für die JUMPn-Analyse zulässig. Stellen Sie sicher, dass diese in der Quantifizierungsmatrix als NA gekennzeichnet sind. Es wird jedoch empfohlen, nur Proteine mit Quantifizierung in mehr als 50% der Proben zu verwenden.
4. Speichern Sie die resultierende Eingabedatei im .txt-, .xlsx- oder .csv-Format (alle drei werden von JUMPn unterstützt).
Eingabedatei hochladen:
1. Klicken Sie auf die Schaltfläche Browser und wählen Sie die Eingabedatei aus (Abbildung 3, linker Bereich); Das Dateiformat (XLSX, CSV und TXT werden unterstützt) wird automatisch erkannt.
2. Wenn die Eingabedatei intensitätsähnliche Quantifizierungswerte (z. B. solche, die von der JUMP Suite³⁹ generiert werden) oder verhältnisähnliche (z. B. aus Proteome Discoverer) enthält, wählen Sie Ja für die Option Log2-Transformation der Daten ausführen. Andernfalls wurden die Daten möglicherweise bereits protokolliert umgewandelt, daher wählen Sie für diese Option Nein aus.

4. Co-Expression-Clustering-Analyse

HINWEIS: Unsere Gruppe 25,26,27 und andere^28,29,31 haben WGCNA ⁴⁹ als effektive Methode zur Co-Expression-Clustering-Analyse der quantitativen Proteomik bewiesen. JUMPn folgt einem 3-stufigen Verfahren für die WGCNA-Analyse^25,50: (i) anfängliche Definition von Co-Expressions-Gen-/Proteinclustern durch dynamisches Baumschneiden ⁵¹ basierend auf der topologischen Überlappungsmatrix (TOM; bestimmt durch Quantifizierungsähnlichkeiten zwischen Genen/Proteinen); (ii) Zusammenführung ähnlicher Cluster zur Verringerung der Redundanz (basierend auf dem Dendrogramm der Eigengenähnlichkeiten); und (iii) endgültige Zuordnung von Genen/Proteinen zu jedem Cluster, die den minimalen Pearson-Korrelations-Cutoff überschreiten.

Konfigurieren Sie die WGCNA-Parameter (Abbildung 3, mittlere Abbildung). Die folgenden drei Parameter steuern jeweils die drei Schritte:
1. Legen Sie die minimale Clustergröße auf 30 fest. Dieser Parameter definiert die minimale Anzahl von Proteinen, die für jeden Co-Expressionscluster im ersten Schritt (i) des TOM-basierten hybriden dynamischen Baumschneidens erforderlich sind. Je größer der Wert, desto kleiner die Anzahl der vom Algorithmus zurückgegebenen Cluster.
2. Legen Sie den minimalen Clusterabstand auf 0,2 fest. Das Erhöhen dieses Werts (z. B. von 0,2 auf 0,3) kann zu einer stärkeren Clusterzusammenführung während Schritt (ii) führen, was zu einer geringeren Anzahl von Clustern führt.
3. Legen Sie das Minimum kME auf 0,7 fest. Proteine werden dem am stärksten korrelierten Cluster zugeordnet, der in Schritt (ii) definiert wurde, aber nur Proteine mit Pearson-Korrelation, die diesen Schwellenwert überschreiten, werden beibehalten. Proteine, die in diesem Schritt versagen, werden keinem Cluster zugeordnet ('NA'-Cluster für die ausgefallenen Proteine im Abschlussbericht).
Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die Clustering-Analyse für den gemeinsamen Ausdruck einzureichen:
1. Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die umfassende Analyse von WGCNA automatisch gefolgt von einer PPI-Netzwerkanalyse zu starten.
2. Alternativ können Sie den WGCNA-Schritt nur ausführen (insbesondere zum Zwecke der Parameterabstimmung; siehe Schritte 4.2.3-4.2.4):
3. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur WGCNA und klicken Sie dann auf Schließen, um fortzufahren.
4. Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
5. In beiden oben genannten Fällen wird bei der Übermittlung der Analyse ein Fortschrittsbalken angezeigt.
  HINWEIS: Sobald die Analyse abgeschlossen ist (in der Regel < 1 Minute für die Nur-WGCNA-Analyse und <3 Minuten für eine umfassende Analyse), wird ein Dialogfeld mit einer Erfolgsausführungsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt.
Untersuchen Sie die WGCNA-Ergebnisse, wie in den Schritten 2.4-2.8 dargestellt (Abbildung 5). Beachten Sie, dass der absolute Pfad zum Datei-co_exp_clusters_3colums.txt oben auf der Ergebnisseite: WGCNA-Ausgabe hervorgehoben ist, um die Clustermitgliedschaft jedes Proteins aufzuzeichnen und es als Eingabe für die Nur-PPI-Analyse zu verwenden.
Fehlerbehebung. Die folgenden drei häufigen Fälle werden diskutiert. Sobald die Parameter wie unten beschrieben aktualisiert wurden, führen Sie die Schritte 4.2.2-4.2.4 aus, um neue WGCNA-Ergebnisse zu generieren.
1. Wenn ein wichtiges Co-Ausdrucksmuster von den Daten erwartet, aber vom Algorithmus übersehen wird, führen Sie die Schritte 4.4.2-4.4.4 aus.
2. Ein fehlender Cluster ist besonders wahrscheinlich für kleine Co-Expressions-Cluster, d.h. nur eine begrenzte Anzahl (z. B. <30) von Proteinen, die dieses Muster aufweisen. Überprüfen Sie vor der erneuten Analyse die Eingabedatei der Proteinquantifizierungsmatrix erneut und lokalisieren Sie mehrere Positivkontrollproteine, die diesem wichtigen Co-Expressionsmuster entsprechen.
3. Um die kleinen Cluster zu retten, verringern Sie die minimale Clustergröße (z. B. 10; Clustergröße kleiner als 10 ist möglicherweise nicht robust und wird daher nicht empfohlen) und verringern Sie die minimale Clusterentfernung (z. B. 0,1; hier ist auch die Einstellung als 0 zulässig, was bedeutet, dass die automatische Clusterzusammenführung übersprungen wird).
4. Überprüfen Sie nach dem Ausführen des Co-Expression-Clustering-Schritts mit den aktualisierten Parametern zunächst, ob der Cluster aus den Co-Expression-Musterdiagrammen gerettet wurde, und überprüfen Sie dann die positiven Kontrollen, indem Sie ihre Proteinakzessionen unter Detaillierte Proteinquantifizierung durchsuchen (stellen Sie sicher, dass Sie vor der Suche den entsprechenden Co-Expression-Cluster aus dem linken Dropdown-Widget auswählen).
  HINWEIS: Für die Rettung sind möglicherweise mehrere Iterationen der Parameteroptimierung und -wiederholung erforderlich.
5. Wenn es zu viele Proteine gibt, die keinem Cluster zugeordnet werden können, führen Sie die Schritte 4.4.6-4.4.7 aus.
  HINWEIS: Normalerweise ist ein kleiner Prozentsatz (typischerweise <10%) der Proteine möglicherweise keinem Cluster zugeordnet werden, da es sich dabei um Ausreißerproteine handeln kann, die keinem der üblichen Expressionsmuster des Datensatzes folgten. Wenn ein solcher Prozentsatz jedoch signifikant ist (z. B. >30%), deutet dies darauf hin, dass es zusätzliche Koausdrucksmuster gibt, die nicht ignoriert werden können.
6. Verringern Sie sowohl die Parameter Minimale Clustergröße als auch Minimale Clusterentfernung, um diese Situation zu verringern, indem Sie "neue" Co-Expression-Cluster erkennen.
7. Verringern Sie außerdem den Parameter Minimal Pearson Correlation (kME), um diese "NA-Cluster" -Proteine zu schrumpfen.
  HINWEIS: Durch die Optimierung dieses Parameters werden keine neuen Cluster generiert, sondern stattdessen die Größe der "bestehenden" Cluster erhöht, indem mehr zuvor ausgefallene Proteine mit dem niedrigeren Schwellenwert akzeptiert werden. Dies wird jedoch auch die Heterogenität jedes Clusters erhöhen, da jetzt mehr verrauschte Proteine erlaubt sind.
8. Zwei Cluster haben einen sehr geringen Unterschied in den Mustern; Führen Sie sie in einem Cluster zusammen, indem Sie die Schritte 4.4.9-4.4.11 ausführen.
9. Erhöhen Sie den Parameter Minimale Clusterentfernung, um das Problem zu beheben.
10. In einigen Situationen gibt der Algorithmus jedoch möglicherweise nie das gewünschte Muster zurück. Passen Sie in einem solchen Moment die Clustermitgliedschaft in der Datei co_exp_clusters_3colums.txt (Datei aus Schritt 4.3) manuell an oder bearbeiten Sie sie, um sie zusammenzuführen.
11. Nehmen Sie die nachbearbeitete Datei als Eingabe für die nachgelagerte PPI-Netzwerkanalyse. Begründen Sie im Falle einer manuellen Bearbeitung die Kriterien der Clusterzuweisung und zeichnen Sie den Ablauf der manuellen Bearbeitung auf.

5. Protein-Protein-Interaktionsnetzwerk-Analyse

HINWEIS: Durch die Überlagerung von Co-Expression-Clustern in das PPI-Netzwerk wird jeder Co-Expression-Cluster weiter in kleinere PPI-Module geschichtet. Die Analyse wird für jeden Co-Expressions-Cluster durchgeführt und umfasst zwei Phasen: In der ersten Phase überlagert JUMPn Proteine aus dem Co-Expressions-Cluster in das PPI-Netzwerk und findet alle verbundenen Komponenten (d. h. mehrere Cluster verbundener Knoten/Proteine; als Beispiel siehe Abbildung 6A); dann werden Gemeinschaften oder Module (von dicht verbundenen Knotenpunkten) für jede verbundene Komponente iterativ mit der TOM-Methode⁵² (Topological Overlap Matrix) detektiert.

Konfigurieren Sie die Parameter für die PPI-Netzwerkanalyse (Abbildung 3, rechter Bereich).
1. Legen Sie die minimale PPI-Modulgröße auf 2 fest. Dieser Parameter definiert die minimale Größe der getrennten Komponenten aus der ersten Analysephase. Jede Komponente, die kleiner als der angegebene Parameter ist, wird aus den Endergebnissen entfernt.
2. Legen Sie die maximale PPI-Modulgröße auf 40 fest. Große, nicht verbundene Komponenten, die diesen Schwellenwert überschreiten, werden einer TOM-basierten Analyse der zweiten Stufe unterzogen. Die zweite Stufe der Analyse wird jede große Komponente weiter in kleinere Module aufteilen: Jedes Modul enthält vermutlich Proteine, die dichter miteinander verbunden sind als die ursprüngliche Komponente als Ganzes.
Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die PPI-Netzwerkanalyse einzureichen:
1. Klicken Sie auf die Schaltfläche JUMPn-Analyse senden , um die PPI-Analyse nach der WGCNA-Analyse standardmäßig automatisch durchzuführen.
2. Alternativ können Sie benutzerdefinierte Co-Expression-Clusterergebnisse hochladen und eine Nur-PPI-Analyse gemäß den Schritten 5.2.3-5.2.5 durchführen.
3. Bereiten Sie die Eingabedatei vor, indem Sie dem Format der Datei co_exp_clusters_3colums.txt folgen (siehe Unterabschnitt 4.4).
4. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Klicken Sie in der oberen Sitzung Upload Co-Expression Cluster Result for 'PPI Only' Analysis auf Browser, um die von Schritt 5.2.3 vorbereitete Eingabedatei hochzuladen.
5. Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur PPI und klicken Sie dann auf Schließen , um fortzufahren. Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
Sobald die Analyse abgeschlossen ist (in der Regel <3 min), untersuchen Sie die PPI-Ergebnisse, wie in den Schritten 2.10-2.15 dargestellt (Abbildung 6).
Optionaler erweiterter Schritt) Passen Sie die PPI-Modularisierung an, indem Sie die Parameter abstimmen:
1. Erhöhen Sie den Parameter Maximale Modulgröße , damit mehr Proteine in die PPI-Ergebnisse einbezogen werden können. Laden Sie ein benutzerdefiniertes PPI-Netzwerk hoch, um undokumentierte Interaktionen abzudecken, und führen Sie die Schritte 5.4.2-5.4.3 aus.
2. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Bereiten Sie die benutzerdefinierte PPI-Datei vor, die drei Spalten im Format , C onnection und enthält. Hier werden durch die offiziellen Gennamen jedes Proteins dargestellt.
3. Klicken Sie unter PPI-Datenbank hochladen auf die Schaltfläche Durchsuchen , um die angepasste PPI-Datei hochzuladen.

6. Analyse der Signalweganreicherung

HINWEIS: Die von JUMPn abgeleiteten hierarchischen Strukturen sowohl von Co-Expression-Clustern als auch von PPI-Modulen innerhalb werden automatisch mit überrepräsentierten Pfaden mit Fishers exaktem Test annotiert. Zu den verwendeten Pfad-/Topologiedatenbanken gehören Gene Ontology (GO), KEGG, Hallmark und Reactome. Benutzer können erweiterte Optionen verwenden, um benutzerdefinierte Datenbanken für die Analyse hochzuladen (z. B. im Falle der Analyse von Daten von nicht-menschlichen Spezies).

Standardmäßig wird die Pfadanreicherungsanalyse automatisch mit Co-Expression-Clustering und PPI-Netzwerkanalyse initiiert.
Sehen Sie sich die Ergebnisse der Signalweganreicherung an:
1. Führen Sie die Schritte 2.7, 2.12 und 2.15 aus, um verschiedene Formate auf den Ergebnisseiten zu visualisieren. Zeigen Sie detaillierte Ergebnisse in der Tabellenkalkulationstabellen-Veröffentlichungstabelle in der Datei ComprehensiveSummaryTables.xlsx an (Schritt 2.16).
(Optionaler erweiterter Schritt) Laden Sie eine benutzerdefinierte Datenbank für die Analyse der Pfadanreicherung hoch:
1. Bereiten Sie die Genhintergrunddatei vor, die typischerweise die offiziellen Gennamen aller Gene einer Art enthält.
2. Bereiten Sie die Ontologiebibliotheksdatei gemäß den Schritten 6.3.3-6.3.4 vor.
3. Laden Sie die Ontologiebibliotheksdateien von öffentlichen Websites herunter, einschließlich EnrichR⁵³ und MSigDB⁵⁴. Laden Sie beispielsweise die Ontologie von Drosophila von der EnrichR-Website⁵⁵ herunter.
4. Bearbeiten Sie die heruntergeladene Datei für das erforderliche Format mit zwei Spalten: dem Signalwegnamen als erste Spalte und dann den offiziellen Gensymbolen (getrennt durch "/") als zweite Spalte. Das detaillierte Dateiformat ist auf der Hilfeseite der JUMPn R Shiny-Software beschrieben.
  HINWEIS: Finden Sie Beispieldateien des Genhintergrunds und der Ontologiebibliothek (mit Drosophila als Instanz) in der JUMPn GitHub-Site⁵⁶.
5. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt.
6. Suchen Sie nach Upload a Background File for Pathway Enrichment Analysis (Hintergrunddatei für die Pathway Enrichment Analysis ) und klicken Sie auf Browser, um die in Schritt 6.3.1 vorbereitete Hintergrunddatei hochzuladen. Wählen Sie dann in der Sitzung den Hintergrund aus, der für die Pathway-Anreicherungsanalyse verwendet werden soll, und klicken Sie auf Vom Benutzer bereitgestellter Hintergrund.
7. Suchen Sie Upload an Ontology Library File for Pathway Enrichment Analysis ( Upload an Ontology Library File for Pathway Enrichment Analysis item ) und klicken Sie auf Browser , um die unter den Schritten 6.3.2-6.3.4 vorbereitete Ontologiebibliotheksdatei hochzuladen. Wählen Sie dann in der Sitzung Datenbanken für die Pathway-Anreicherungsanalyse aus und klicken Sie auf Vom Benutzer bereitgestellte Datenbank im .xlsx Format.
Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse mit der angepassten Datenbank zu starten.

7. Analyse des Datensatzes mit großem Stichprobenumfang

HINWEIS: JUMPn unterstützt die Analyse von Datensätzen mit großer Stichprobengröße (bis zu 200 getestete Proben). Um die Visualisierung eines großen Stichprobenumfangs zu erleichtern, ist eine zusätzliche Datei (mit dem Namen "Metadatei") erforderlich, die die Beispielgruppe angibt, um die Anzeige von Clusterergebnissen für gemeinsame Ausdrücke zu erleichtern.

Vorbereiten und Hochladen der Metadatei.
1. Bereiten Sie die Metadatei vor, die Gruppeninformationen (z. B. Kontroll- und Krankheitsgruppen) für jede Probe angibt, indem Sie die Schritte 7.1.2-7.1.3 ausführen.
2. Stellen Sie sicher, dass die Metadatei mindestens zwei Spalten enthält: Spalte 1 muss die Probennamen enthalten, die mit den Spaltennamen identisch sind, und die Reihenfolge aus der Proteinquantifizierungsmatrixdatei (wie in Schritt 3.3 vorbereitet); Ab Spalte 2 wird für die Gruppenzuweisung für eine beliebige Anzahl von Features verwendet, die vom Benutzer definiert wurden. Die Anzahl der Spalten ist flexibel.
3. Stellen Sie sicher, dass die erste Zeile der Metadatei die Spaltennamen für jede Spalte enthält. Ab der zweiten Zeile sollten einzelne Stichprobeninformationen von Gruppen oder anderen Merkmalen (z.B. Geschlecht, Alter, Behandlung etc.) aufgelistet werden.
4. Laden Sie die Metadatei hoch, indem Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter klicken. Ein neues Parameterfenster wird angezeigt. Fahren Sie mit Schritt 7.1.5 fort
5. Suchen Sie das Element Metadatei hochladen und klicken Sie auf Browser , um die Hintergrunddatei hochzuladen. Wenn das unerwartete Format oder nicht übereinstimmende Beispielnamen von JUMPn erkannt werden, wird eine Fehlermeldung zur weiteren Formatierung der Metadatei angezeigt (Schritte 7.1.1-7.1.3).
Passen Sie die Parameter für die Co-Expression-Clustering-Analyse an: Legen Sie Minimale Pearson-Korrelation auf 0,2 fest. Dieser Parameter muss aufgrund der größeren Stichprobengröße gelockert werden.
Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse zu senden.
Analyseergebnisse anzeigen: Alle Datenausgaben sind identisch, mit Ausnahme der Anzeige der Clustermuster für gemeinsame Ausdrücke.
1. Visualisieren Sie auf der Seite Ergebnisseite 1: WGCNA-Ausgabe die Co-Ausdruckscluster als Boxplots mit Beispielen, die von den benutzerdefinierten Beispielgruppen oder Features geschichtet werden. Jeder Punkt im Diagramm stellt das Eigengen (d. h. das Konsensmuster des Clusters) dar, das vom WGCNA-Algorithmus berechnet wird.
2. Wenn der Benutzer mehrere Funktionen (z. B. Alter, Geschlecht, Behandlung usw.) zum Gruppieren der Beispiele bereitgestellt hat, klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um ein anderes Feature zum Gruppieren der Beispiele auszuwählen.

Ergebnisse

Wir verwendeten unsere veröffentlichten Deep-Proteomics-Datensätze^25,26,27,30 (Abbildungen 5 und Abbildung 6⁾ sowie Datensimulationen⁵⁷ (Tabelle 1), um die JUMPn-Leistung zu optimieren und zu bewerten. Für die Co-Expressions-Proteinclustering-Analyse über WGCNA empfehlen wir, Proteine zu ver...

Diskussion

Hier haben wir unsere JUMPn-Software und ihr Protokoll vorgestellt, die in mehreren Projekten zur Sezierung molekularer Mechanismen unter Verwendung tiefer quantitativer Proteomik-Daten 25,26,27,30,64 angewendet wurden. Die JUMPn-Software und das Protokoll wurden vollständig optimiert, einschließlich der Berücksichtigung von DE-Proteinen für die Co-Express...

Offenlegungen

Die Autoren haben nichts offenzulegen.

Danksagungen

Die finanzielle Unterstützung wurde von den National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 und U54NS110435) und ALSAC (American Lebanese Syrian Associated Charities) bereitgestellt. Die MS-Analyse wurde im Zentrum für Proteomik und Metabolomik des St. Jude Children's Research Hospital durchgeführt, das teilweise durch den NIH Cancer Center Support Grant (P30CA021765) unterstützt wurde. Der Inhalt liegt in der alleinigen Verantwortung der Autoren und stellt nicht unbedingt die offiziellen Ansichten der National Institutes of Health dar.

Materialien

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html

Referenzen

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
. JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
. Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
. miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
. RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
. Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
. R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
. FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
. JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

JUMPn: Eine optimierte Anwendung für Protein-Co-Expressions-Clustering und Netzwerkanalyse in der Proteomik

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken