Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen

André Nicolau Aquime Gonçalves; Vanessa Escolano Maso; Ícaro Maia Santos de Castro; Amanda Pereira Vasconcelos; Rodrigo Luiz Tomio Ogava; Helder I Nakaya

doi:10.3791/62324

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungs-Transkriptomdaten von Rohlesungen bis hin zur Funktionsanalyse, einschließlich Qualitätskontroll- und Vorverarbeitungsschritten bis hin zu fortschrittlichen statistischen Analyseansätzen.

Zusammenfassung

Krankheitserreger können eine Vielzahl von Infektionskrankheiten verursachen. Die biologischen Prozesse, die vom Wirt als Reaktion auf eine Infektion induziert werden, bestimmen die Schwere der Erkrankung. Um solche Prozesse zu untersuchen, können Forscher Hochdurchsatz-Sequenzierungstechniken (RNA-seq) verwenden, die die dynamischen Veränderungen des Wirtstranskriptoms in verschiedenen Stadien der Infektion, klinischen Ergebnissen oder Krankheitsschwere messen. Diese Untersuchung kann zu einem besseren Verständnis der Krankheiten sowie zur Aufdeckung potenzieller Wirkstoffziele und Behandlungen führen. Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungsdaten vom Rohlesen bis zur Funktionsanalyse. Die Pipeline ist in fünf Schritte unterteilt: (1) Qualitätskontrolle der Daten; (2) Kartierung und Annotation von Genen; (3) statistische Analyse zur Identifizierung differentiell exprimierter Gene und koexprimierter Gene; (4) Bestimmung des molekularen Grades der Störung von Proben; und (5) Funktionalanalyse. Schritt 1 entfernt technische Artefakte, die sich auf die Qualität nachgelagerter Analysen auswirken können. In Schritt 2 werden Gene nach Standardbibliotheksprotokollen kartiert und annotiert. Die statistische Analyse in Schritt 3 identifiziert Gene, die in infizierten Proben im Vergleich zu nicht infizierten Proben differentiell exprimiert oder koexprimiert werden. Die Probenvariabilität und das Vorhandensein potenzieller biologischer Ausreißer werden mit dem Ansatz des molekularen Störungsgrades in Schritt 4 überprüft. Schließlich zeigt die Funktionelle Analyse in Schritt 5 die mit dem Krankheitsphänotyp assoziierten Signalwege auf. Die vorgestellte Pipeline zielt darauf ab, Forscher durch die RNA-seq-Datenanalyse aus Wirt-Pathogen-Interaktionsstudien zu unterstützen und zukünftige In-vitro- oder In-vivo-Experimente voranzutreiben, die für das Verständnis des molekularen Mechanismus von Infektionen unerlässlich sind.

Einleitung

Arboviren wie Dengue, Gelbfieber, Chikungunya und Zika wurden weithin mit mehreren endemischen Ausbrüchen in Verbindung gebracht und haben sich in den letzten Jahrzehnten als einer der Hauptpathogene für die Infektion des Menschen ^{herausgestellt1,2}. Personen, die mit dem Chikungunya-Virus (CHIKV) infiziert sind, haben oft Fieber, Kopfschmerzen, Hautausschlag, Polyarthralgie und ^{Arthritis3,4,5}. Viren können die Genexpression der Zelle untergraben und verschiedene Wirtssignalwege beeinflussen. Kürzlich verwendeten Bluttranskriptomstudien RNA-seq, um die differentiell exprimierten Gene (DEGs) zu identifizieren, die mit einer akuten CHIKV-Infektion im Vergleich zur Rekonvaleszenz6 oder gesunden Kontrollen assoziiert ^sind7. CHIKV-infizierte Kinder hatten hochregulierte Gene, die an der angeborenen Immunität beteiligt sind, wie diejenigen, die mit zellulären Sensoren für virale RNA, JAK / STAT-Signalgebung und Toll-like-Rezeptor-Signalwege ^{zusammenhängen6}. Erwachsene, die akut mit CHIKV infiziert waren, zeigten auch eine Induktion von Genen, die mit der angeborenen Immunität zusammenhängen, wie z.B. solche, die mit Monozyten und der Aktivierung dendritischer Zellen sowie mit antiviralen Reaktionen ^{zusammenhängen7}. Zu den Signalwegen, die mit herunterregulierten Genen angereichert waren, gehörten diejenigen, die sich auf die adaptive Immunität bezogen, wie die Aktivierung und Differenzierung und Anreicherung von T-Zellen in T- und B-Zellen7.

Mehrere Methoden können verwendet werden, um Transkriptomdaten von Wirts- und Pathogengenen zu analysieren. Oft beginnt die Vorbereitung der RNA-seq-Bibliothek mit der Anreicherung reifer Poly-A-Transkripte. Dieser Schritt entfernt den größten Teil der ribosomalen RNA (rRNA) und in einigen Fällen virale/bakterielle RNAs. Wenn die biologische Frage jedoch den Nachweis des Pathogentranskripts beinhaltet und RNA unabhängig von der vorherigen Selektion sequenziert wird, könnten viele andere verschiedene Transkripte durch Sequenzierung nachgewiesen werden. Beispielsweise haben sich subgenomische mRNAs als wichtiger Faktor erwiesen, um die Schwere der Erkrankungen zu ^{überprüfen8}. Darüber hinaus erzeugen für bestimmte Viren wie CHIKV und SARS-CoV-2 sogar poly-A-angereicherte Bibliotheken virale Lesevorgänge, die in nachgelagerten Analysen verwendet werden ^können9,10. Wenn sie sich auf die Analyse des Wirtstranskriptoms konzentrieren, können die Forscher die biologische Störung über Proben hinweg untersuchen, differentiell exprimierte Gene und angereicherte Signalwege identifizieren und Koexpressionsmodule erzeugen7,11,12. Dieses Protokoll hebt Transkriptomanalysen von CHIKV-infizierten Patienten und gesunden Personen unter Verwendung verschiedener bioinformatischer Ansätze hervor (Abbildung 1A). Daten aus einer zuvor veröffentlichten ^Studie7, bestehend aus 20 gesunden und 39 CHIKV akut infizierten Personen, wurden verwendet, um die repräsentativen Ergebnisse zu generieren.

Protokoll

Die in diesem Protokoll verwendeten Proben wurden von den Ethikkommissionen sowohl der Abteilung für Mikrobiologie des Instituts für Biomedizinische Wissenschaften der Universität von São Paulo als auch der Bundesuniversität von Sergipe genehmigt (Protokolle: 54937216.5.0000.5467 bzw. 54835916.2.0000.5546).

1. Docker Desktop-Installation

HINWEIS: Die Schritte zum Vorbereiten der Docker-Umgebung unterscheiden sich zwischen den Betriebssystemen (Betriebssystemen). Daher müssen Mac-Benutzer die als 1.1 aufgeführten Schritte, Linux-Benutzer die als 1.2 aufgeführten Schritte und Windows-Benutzer die als 1.3 aufgeführten Schritte ausführen.

Installation auf dem MacOS.
1. Rufen Sie die Get Docker-Website (Tabelle der Materialien) auf, klicken Sie auf Docker Desktop für Mac und dann auf den Link Von Docker Hub herunterladen .
2. Laden Sie die Installationsdatei herunter, indem Sie auf die Schaltfläche Docker herunterladen klicken.
3. Führen Sie die Docker.dmg Datei aus, um das Installationsprogramm zu öffnen, und ziehen Sie dann das Symbol in den Ordner Programme . Lokalisieren und führen Sie die Docker.app im Ordner "Programme" aus, um das Programm zu starten.
  HINWEIS: Das softwarespezifische Menü in der oberen Statusleiste zeigt an, dass die Software ausgeführt wird und von einem Terminal aus darauf zugegriffen werden kann.
Installieren Sie das Containerprogramm auf dem Linux-Betriebssystem.
1. Greifen Sie auf die Get Docker Linux-Website (Tabelle der Materialien) zu und folgen Sie den Anweisungen zur Installation über den Repository-Abschnitt, der unter dem Link Docker Linux Repository verfügbar ist.
2. Aktualisieren Sie alle Linux-Pakete über die Befehlszeile:
  sudo apt-get Aktualisieren
3. Installieren Sie die erforderlichen Pakete in Docker:
  sudo apt-get installieren apt-transport-https ca-certificates curl gnupg lsb-release
4. Erstellen Sie eine Software-Archiv-Schlüsselringdatei:
  curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. Fügen Sie Docker deb-Informationen in der Datei source.list hinzu:
  echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. Aktualisieren Sie alle Pakete erneut, einschließlich der kürzlich hinzugefügten:
  sudo apt-get Aktualisieren
7. Installieren Sie die Desktop-Version:
  sudo apt-get install docker-ce docker-ce-cli containerd.io
8. Wählen Sie das geografische Gebiet und die Zeitzone aus, um den Installationsvorgang abzuschließen.
Installieren Sie das Containerprogramm auf dem Windows-Betriebssystem.
1. Rufen Sie die Get Docker-Website (Tabelle der Materialien) auf und klicken Sie auf Erste Schritte. Suchen Sie das Installationsprogramm für Docker Desktop für Windows. Laden Sie die Dateien herunter und installieren Sie sie lokal auf dem Computer.
2. Starten Sie nach dem Download die Installationsdatei (.exe) und behalten Sie die Standardparameter bei. Stellen Sie sicher, dass die beiden Optionen Erforderliche Windows-Komponenten für WSL 2 installieren und Verknüpfung zum Desktop hinzufügen markiert sind.
  HINWEIS: In einigen Fällen, wenn diese Software versucht, den Dienst zu starten, zeigt sie einen Fehler an: Die WSL-Installation ist unvollständig. Um diesen Fehler herauszufinden, rufen Sie die Website WSL2-Kernel (Table of Materials) auf.
3. Laden Sie den neuesten WSL2 Linux-Kernel herunter und installieren Sie ihn.
4. Greifen Sie als Administrator auf das PowerShell-Terminal zu und führen Sie den folgenden Befehl aus:
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
5. Stellen Sie sicher, dass die Software Docker Desktop erfolgreich installiert wurde.
Laden Sie das Image aus dem CSBL-Repository auf den Docker-Hub herunter (Materialtabelle).
1. Öffnen Sie den Docker-Desktop und überprüfen Sie, ob der Status unten links in der Symbolleiste "ausgeführt" lautet.
2. Wechseln Sie zur Windows PowerShell-Terminalbefehlszeile. Laden Sie das Linux-Container-Image für dieses Protokoll aus dem CSBL-Repository auf dem Docker-Hub herunter. Führen Sie den folgenden Befehl aus, um das Image herunterzuladen:
  docker pull csblusp/transcriptome
  HINWEIS: Nach dem Herunterladen des Images kann die Datei auf dem Docker Desktop angezeigt werden. Zum Erstellen des Containers müssen Windows-Benutzer Schritt 1.5 und Linux-Benutzer Schritt 1.6 ausführen.
Initialisieren Sie den Servercontainer auf dem Windows-Betriebssystem.
1. Zeigen Sie die Docker-Image-Datei im Desktop-App-Manager über die Symbolleiste an und greifen Sie auf die Seite Images zu.
  HINWEIS: Wenn das Pipeline-Image erfolgreich heruntergeladen wurde, steht ein csblusp/transcriptome-Image zur Verfügung.
2. Initiieren Sie den Container aus dem csblusp/transcriptome-Bild, indem Sie auf die Schaltfläche Ausführen klicken. Erweitern Sie die optionalen Einstellungen , um den Container zu konfigurieren.
3. Definieren Sie den Containernamen (z. B. Server).
4. Ordnen Sie einen Ordner auf dem lokalen Computer dem Ordner im Docker zu. Bestimmen Sie dazu den Hostpfad. Legen Sie einen Ordner auf dem lokalen Computer fest, in dem die verarbeiteten Daten gespeichert werden, die am Ende heruntergeladen werden. Legen Sie den Containerpfad fest. Definieren und verknüpfen Sie den Containerordner csblusp/transcriptome mit dem lokalen Computerpfad (verwenden Sie den Namen "/opt/transferdata" für den Containerpfad).
5. Klicken Sie anschließend auf Ausführen , um den csblusp / transcriptome-Container zu erstellen.
6. Um über den csblusp/transcriptome-Container auf das Linux-Terminal zuzugreifen, klicken Sie auf die Schaltfläche CLI.
7. Geben Sie das Bash-Terminal ein, um eine bessere Erfahrung zu haben. Führen Sie dazu den folgenden Befehl aus:
  schlagen
8. Stellen Sie nach dem Ausführen des Bash-Befehls sicher, dass das Terminal (root@:/#) anzeigt:
  root@ac12c583b731:/ #
Initialisieren Sie den Servercontainer für Linux OS.
1. Führen Sie diesen Befehl aus, um den Docker-Container basierend auf dem Image zu erstellen:
  docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
  HINWEIS: : Definieren Sie einen Pfad des lokalen Ordnercomputers.
2. Führen Sie diesen Befehl aus, um auf das Befehlsterminal des Docker-Containers zuzugreifen:
  docker exec -it server bash
3. Stellen Sie die Verfügbarkeit eines Linux-Terminals sicher, um Programme / Skripte über die Befehlszeile auszuführen.
4. Stellen Sie nach dem Ausführen des Bash-Befehls sicher, dass das Terminal (root@:/#) anzeigt:
  root@ac12c583b731:/ #
  HINWEIS: Das Root-Passwort ist standardmäßig "transcriptome". Auf Wunsch kann das Root-Passwort durch Ausführen des folgenden Befehls geändert werden:
  passwd
5. Führen Sie zunächst den Quellbefehl aus, um addpath.sh, um sicherzustellen, dass alle Tools verfügbar sind. Führen Sie den folgenden Befehl aus:
  Quelle /opt/addpath.sh
Überprüfen Sie die Struktur des RNA-Sequenzierungsordners.
1. Greifen Sie auf den Ordner transkriptome pipeline scripts zu und stellen Sie sicher, dass alle Daten aus der RNA-Sequenzierung im Ordner /home/transcriptome-pipeline/data gespeichert sind.
2. Stellen Sie sicher, dass alle Ergebnisse der Analyse im Ordner des Pfads /home/transcriptome-pipeline/results gespeichert sind.
3. Stellen Sie sicher, dass Genom- und Anmerkungsreferenzdateien im Ordner des Pfads /home/transcriptome-pipeline/datasets gespeichert sind. Diese Dateien helfen, alle Analysen zu unterstützen.
4. Stellen Sie sicher, dass alle Skripte im Ordner des Pfades /home/transcriptome-pipeline/scripts gespeichert und durch jeden Schritt wie unten beschrieben getrennt sind.
Laden Sie die Anmerkung und das menschliche Genom herunter.
1. Greifen Sie auf den Ordner scripts zu:
  cd /home/transcriptome-pipeline/scripts
2. Führen Sie diesen Befehl aus, um das menschliche Referenzgenom herunterzuladen:
  Bash-downloadGenome.sh
3. Um die Anmerkung herunterzuladen, führen Sie den folgenden Befehl aus:
  Bash-downloadAnnotation.sh
Ändern Sie die Anmerkung oder die Version des Referenzgenoms.
1. Öffnen Sie downloadAnnotation.sh und downloadGenome.sh, um die URL der einzelnen Dateien zu ändern.
2. Kopieren Sie die downloadAnnotation.sh und downloadGenome.sh Dateien in den Übertragungsbereich und bearbeiten Sie sie im lokalen Betriebssystem.
  cd /home/transcriptome-pipeline/scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. Öffnen Sie den Ordner Hostpfad , der in Schritt 1.5.4 für die Verknüpfung zwischen Host und Docker-Container ausgewählt wurde.
4. Bearbeiten Sie die Dateien mit der bevorzugten Editor-Software und speichern Sie sie. Legen Sie abschließend die geänderten Dateien in den Skriptordner ab. Führen Sie den folgenden Befehl aus:
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
  HINWEIS: Diese Dateien können direkt mit dem vim oder nano Linux Editor bearbeitet werden.
Konfigurieren Sie als Nächstes das fastq-dump-Tool mit der Befehlszeile:
vdb-config --interaktiv
HINWEIS: Dadurch können Sequenzierungsdateien aus den Beispieldaten heruntergeladen werden.
1. Navigieren Sie mit der Tabulatortaste auf der Seite Extras und wählen Sie die Option aktueller Ordner aus. Navigieren Sie zur Option Speichern und klicken Sie auf OK. Beenden Sie dann das fastq-dump-Tool.
Initiieren Sie den Download der Lesevorgänge aus dem zuvor veröffentlichten ^Paper7. Die SRA-Zugangsnummer jeder Stichprobe ist erforderlich. Beziehen Sie die SRA-Nummern von der SRA NCBI-Website (Table of Materials).
HINWEIS: Um RNA-Seq-Daten zu analysieren, die in öffentlichen Datenbanken verfügbar sind, folgen Sie Schritt 1.12. Um private RNA-seq-Daten zu analysieren, folgen Sie Schritt 1.13.
Analysieren Sie bestimmte öffentliche Daten.
1. Greifen Sie auf die Website des National Center for Biotechnology Information (NCBI) zu und suchen Sie nach Schlüsselwörtern für ein bestimmtes Thema.
2. Klicken Sie auf den Link Ergebnis für BioProject im Abschnitt Genomes .
3. Wählen und klicken Sie auf eine bestimmte Studie. Klicken Sie auf die SRA-Experimente. Es öffnet sich eine neue Seite, auf der alle für diese Studie verfügbaren Beispiele angezeigt werden.
4. Klicken Sie oben auf die Zugangsnummer "Senden an:" . Wählen Sie in der Option "Ziel auswählen" die Option Datei und Format aus, wählen Sie RunInfo. Klicken Sie auf "Datei erstellen" , um alle Bibliotheksinformationen zu exportieren.
5. Speichern Sie die Datei SraRunInfo.csv im Host-Pfad, der im Schritt 1.5.4 definiert wurde, und führen Sie das Download-Skript aus:
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/scripts
  Bash downloadAllLibraries.sh
Analysieren Sie private und unveröffentlichte Sequenzierungsdaten.
1. Organisieren Sie die Sequenzierungsdaten in einem Ordner mit dem Namen Reads.
  HINWEIS: Erstellen Sie im Ordner Reads einen Ordner für jedes Beispiel. Diese Ordner müssen für jedes Beispiel denselben Namen haben. Fügen Sie Daten jedes Beispiels in seinem Verzeichnis hinzu. Falls es sich um eine paired-end RNA-Seq handelt, sollte jedes Stichprobenverzeichnis zwei FASTQ-Dateien enthalten, die Namen enthalten müssen, die nach den Mustern {sample}_1.fastq.gz und {sample}_2.fastq.gz, Vorwärts- bzw. Rückwärtssequenzen enden. Beispielsweise muss ein Beispiel mit dem Namen "Healthy_control" über ein Verzeichnis mit demselben Namen und FASTQ-Dateien mit den Namen Healthy_control_1.fastq.gz und Healthy_control_2.fastq.gz verfügen. Wenn es sich bei der Bibliothekssequenzierung jedoch um eine Single-End-Strategie handelt, sollte nur eine Lesedatei für die nachgelagerte Analyse gespeichert werden. Beispielsweise muss dasselbe Beispiel, "Fehlerfreies Steuerelement", über eine eindeutige FASTQ-Datei mit dem Namen Healthy_control.fastq.gz verfügen.
2. Erstellen Sie eine phänotypische Datei, die alle Beispielnamen enthält: Benennen Sie die erste Spalte als 'Sample' und die zweite Spalte als 'Class'. Füllen Sie die Spalte Sample mit Sample-Namen, die für die Sample-Verzeichnisse derselbe Name sein müssen, und füllen Sie die Class-Spalte mit der phänotypischen Gruppe jeder Stichprobe (z. B. Kontrolle oder infiziert). Speichern Sie abschließend eine Datei mit dem Namen "metadata.tsv" und senden Sie sie an das Verzeichnis /home/transcriptome-pipeline/data/. Überprüfen Sie die vorhandene metadata.tsv, um das Format der phänotypischen Datei zu verstehen.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. Greifen Sie auf das in Schritt 1.5.4 definierte Verzeichnis Hostpfad zu, und kopieren Sie die neuen Beispiele für strukturierte Verzeichnisse. Verschieben Sie schließlich die Beispiele aus /opt/transferdata in das Pipeline-Datenverzeichnis.
  cp -rf /opt/transferdata/reads/*
  /home/transkriptome-pipeline/data/reads/
Beachten Sie, dass alle Lesevorgänge im Ordner /home/transcriptome-pipeline/data/reads gespeichert sind.

2. Qualitätskontrolle der Daten

HINWEIS: Bewerten Sie grafisch die Wahrscheinlichkeit von Fehlern in den Sequenzierungslesevorgängen. Entfernen Sie alle technischen Sequenzen, z. B. Adapter.

Greifen Sie mit dem FastQC-Tool auf die Sequenzierungsqualität von Bibliotheken zu.
1. Um die Qualitätsdiagramme zu generieren, führen Sie das Programm fastqc aus. Führen Sie den folgenden Befehl aus:
  Bash-FastQC.sh
  HINWEIS: Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/results/FastQC gespeichert. Da Sequenzadapter für die Bibliotheksvorbereitung und -sequenzierung verwendet werden, können in einigen Fällen die Fragmente der Adaptersequenz den Mapping-Prozess stören.
Entfernen Sie die Adaptersequenz und die Lesevorgänge von geringer Qualität. Greifen Sie auf den Ordner Scripts zu und führen Sie den Befehl für das Trimmomatic-Werkzeug aus:
cd /home/transcriptome-pipeline/scripts
Bash trimmomatic.sh
HINWEIS: Die für den Sequenzierungsfilter verwendeten Parameter sind: Entfernen Sie führende niedrige Qualität oder 3 Basen (unter Qualität 3) (LEADING:3); Entfernen Sie nachgestellte niedrige Qualität oder 3 Basen (unter Qualität 3) (TRAILING:3); Scannen Sie den Lesevorgang mit einem 4-Basis breiten Schiebefenster und schneiden Sie, wenn die durchschnittliche Qualität pro Basis unter 20 fällt (SLIDINGWINDOW:4:20); und Drop liest unter den 36 Basen lang (MINLEN:36). Diese Parameter können durch Bearbeiten der Trimmomatic-Skriptdatei geändert werden.
1. Stellen Sie sicher, dass die Ergebnisse im folgenden Ordner gespeichert sind: /home/transcriptome-pipeline/results/trimreads. Führen Sie den folgenden Befehl aus:
  ls /home/transcriptome-pipeline/results/trimreads

3. Mapping und Annotation von Proben

HINWEIS: Nachdem sie die guten Leseergebnisse erhalten haben, müssen diese dem Referenzgenom zugeordnet werden. Für diesen Schritt wurde der STAR-Mapper verwendet, um die Beispielproben abzubilden. Das STAR-Mapper-Tool benötigt 32 GB RAM-Speicher, um die Lesevorgänge und das Genom-Mapping zu laden und auszuführen. Für Benutzer, die nicht über 32 GB RAM-Speicher verfügen, können bereits zugeordnete Lesevorgänge verwendet werden. Springen Sie in solchen Fällen zu Schritt 3.3 oder verwenden Sie den Bowtie2-Mapper. Dieser Abschnitt enthält Skripte für STAR (Ergebnisse in allen Abbildungen dargestellt) und Bowtie2 (Mapper mit geringem Speicherbedarf).

Indexieren Sie zunächst das Referenzgenom für den Mapping-Prozess:
1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
  cd /home/transcriptome-pipeline/scripts
2. Führen Sie für STAR mapper Folgendes aus:
  Bash indexGenome.sh
3. Führen Sie für Bowtie Mapper Folgendes aus:
  Bash-indexGenomeBowtie2.sh
Führen Sie den folgenden Befehl aus, um gefilterte Lesevorgänge (abgerufen aus Schritt 2) dem Referenzgenom (GRCh38-Version) zuzuordnen. Sowohl STAR- als auch Bowtie2-Mapper werden mit Standardparametern ausgeführt.
1. Führen Sie für STAR mapper Folgendes aus:
  Bash mapSTAR.sh
2. Führen Sie für Bowtie2 mapper Folgendes aus:
  Bash mapBowtie2.sh
  HINWEIS: Die endgültigen Ergebnisse sind BAM-Dateien (Binary Alignment Map) für jede Stichprobe, die in /home/transcriptome-pipeline/results/mapreads gespeichert ist.
Kommentieren Sie zugeordnete Lesevorgänge mit dem FeatureCounts-Tool , um Rohzählungen für jedes Gen zu erhalten. Führen Sie die Skripts aus, die die Lesevorgänge mit Anmerkungen versehen.
HINWEIS: Das FeatureCounts-Tool ist dafür verantwortlich, den genomischen Features zugeordnete Sequenzierungslesevorgänge zuzuweisen. Zu den wichtigsten Aspekten der Genomannotation, die nach der biologischen Frage geändert werden können, gehören der Nachweis von Isoformen, mehrere kartierte Lesevorgänge und Exon-Exon-Verbindungen, die den Parametern GTF.attrType="gene_name" für Gen entsprechen oder nicht die Parameter für die Meta-Feature-Ebene angeben, allowMultiOverlap=TRUE bzw. juncCounts=TRUE.
1. Greifen Sie über die Befehlszeile auf den Ordner scripts zu:
  cd /home/transcriptome-pipeline/scripts
2. Führen Sie die Befehlszeile aus, um die zugeordneten Lesevorgänge mit Anmerkungen zu versehen, um Rohzählungen pro Gen zu erhalten:
  Rscript-Anmerkung. R
  HINWEIS: Die für den Annotationsprozess verwendeten Parameter waren: Kurzname des Rückgabegens (GTF.attrType="gene_name"); mehrere Überlappungen zulassen (allowMultiOverlap = TRUE); und geben Sie an, dass die Bibliothek paired-end ist (isPairedEnd=TRUE). Verwenden Sie für die Single-End-Strategie den Parameter isPairedEnd=FALSE. Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/countreads gespeichert.
Normalisieren Sie die Genexpression.
HINWEIS: Die Normalisierung der Genexpression ist unerlässlich, um die Ergebnisse zwischen den Ergebnissen (z. B. gesunde und infizierte Proben) zu vergleichen. Eine Normalisierung ist auch erforderlich, um die Co-Expression und den molekularen Grad der Störungsanalyse durchzuführen.
1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
  cd /home/transcriptome-pipeline/scripts
2. Normalisieren Sie die Genexpression. Führen Sie dazu die Befehlszeile aus:
  Rscript normalisiertBeispiele. R
  HINWEIS: Die Rohzählungsausdrücke in diesem Experiment wurden mit den Methoden Trimmed Mean of M-values (TMM) und Count Per Million (CPM) normalisiert. Dieser Schritt zielt darauf ab, Unterschiede in der Genexpression aufgrund des technischen Einflusses zu beseitigen, indem eine Normalisierung der Bibliotheksgröße durchgeführt wird. Die Ergebnisse werden im Ordner /home/transcriptome-pipeline/countreads gespeichert.

4. Differentiell exprimierte Gene und koexprimierte Gene

Identifizieren Sie differentiell exprimierte Gene mit dem Open-Source-EdgeR-Paket. Dabei geht es darum, Gene zu finden, deren Expression im Vergleich zur Kontrolle höher oder niedriger ist.
1. Greifen Sie über die Befehlszeile auf den Ordner Scripts zu:
  cd /home/transcriptome-pipeline/scripts
2. Um das differentiell exprimierte Gen zu identifizieren, führen Sie das DEG_edgeR R-Skript über die Befehlszeile aus:
  Rscript DEG_edgeR.R
  HINWEIS: Die Ergebnisse, die die differentiell exprimierten Gene enthalten, werden im Ordner /home/transcriptome-pipeline/results/degs gespeichert. Daten können auf einen PC übertragen werden.
Laden Sie Daten aus dem csblusp/transcriptome-Container herunter.
1. Übertragen Sie verarbeitete Daten aus der /home/transcriptome-pipeline in den Ordner /opt/transferdata (lokaler Computer).
2. Kopieren Sie alle Dateien auf den lokalen Computer, indem Sie die Befehlszeile ausführen:
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  HINWEIS: Wechseln Sie nun zum lokalen Computer, um sicherzustellen, dass alle Ergebnisse, Datasets und Daten im Hostpfad heruntergeladen werden können.
Identifizieren Sie Co-Expression-Module.
1. Greifen Sie auf die CEMiTool-Website (Co-Expression Modules Identification Tool) zu (Tabelle von
  Materialien). Dieses Tool identifiziert Koexpressionsmodule aus Ausdrucksdatasets, die von den Benutzern bereitgestellt werden. Klicken Sie auf der Hauptseite oben rechts auf Ausführen . Dadurch wird eine neue Seite zum Hochladen der Ausdrucksdatei geöffnet.
2. Klicken Sie unter dem Abschnitt Expressionsdatei auf Datei auswählen und laden Sie die normalisierte Genexpressionsmatrix "tmm_expression.tsv" aus dem Hostpfad hoch.
  HINWEIS: Schritt 4.4. ist nicht obligatorisch.
Erforschen Sie die biologische Bedeutung von Co-Expression-Modulen.
1. Klicken Sie im Abschnitt Beispielphänotypen auf Datei auswählen und laden Sie die Datei mit den Beispielphänotypen metadata_cemitool.tsv aus dem Schritt Daten herunterladen 4.2.2 hoch. zur Durchführung einer Gen-Set-Anreicherungsanalyse (GSEA).
2. Klicken Sie im Abschnitt Geninteraktionen auf Datei auswählen, um eine Datei mit Geninteraktionen (cemitool-interactions.tsv) hochzuladen. Es ist möglich, die Datei der Geninteraktionen zu verwenden, die von webCEMiTool als Beispiel zur Verfügung gestellt wird. Die Interaktionen können Protein-Protein-Interaktionen, Transkriptionsfaktoren und ihre transkribierten Gene oder Stoffwechselwege sein. Dieser Schritt erzeugt ein Interaktionsnetzwerk für jedes Koexpressionsmodul.
3. Klicken Sie im Abschnitt Gene Sets auf Datei auswählen, um eine Liste von Genen hochzuladen, die funktionell verwandt sind, in einer Datei im Format Gene Matrix Transposed (GMT). Die Gene Set-Datei ermöglicht es dem Tool, eine Anreicherungsanalyse für jedes Koexpressionsmodul durchzuführen, d.h. eine Überrepräsentationsanalyse (ORA).
  HINWEIS: Diese Liste von Genen kann Signalwege, GO-Begriffe oder miRNA-Zielgene umfassen. Der Forscher kann die Blood Transcription Modules (BTM) als Gensätze für diese Analyse verwenden. Die BTM-Datei (BTM_for_GSEA.gmt).
Legen Sie Parameter für die Durchführung von Co-Expression-Analysen fest und erhalten Sie deren Ergebnisse.
1. Erweitern Sie anschließend den Abschnitt Parameter , indem Sie auf das Pluszeichen klicken, um die Standardparameter anzuzeigen. Ändern Sie sie bei Bedarf. Aktivieren Sie das Kontrollkästchen VST anwenden .
2. Schreiben Sie die E-Mail im Abschnitt E-Mail , um die Ergebnisse als E-Mail zu erhalten. Dieser Schritt ist optional.
3. Klicken Sie auf die Schaltfläche CEMiTool ausführen .
4. Laden Sie den vollständigen Analysebericht herunter, indem Sie oben rechts auf Den vollständigen Bericht herunterladen klicken. Es wird eine komprimierte Datei cemitool_results.zip heruntergeladen.
5. Extrahieren Sie den Inhalt der cemitool_results.zip mit WinRAR.
  HINWEIS: Der Ordner mit dem extrahierten Inhalt umfasst mehrere Dateien mit allen Ergebnissen der Analyse und deren festgelegten Parametern.

5. Bestimmung des molekularen Störungsgrades von Proben

Molecular Degree of Perturbation (MDP) Webversion.
1. Um MDP auszuführen, greifen Sie auf die MDP-Website (Tabelle der Materialien) zu. MDP berechnet den molekularen Abstand jeder Probe von der Referenz. Klicken Sie auf die Schaltfläche Ausführen .
2. Laden Sie auf dem Link Datei auswählen die Ausdrucksdatei tmm_expression.tsv hoch. Laden Sie dann die phänotypische Datendatei metadata.tsv aus dem Schritt Daten herunterladen 4.2.2 hoch. Es ist auch möglich, eine Signalwegsanmerkungsdatei im GMT-Format einzureichen, um den Störungswert der mit der Krankheit assoziierten Signalwege zu berechnen.
3. Nachdem die Daten hochgeladen wurden, definieren Sie die Spalte Klasse, die die vom MDP verwendeten phänotypischen Informationen enthält. Definieren Sie dann die Steuerelementklasse, indem Sie die Bezeichnung auswählen, die der Steuerelementklasse entspricht.
  HINWEIS: Es gibt einige optionale Parameter, die sich darauf auswirken, wie die Stichprobenwerte berechnet werden. Bei Bedarf kann der Benutzer die Statistikdurchschnittsmethode, die Standardabweichung und den obersten Prozentsatz der gestörten Gene ändern.
4. Danach drücken Sie die Schaltfläche MDP ausführen und die MDP-Ergebnisse werden angezeigt. Der Benutzer kann die Zahlen herunterladen, indem er auf den Download-Plot in jedem Plot klickt, sowie auf den MDP-Score auf der Schaltfläche Download MDP Score File .
  HINWEIS: Bei Fragen zum Einreichen der Dateien oder zur Funktionsweise von MDP gehen Sie einfach die Webseiten Tutorial und About durch.

6. Analyse der funktionellen Anreicherung

Erstellen Sie eine Liste der herunterregulierten DEGs und eine weitere Liste der herunterregulierten DEGs. Gennamen müssen den Entrez-Gensymbolen entsprechen. Jedes Gen der Liste muss in einer Zeile platziert werden.
Speichern Sie die Genlisten im txt- oder tsv-Format.
Greifen Sie auf die Enrichr-Website (Tabelle der Materialien) zu, um die Funktionsanalyse durchzuführen.
Wählen Sie die Liste der Gene aus, indem Sie auf Datei auswählen klicken. Wählen Sie eines der DEGs aus, und klicken Sie auf die Schaltfläche Senden.
Klicken Sie oben auf der Webseite auf Pathways , um eine funktionelle Anreicherungsanalyse mit dem ORA-Ansatz durchzuführen.
Wählen Sie eine Pfaddatenbank aus. Die Signalwegdatenbank "Reactome 2016" wird häufig verwendet, um die biologische Bedeutung menschlicher Daten zu ermitteln.
Klicken Sie erneut auf den Namen der Pfaddatenbank. Wählen Sie Balkendiagramm und prüfen Sie, ob es nach p-Wert-Rang sortiert ist. Wenn nicht, klicken Sie auf das Balkendiagramm, bis es nach p-Wert sortiert ist. Dieses Balkendiagramm enthält die Top-10-Pfade nach p-Werten.
Drücken Sie die Konfigurationstaste und wählen Sie die rote Farbe für die hochregulierte Genanalyse oder die blaue Farbe für die herunterregulierte Genanalyse. Speichern Sie das Balkendiagramm in verschiedenen Formaten, indem Sie auf svg, png und jpg klicken.
Wählen Sie Tabelle und klicken Sie auf Einträge in die Tabelle exportieren unten links im Balkendiagramm, um die Ergebnisse der funktionalen Anreicherungsanalyse in einer txt-Datei zu erhalten.
HINWEIS: Diese Ergebnisdatei zur funktionellen Anreicherung umfasst in jeder Zeile den Namen eines Signalwegs, die Anzahl der überlappenden Gene zwischen der eingereichten DEG-Liste und dem Signalweg, den p-Wert, den angepassten p-Wert, das Odds Ratio, den kombinierten Score und das Gensymbol der in der DEG-Liste vorhandenen Gene, die an dem Signalweg teilnehmen.
Wiederholen Sie die gleichen Schritte mit der Liste der anderen DEGs.
HINWEIS: Die Analyse mit herunterregulierten DEGs liefert Signalwege, die für herunterregulierte Gene angereichert sind, und die Analyse mit herunterregulierten Genen liefert Signalwege, die für hochregulierte Gene angereichert sind.

Ergebnisse

Die Rechenumgebung für Transkriptomanalysen wurde auf der Docker-Plattform erstellt und konfiguriert. Dieser Ansatz ermöglicht es Linux-Anfängern, Linux-Terminalsysteme ohne a priori Managementkenntnisse zu verwenden. Die Docker-Plattform verwendet die Ressourcen des Hostbetriebssystems, um einen Dienstcontainer zu erstellen, der die Tools bestimmter Benutzer enthält (Abbildung 1B). Ein Container basierend auf der Linux OS Ubuntu 20.04 Distribution wurde erstellt und vollständig für tr...

Diskussion

Die Aufbereitung der Sequenzierbibliotheken ist ein entscheidender Schritt, um biologische Fragestellungen bestmöglich zu beantworten. Die Art der Transkripte, die für die Studie von Interesse sind, wird bestimmen, welche Art von Sequenzierungsbibliothek ausgewählt wird, und bioinformatische Analysen vorantreiben. Zum Beispiel ist es aus der Sequenzierung einer Pathogen- und Wirtsinteraktion je nach Art der Sequenzierung möglich, Sequenzen aus beiden oder nur aus den Wirtstranskripten zu identifizieren.

Offenlegungen

Die Autoren haben nichts preiszugeben.

Danksagungen

HN wird von FAPESP (Fördernummern: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 und 2013/08216-2) und CNPq (313662/2017-7) finanziert.

Besonders dankbar sind wir für folgende Stipendien für Fellows: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) und RLTO (CNPq Process 134204/2019-0).

Materialien

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

Referenzen

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken