4.0K Views
•
14:58 min
•
March 5th, 2022
DOI :
March 5th, 2022
•Transkript
Willkommen beim Protokoll der Hochdurchsatz-Transkriptomanalyse zur Untersuchung von Wirt-Pathogen-Interaktionen. Dieses Protokoll ist in die folgenden Schritte unterteilt. Qualitätskontrolle, um minderwertige Lesevorgänge zu filtern und auch Um Adaptersequenzen zu entfernen Sequenzierung und Annotationen, wo sie die Lesevorgänge in ein Referenzgenom abbilden und die Lesevorgänge in die Gene annotieren müssen.
Statistische und Co-Expressionsanalyse, die die differentiell exprimierten Gene definiert und auch die Co-Expressionsmodule findet. Molekulare Interferenzgradanalyse, um potenzielle Ausreißerproben zu finden. Und schließlich die Funktionsanalyse zur Bestimmung der biologischen Funktionen differentiell exprimierter Gene.
Alle Tools, die diese Pipelines verwenden, wurden in einem Linux-System vorinstalliert und in einem Docker-Container gekapselt. Die Proben, die diese Protokolle verwenden, stammen aus einem von unserer Gruppe in PLOS Pathogen veröffentlichten Artikel. Die Proben umfassen 20 gesunde Menschen und 39 Patienten, die mit dem Chikungunya-Virus infiziert sind.
Die Blutproben wurden gesammelt und die RNA-Sequenzierung durchgeführt. Um Docker im Windows-System zu installieren, müssen Sie diese Schritte befolgen. Gehen Sie zur offiziellen Webseite von Docker und klicken Sie auf Erste Schritte.
Suchen Sie das Installationsprogramm für Docker Desktop für Windows. Laden Sie die Datei herunter. Installieren Sie lokal auf Ihrem Computer.
Stellen Sie sicher, dass diese beiden Optionen markiert sind. Nach der Installation des Programms lädt das Docker-Image für dieses Protokoll herunter. Gehen Sie zum Windows-Terminal.
Führen Sie die Befehle aus, um das Bild herunterzuladen. Nachdem Sie das Image heruntergeladen haben, können Sie die Datei auf dem Docker-Desktop sehen, und von diesem Image aus können wir den Container initiieren. Nachdem Sie in die runde Schaltfläche geklickt haben, müssen Sie die ursprünglichen Parameter und Optionen erweitern, um den Namen des Containers zu definieren und einen Ordner auf Ihrem lokalen Computer mit dem Ordner in Docker zu verknüpfen.
Danach klicken Sie auf Ausführen, um den Container zu initiieren. Sie können dann auf das Terminal zugreifen, das sich im Linux-System im Docker befindet. Geben Sie die bash-Befehle ein, und sie können dann alle Befehle dieses Protokolls ausführen.
Zuerst müssen wir die Quelle ausführen, um alle Werkzeuge dieses Protokolls zur Verfügung zu stellen. Sie sollten auf die Verzeichnisskripts zugreifen. Um eine transkriptomische Analyse durchzuführen, müssen Sie zuerst das Referenzgenom herunterladen.
Dazu müssen Sie die folgenden Befehle ausführen. Nachdem das Genom heruntergeladen wurde, müssen Sie die Annotation der Gene herunterladen. Dazu müssen Sie die folgenden Befehle eingeben.
Als nächstes müssen Sie den fastq-dump konfigurieren. Auf diese Weise können Sie die Sequenzierungsdateien der Beispiele herunterladen. Nachdem Sie die folgenden Befehle eingegeben haben, müssen Sie die Tabulatorschaltfläche verwenden, um zur Option Extras zu wechseln und das Verzeichnis options currents zu markieren.
Verwenden Sie die Tabulatorschaltflächen zum Speichern, und dann OK. Beenden Sie dann das Tool fastq-dump. Jetzt können wir die Downloads der Lesevorgänge initiieren, indem wir die folgenden Befehle eingeben.
Die Qualitätskontrolle besteht und bewertet grafisch die Fehlerwahrscheinlichkeit in den Sequenzierungslesevorgängen. In diesem Schritt müssen Sie auch die technischen Sequenzen wie Adapter entfernen. Um die Qualitätskontrollgraphen zu generieren, müssen Sie das FastQC-Programm ausführen.
Um die Adaptersequenzen und die Sequenzen von geringer Qualität zu entfernen, müssen Sie die folgenden Befehle eingeben. Mit den guten Lesevorgängen müssen wir nun die Lesevorgänge in das Referenzgenom abbilden. Nach der Kartierung müssen wir die Gene entsprechend den menschlichen Genen kommentieren und dann die Anzahl der Lesevorgänge zählen, die mit jedem menschlichen Gen übereinstimmen.
Der erste Schritt besteht darin, das Referenzgenom zu indizieren, indem Sie den folgenden Befehl eingeben. Und dann geben wir diese Befehle ein, um die Lesevorgänge in das menschliche Genom abzubilden. Als Nächstes sollten Sie die Skripts ausführen, die die Lesevorgänge mit Anmerkungen versehen.
Nach der Kartierung und Annotation können Sie die Differentialexpressionsanalyse durchführen, die darin besteht, die Gene zu finden, deren Expression in einer Gruppe höher oder niedriger ist als in einer anderen. Um die differentiell exprimierten Gene oder DEGs zu identifizieren, müssen Sie die folgenden Befehle ausführen. Danach können Sie die Datenergebnisse aus dem Docker auf Ihren lokalen Computer übertragen.
Gehen Sie dazu zum Terminal und geben Sie die folgenden Befehle ein, um alle Ergebnisse in einem lokalen Ordner zu speichern. Um die verbleibende Analyse durchzuführen, müssen Sie auch alle Dateien der Verzeichnisdaten in ein Verzeichnis auf Ihrem lokalen Computer kopieren. Auf Ihrem lokalen Computer können Sie die Verzeichnisse sehen, in denen Sie die Daten aus Docker gespeichert haben.
Wie Sie sehen können, können Sie auf alle Bibliotheken zugreifen. Sie können auch die HTML-Datei öffnen, die die Qualitätskontrollberichte enthält. Sie können auch auf ein Verzeichnis zugreifen, das die differentiell exprimierten Gene enthält.
Und in diesem Verzeichnis finden Sie die Vulkandiagramme, in denen Sie die Gene sehen können, die in der einen Gruppe gegenüber einer anderen hoch- oder herunterreguliert sind, in diesem Fall Patienten, die mit dem Chikungunya-Virus infiziert sind, im Vergleich zu gesunden Kontrollen. Alle verbleibenden Schritte dieses Protokolls werden in Web-Tools mit Ihrem Browser ausgeführt. Beginnen wir zunächst mit CEMiTool.
Gehen Sie zum Browser und geben Sie die folgende Adresse ein. CEMiTool identifiziert Co-Expression-Module aus Expression-Datensätzen, die von den Benutzern bereitgestellt werden. Auf der Hauptseite können Sie in das Menü gehen und in den Button Ausführen klicken.
Dadurch wird eine neue Seite geöffnet, auf der Sie die Ausdrucksdatei hochladen können. Diese Datei befindet sich in den Verzeichnisdaten Ihres lokalen Computers. Sie werden sehen, dass es drei Ausdrucksdateien gibt, und diejenige, die wir für das CEMiTool verwenden werden, ist ein Normalisierungsaufruf tmm.
Dann müssen Sie die Phänodatendatei auswählen, dasselbe gilt für die Datei, die die Protein-Protein-Interaktionen enthält, und schließlich die Datei hochladen, die die Gensätze oder Signalwege enthält. Die Gensatzdatei ermöglicht es CEMiTool, eine Anreicherungsanalyse für jedes einzelne des Co-Expressionsmoduls durchzuführen. Als Nächstes sollten Sie den Parameterabschnitt erweitern und auf VST anwenden klicken.
Danach können Sie einfach auf CEMiTool ausführen klicken. Nachdem Sie CEMiTool ausgeführt haben, werden Sie sehen, dass 12 Co-Expression-Module identifiziert wurden. Wenn Sie hier klicken, können Sie alle Ergebnisse dieser Analyse herunterladen.
Ein weiteres Werkzeug, das wir in diesem Protokoll verwenden werden, ist MDP oder Molecular Degree of Perturbation. Geben Sie einfach Ihren Browser mdp.sysbio.tools ein. MDP berechnet den molekularen Abstand jeder Probe im Vergleich zu einer Referenzgruppe von Proben, in diesem Fall den gesunden Kontrollen, um nicht nur potenzielle Ausreißer zu finden, sondern auch, wie gestört jede Probe im Vergleich zu dieser Gruppe ist.
Auf der Seite Ausführen können Sie die Ausdrucksdatei einfach hochladen, indem Sie auf die Schaltfläche klicken und die Datei auswählen. Dann müssen Sie die phenodata-Datei hochladen. Dann müssen Sie definieren, welche Spalte die Informationen über die Gruppe oder die Klasse enthält und dann welche Klasse oder Gruppe der Kontrollgruppe entspricht.
Danach können Sie einfach MDP ausführen. Das Balkendiagramm zeigt für jede der Proben als Balken die Punktzahl des molekularen Störungsgrades an, und die Farben stellen die verschiedenen Gruppen dar. Und das Box-Plot ist eine weitere Möglichkeit, die gleichen Ergebnisse zu visualisieren, bei denen Sie auf jedem Punkt sehen, dass es sich um verschiedene Stichproben handelt, die durch zwei Gruppen getrennt sind.
Um die Funktionalanalyse durchzuführen, verwenden wir das Enrichr-Tool. Dazu müssen Sie die Liste der Gene auswählen, die differentiell exprimiert wurden, entweder hoch- oder herunterreguliert, und sie als Input-Genliste im Enrichr-Tool verwenden. Sie werden sehen, dass es verschiedene Registerkarten gibt.
Alle Ergebnisse können auch auf Ihren lokalen Computer heruntergeladen werden. Die Computerumgebung für die Transkriptomanalyse wurde auf der Docker-Plattform platziert. Dieser Ansatz ermöglicht es Benutzern ohne vorherige Erfahrung mit dem Linux-System, ein Terminal zu verwenden.
In diesem Container gibt es eine vordefinierte Ordnerstruktur für Datensätze und Skripte, die für die gesamte Analyse notwendig sind. In der Pipeline werden die Nutzer Bluttranskriptomdaten von 20 gesunden Personen und 39 Patienten verwenden, die akut mit dem Chikungunya-Virus infiziert sind. Die Sequenzierungsplattform liefert einen Satz von FASTQ-Dateien, die die DNA-Sequenz enthalten, d.h.
die Lesevorgänge und die zugehörige Qualität für jede Nukleotidbase. Die Phred-Qualitätsskala gibt die Wahrscheinlichkeit eines falschen Messwerts für jede Basis an. Tools identifizieren und entfernen Lesevorgänge von geringer Qualität aus Stichproben und erhöhen die Wahrscheinlichkeit der Zuordnung von Lesevorgängen.
In diesem Schritt wird das Mapping-Modul, die wiederhergestellten hochwertigen Lesevorgänge, als Eingaben verwendet, um sie mit dem menschlichen Referenzgenom abzugleichen. CEMiTool identifiziert und analysiert Co-Expression-Module. Gene innerhalb desselben Moduls werden koexprimiert, was bedeutet, dass sie ähnliche Expressionsmuster in den Proben der Datensätze aufweisen.
Die Netzwerkanalyse liefert Informationen über die am stärksten vernetzten Gene, also die Hubs. Die Namen dieser Gene werden im Netzwerk angezeigt.
Die Größe der Knoten ist proportional zu ihrem Konnektivitätsgrad. Die Ergebnisse der DEG-Analyse wurden in den Vulkanparzellen zusammengefasst. Die Analyse des molekularen Störungsgrades ermöglicht die Identifizierung gestörter Proben von gesunden und infizierten Personen.
MDP schlägt vor, welche Proben potenzielle biologische Ausreißer sind. Das Entfernen dieser Proben wirkt sich auf die nachgelagerten Ergebnisse aus. Eine funktionelle Anreicherungsanalyse mit AURA kann mit dem Enrichr-Tool durchgeführt werden.
Diese Schritte helfen, die Ergebnisse zu interpretieren, indem sie gemeinsame funktionelle Rollen mehrerer Gene aufdecken, die unterschiedlich exprimiert wurden. Der biologische Prozess, der in den Balkendiagrammen dargestellt ist, sind die Top 10 angereicherten Gensätze basierend auf ihrem p-Wert-Ranking. Zusammenfassend lässt sich sagen, dass diese Protokolle alle Schritte der RNA-Seq-Analyse abdecken.
Die Pipeline wurde entwickelt und in das nicht-kommerzielle System Namens Docker gekapselt. Auf einem Bild und für die wissenschaftliche Gemeinschaft zur Verfügung gestellt. Aufgrund des Containersystems befinden sich alle Skripte und Tools in der gleichen spezifischen Version, um die Reproduzierbarkeit zu gewährleisten.
Darüber hinaus wurden Teile der bioinformatischen Analyse über kostenlose benutzerfreundliche Web-Tools durchgeführt.
Das hier vorgestellte Protokoll beschreibt eine komplette Pipeline zur Analyse von RNA-Sequenzierungs-Transkriptomdaten von Rohlesungen bis hin zur Funktionsanalyse, einschließlich Qualitätskontroll- und Vorverarbeitungsschritten bis hin zu fortschrittlichen statistischen Analyseansätzen.
Kapitel in diesem Video
0:07
Introduction
1:15
Docker Desktop Installation
4:25
Quality Control
5:10
Mapping and Annotation Steps
5:51
Differentially Expressed Genes Process
6:10
Transfer Data to the Personal Computer
12:02
Representative Results
14:22
Conclusions
Ähnliche Videos
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten