Eine Bioinformatik-Pipeline zur Untersuchung der molekularen Evolution und Genexpression mit RNA-seq

Aide Macias-Muñoz; Ali Mortazavi

doi:10.3791/61633

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Der Zweck dieses Protokolls ist es, die Evolution und Expression von Kandidatengenen anhand von RNA-Sequenzierungsdaten zu untersuchen.

Zusammenfassung

Das Destillieren und Melden großer Datensätze, wie z. B. das gesamte Genom oder Transkriptomdaten, ist oft eine entmutigende Aufgabe. Eine Möglichkeit, die Ergebnisse aufzuschlüsseln, besteht darin, sich auf eine oder mehrere Genfamilien zu konzentrieren, die für den Organismus und die Studie von Bedeutung sind. In diesem Protokoll skizzieren wir bioinformatische Schritte, um eine Phylogenie zu erzeugen und die Expression von Genen von Interesse zu quantifizieren. Phylogenetische Bäume können Aufschluss darüber geben, wie sich Gene innerhalb und zwischen Arten entwickeln, und die Orthologie offenbaren. Diese Ergebnisse können mit RNA-seq-Daten verbessert werden, um die Expression dieser Gene in verschiedenen Individuen oder Geweben zu vergleichen. Studien der molekularen Evolution und Expression können Modi der Evolution und Erhaltung der Genfunktion zwischen Arten aufdecken. Die Charakterisierung einer Genfamilie kann als Sprungbrett für zukünftige Studien dienen und eine wichtige Genfamilie in einem neuen Genom oder Transkriptom hervorheben.

Einleitung

Fortschritte in sequenzierenden Technologien haben die Sequenzierung von Genomen und Transkriptomen von Nicht-Modellorganismen erleichtert. Neben der erhöhten Machbarkeit der Sequenzierung von DNA und RNA aus vielen Organismen ist eine Fülle von Daten öffentlich verfügbar, um Gene von Interesse zu untersuchen. Der Zweck dieses Protokolls ist es, bioinformatische Schritte zur Untersuchung der molekularen Evolution und Expression von Genen bereitzustellen, die eine wichtige Rolle im interessierender Organismus spielen können.

Die Untersuchung der Evolution eines Gens oder einer Genfamilie kann Einblicke in die Evolution biologischer Systeme geben. Mitglieder einer Genfamilie werden typischerweise durch die Identifizierung konservatorischer Motive oder homologe Gensequenzen bestimmt. Die Evolution der Genfamilie wurde bisher mit Genomen von entfernt verwandten Modellorganismen untersucht¹. Eine Einschränkung dieses Ansatzes besteht darin, dass nicht klar ist, wie sich diese Genfamilien in eng verwandten Arten entwickeln und welche Rolle unterschiedliche Umweltselektive Belastungen spielen. In dieses Protokoll schließen wir eine Suche nach Homologen in eng verwandten Arten ein. Durch die Erzeugung einer Phylogenie auf Stammebene können wir Trends in der Evolution der Genfamilie wie konservierte Gene oder linienspezifische Duplikationen feststellen. Auf dieser Ebene können wir auch untersuchen, ob Gene Orthologe oder Paraloge sind. Während viele Homologe wahrscheinlich ähnlich zueinander funktionieren, ist dies nicht unbedingt der Fall². Die Einbeziehung phylogenetischer Bäume in diese Studien ist wichtig, um festzustellen, ob diese homologen Gene Orthologe sind oder nicht. In Eukaryoten behalten viele Orthologe ähnliche Funktionen innerhalb der Zelle, wie die Fähigkeit von Säugetierproteinen zeigt, die Funktion von Hefeorthologen^{wiederherzustellen 3}. Es gibt jedoch Fälle, in denen ein nicht-orthologes Gen eine charakterisierte Funktion⁴ausführt.

Phylogenetische Bäume beginnen, Beziehungen zwischen Genen und Arten abzugrenzen, aber die Funktion kann nicht allein auf der Grundlage genetischer Beziehungen zugeordnet werden. Genexpressionsstudien in Kombination mit funktionellen Annotationen und Anreicherungsanalysen bieten eine starke Unterstützung für die Genfunktion. Fälle, in denen die Genexpression quantifiziert und über Individuen oder Gewebetypen hinweg verglichen werden kann, können mehr über die potenzielle Funktion aussagekräftig sein. Das folgende Protokoll folgt Methoden, die bei der Untersuchung von Opsin-Genen in Hydra vulgaris⁷verwendet werden, aber sie können auf jede Spezies und jede Genfamilie angewendet werden. Die Ergebnisse solcher Studien bilden die Grundlage für die weitere Untersuchung der Genfunktion und Gennetzwerke in Nicht-Modellorganismen. Als Beispiel gibt die Untersuchung der Phylogenie von Opsinen, die Proteine sind, die die Phototransduktionskaskade initiieren, Kontext zur Evolution der Augen und der Lichtdetektion⁸^,⁹^,¹⁰^,¹¹. In diesem Fall können Nicht-Modellorganismen, insbesondere basale Tierarten wie Nesseltiere oder Ctenophore, die Erhaltung oder Veränderungen der Phototransduktionskaskade und des Sehvermögens über die Kladen¹²^,¹³^,¹⁴aufklären. In ähnlicher Weise wird uns die Bestimmung der Phylogenie, Expression und Netzwerke anderer Genfamilien über die molekularen Mechanismen informieren, die Anpassungen zugrunde liegen.

Protokoll

Dieses Protokoll folgt den Tierpflegerichtlinien von UC Irvine.

1. RNA-seq-Bibliotheksvorbereitung

Isolieren Sie RNA mit den folgenden Methoden.
1. Sammeln Sie Proben. Soll RNA zu einem späteren Zeitpunkt extrahiert werden, die Probe flash einfrieren oder in RNA-Speicherlösung¹⁵ ( Materialtabelle )legen.
2. Euthanisieren und sezieren Sie den Organismus, um Gewebe von Interesse zu trennen.
3. Extrahieren Sie die Gesamt-RNA mit einem Extraktionskit und reinigen Sie die RNA mit einem RNA-Reinigungskit (Materialtabelle)
  HINWEIS: Es gibt Protokolle und Kits, die für verschiedene Arten und Gewebetypen besser funktionieren können¹⁶^,¹⁷. Wir haben RNA aus verschiedenen Körpergeweben eines Schmetterlings¹⁸ und einer gallertartigen Hydra¹⁹ extrahiert (siehe Diskussion).
4. Messen Sie die Konzentration und Qualität der RNA jeder Probe (Materialtabelle). Verwenden Sie Proben mit RNA-Integritätszahlen (RIN) von mehr als 8, idealerweise näher an 9^20, um cDNA-Bibliotheken zu erstellen.
Erstellen Sie die cDNA-Bibliothek und -Sequenz wie folgt.
1. Erstellen Sie cDNA-Bibliotheken gemäß der Bedienungsanleitung für die Bibliotheksvorbereitung (siehe Diskussion).
2. Bestimmen Sie die cDNA-Konzentration und -Qualität (Materialtabelle).
3. Multiplexen Sie die Bibliotheken und sequenzieren Sie sie.

2. Zugreifen auf einen Computercluster

HINWEIS: Die RNA-seq-Analyse erfordert die Manipulation großer Dateien und wird am besten auf einem Computercluster durchgeführt (Materialtabelle).

Melden Sie sich beim Computerclusterkonto mit dem Befehl ssh username@clusterlocation in einem Terminal- (Mac) oder PuTTY-Anwendungsfenster (Windows) an.

3. Erhalten Sie RNA-seq-Lesevorgänge

Erhalten Sie RNA-seq-Lesevorgänge von der Sequenzierungseinrichtung oder, bei Daten, die in einer Publikation generiert werden, von dem Datenrepositorium, in dem sie abgelegt wurden (3.2 oder 3.3).
Gehen Sie wie folgt vor, um Daten aus Repositories wie ArrayExpress herunterzuladen:
1. Durchsuchen Sie die Website mit der Zugangsnummer.
2. Suchen Sie den Link zum Herunterladen der Daten, klicken Sie mit der linken Maustaste, und wählen Sie Link kopierenaus.
3. Geben Sie im Terminalfenster wget ein, und wählen Sie Link einfügen aus, um die Daten zur Analyse in das Verzeichnis zu kopieren.
Gehen Sie folgendermaßen vor, um NCBI Short Read Archive (SRA)-Daten herunterzuladen:
1. Laden Sie auf dem Terminal SRA Toolkit v. 2.8.1 mit wget herunter.
  HINWEIS: Das Herunterladen und Installieren von Programmen auf dem Computercluster erfordert möglicherweise Root-Zugriff, wenden Sie sich an Ihren Computerclusteradministrator, wenn die Installation fehlschlägt.
2. Beenden Sie die Installation des Programms, indem Sie tar -xvf $TARGZFILEeingeben.
3. Suchen Sie NCBI nach der SRA-Beitrittsnummer für die Proben, die Sie herunterladen möchten, es sollte das Format SRRXXXXXX haben.
4. Rufen Sie die RNA-seq-Daten ab, indem Sie [sratoolkit location]/bin/prefetch SRRXXXXXX im Terminalfenster eingeben.
5. Für Paired-End-Dateien geben Sie [sratoolkit location]/bin/fastq-dump --split-files SRRXXXXXX ein, um zwei fastq-Dateien (SRRXXXXXX_1.FASTQ und SRRXXXXXX_2.FASTQ) zu erhalten.
  HINWEIS: Um eine Trinity de novo-Assembly zu erstellen, verwenden Sie den Befehl [sratoolkit location]/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-files SRRXXXXXX

4. Trimmadapter und Lesevorgänge von geringer Qualität (optional)

Installieren oder laden Sie Trimmomatic²¹ v. 0.35 auf dem Rechencluster.
Geben Sie in dem Verzeichnis, in dem sich die RNA-seq-Datendateien befinden, einen Befehl ein, der den Speicherort der trimmomatischen JAR-Datei, die FASTQ-Eingabedateien, die FASTQ-Ausgabedateien und optionale Parameter wie Leselänge und -qualität enthält.
HINWEIS: Der Befehl variiert je nach roher und gewünschter Qualität und Länge der Lesevorgänge. Für Illumina 43 bp Lesevorgänge mit Nextera-Primern haben wir verwendet: java -jar /data/apps/trimmomatic/0.35/trimmomatic-0.35.jar PE $READ 1. FASTQ $READ 2. FASTQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ ILLUMINACLIP:adapters.fa:2:30:10 LEADING:20 TRAILING:20 SLIDINGWINDOW:4:17 MINLEN:30.

5. Referenzbaugruppe beziehen

Durchsuchen Sie google, EnsemblGenome und NCBI Genomes and Nucleotide TSA (Transcriptome Shotgun Assembly) nach einem Referenzgenom oder einem zusammengesetzten Transkriptom für die interessierenden Arten (Abbildung 1).
HINWEIS: Wenn ein Referenzgenom oder Transkriptom nicht verfügbar oder von geringer Qualität ist, fahren Sie mit SCHRITT 6 fort, um eine De-novo-Assemblierung zu erstellen.
Wenn ein Referenzgenom oder ein zusammengesetztes Transkriptom vorhanden ist, laden Sie es als Fasta-Datei herunter, in die die Analyse gemäß den folgenden Schritten durchgeführt wird.
1. Suchen Sie den Link, um das Genom herunterzuladen, klicken Sie mit der linken Maustaste und kopieren Sie den Link.
2. Geben Sie im Terminalfenster wget ein und fügen Sie die Linkadresse ein. Falls verfügbar, kopieren Sie auch die GTF-Datei und die Protein-FASTA-Datei für das Referenzgenom.

6. Generieren Sie eine De-novo-Baugruppe (Alternative zu Schritt 5)

Kombinieren Sie die RNA-seq READ1- und READ2 fastq-Dateien für alle Proben, indem Sie cat *READ1 eingeben. FASTQ > $all_READ1. FASTQ und Katze *READ2. FASTQ > all_READ2. FASTQ im Terminalfenster.
Installieren oder laden Sie Trinity²² v.2.8.5 auf dem Computercluster.
Generieren und assemblieren Sie durch Eingabe auf dem Terminal: Trinity --seqType fq --max_memory 20G --left $all_READ1. FASTQ --right $all_READ2. FASTQ.

7. Karte liest sich zum Genom (7.1) oder de novo Transkriptom (7.2)

Die Karte liest das Referenzgenom mit STAR²³ v. 2.6.0c und RSEM²⁴ v. 1.3.0.
1. Installieren oder laden Sie STAR v. 2.6.0c. und RSEM v. 1.3.0 an den Rechencluster.
2. Indizieren Sie das Genom, indem Sie rsem-prepare-reference --gtf $GENOME eingeben. GTF --star -p 16 $GENOME. FASTA $OUTPUT.
3. Map liest und berechnet den Ausdruck für jede Stichprobe, indem rsem-calculate-expression -p 16 --star --paired-end $READ 1 eingegeben wird. FASTQ $READ 2. FASTQ $INDEX $OUTPUT.
4. Benennen Sie die Ergebnisdatei mit mv RSEM.genes.results $sample.genes.results in etwas Beschreibendes um.
5. Generieren Sie eine Matrix aller Zählungen, indem Sie rsem-generate-data-matrix *[genes/isoforms.results] > $OUTPUTeingeben.
Ordnen Sie RNA-seq mit RSEM und Bowtie der Trinity de novo-Assemblierung zu.
1. Installieren oder laden Sie Trinity²² v.2.8.5, Bowtie²⁵ v. 1.0.0 und RSEM v. 1.3.0.
2. Map liest und berechnet ausdrucksbereit für jedes Beispiel, indem [trinity_location]/align_and_estimate_abundance.pl --prep-reference --transcripts $TRINITY. FASTA --seqType fq --left $READ 1. FASTQ --rechts $READ 2. FASTQ --est_method RSEM --aln_method Fliege --trinity_mode --output_dir $OUTPUT.
3. Benennen Sie die Ergebnisdatei mit mv RSEM.genes.results $sample.genes.results in etwas Beschreibendes um.
4. Generieren Sie eine Matrix aller Zählungen, indem Sie [trinity_location]/abundance_estimates_to_matrix.pl --est_method RSEM *[genes/isoforms].results eingeben

8. Gene von Interesse identifizieren

HINWEIS: Die folgenden Schritte können mit Nukleotid- oder Protein-FASTA-Dateien durchgeführt werden, funktionieren jedoch am besten und sind mit Proteinsequenzen einfacher. BLAST-Suchen mit Protein zu Protein liefern eher Ergebnisse, wenn zwischen verschiedenen Arten gesucht wird.

Für ein Referenzgenom verwenden Sie die Protein-FASTA-Datei aus STEP 5.2.2 oder siehe Ergänzende Materialien, um ein benutzerdefiniertes Genmerkmal GTF zu generieren.
Für ein De-novo-Transkriptom erzeugen Sie ein Protein FASTA mit TransDecoder.
1. Installieren oder laden Sie TransDecoder v. 5.5.0 auf dem Computer cluser.
2. Suchen Sie den längsten offenen Leserahmen und die vorhergesagte Peptidsequenz, indem Sie [Transdecoder-Position]/TransDecoder.LongOrfs -t $TRINITY eingeben. FASTA.
Suche NCBI Genbank nach Homologen in eng verwandten Arten.
1. Öffnen Sie ein Internetbrowserfenster und gehen Sie zu https://www.ncbi.nlm.nih.gov/genbank/.
2. Geben Sie in der Suchleiste den Namen des interessierenden Gens und den Namen eng verwandter Arten ein, die sequenziert wurden, oder Gattung oder Stamm. Wählen Sie links in der Suchleiste Protein aus und klicken Sie auf Suchen.
3. Extrahieren Sie Sequenzen, indem Sie auf Senden an klicken und dann Datei auswählen. Wählen Sie unter Format die Option FASTA aus, und klicken Sie dann auf Datei erstellen.
4. Verschieben Sie die FASTA-Datei der Homologe auf den Computercluster, indem Sie scp $FASTA username@clusterlocation:/$DIR in einem lokalen Terminalfenster eingeben oder FileZilla verwenden, um Dateien von und zu Computer und Cluster zu übertragen.
Suche nach Kandidatengenen mit BLAST+²⁶.
1. Installieren oder laden Sie BLAST+ v. 2.8.1 auf dem Computercluster.
2. Erstellen Sie auf dem Computercluster eine BLAST-Datenbank aus dem genom- oder transkriptomüberseten Protein FASTA, indem Sie [BLAST+ location]/makeblastdb -in $PEP eingeben. FASTA -dbtype prot -out $OUTPUT
3. BLAST die homologen Gensequenzen von NCBI in die Datenbank der interessierenden Spezies, indem Sie [BLAST+ location]/blastp -db $DATABASE -query $FASTA -evalue 1e-10 -outfmt 6 -max_target_seqs 1 -out $OUTPUTeingeben.
4. Zeigen Sie die Ausgabedatei mit dem Befehl morean. Kopieren Sie eindeutige Gen-IDs von der interessierenden Spezies in eine neue Textdatei.
5. Extrahieren Sie die Sequenzen der Kandidatengene, indem Sie perl -ne 'if(/^>(\S+)/){$c=$i{$1}}$c?print:chomp;$i{$_}=1 if @ARGV' $gene_id.txt $PEP eingeben. FASTA > $OUTPUT.
Bestätigen Sie die Genannotation mit reziprokem BLAST.
1. Gehen Sie im Internetbrowser zu https://blast.ncbi.nlm.nih.gov/Blast.cgi.
2. Wählen Sie tblastn, fügen Sie dann die Kandidatensequenzen ein, wählen Sie die Datenbank für nicht redundante Proteinsequenzen aus und klicken Sie auf BLAST.
Identifizieren Sie zusätzliche Gene, indem Sie alle Gene im Genom oder Transkriptom mit Gen-Ontologie-Begriffen (GO) kommentieren (siehe Diskussion).
1. Übertragen Sie das Protein FASTA auf den lokalen Computer.
2. Laden Sie Blast2GO²⁷,²⁸^,²⁹ v. 5.2 herunter und installieren Sie es auf dem lokalen Computer.
3. Öffnen Sie Blast2GO, klicken Sie auf Datei, gehen Siezu Laden , gehen Sie zu Sequenzen laden, klicken Sie auf Fasta-Datei laden (fasta). Wählen Sie die FASTA-Datei aus und klicken Sie auf Laden.
4. Klicken Sie auf Blast, wählen Sie NCBI Blastund klicken Sie auf Weiter. Parameter bearbeiten oder auf Weiterklicken, Parameter bearbeiten und auf Ausführen klicken, um die ähnlichste Genbeschreibung zu finden.
5. Klicken Sie auf Mapping und dann auf Ausführen, um Gene Ontology-Anmerkungen nach ähnlichen Proteinen zu durchsuchen.
6. Klicken Sie anschließend auf interpro, wählen Sie EMBL-EBI InterPround klicken Sie auf Weiter. Bearbeiten Sie Parameter, oder klicken Sie auf Weiterund dann auf Ausführen, um nach Signaturen bekannter Genfamilien und Domänen zu suchen.
7. Exportieren Sie die Anmerkungen, indem Sie auf Dateiklicken , Exportierenauswählen , auf Tabelle exportierenklicken . Klicken Sie auf Durchsuchen, benennen Sie die Datei, klicken Sie auf Speichern, klicken Sie auf Exportieren.
8. Durchsuchen Sie die Anmerkungstabelle nach INTERESSANTEN GO-Begriffen, um zusätzliche Kandidatengene zu identifizieren. Extrahieren Sie die Sequenzen aus der FASTA-Datei (STEP 8.4.5)

9. Phylogenetische Bäume

Laden Sie MEGA³⁰ v. 7.0.26 herunter und installieren Sie es auf Ihrem lokalen Computer.
Öffnen Sie MEGA, klicken Sie auf Ausrichten, klicken Sie auf Ausrichtung bearbeiten/erstellen, wählen Sie Neue Ausrichtung erstellen, klicken Sie AUF OK, wählen Sie Protein.
Wenn sich das Ausrichtungsfenster öffnet, klicken Sie auf Bearbeiten,klicken Sie auf Sequenzen aus Datei einfügen und wählen Sie die FASTA mit Proteinsequenzen von Kandidatengenen und wahrscheinlichen Homologen aus.
Wählen Sie alle Sequenzen aus. Suchen Sie das Armsymbol und bewegen Sie den Mauszeiger darüber. Es sollte sagen, Align-Sequenzen mit dem MUSCLE^{31-Algorithmus.} Klicken Sie auf das Armsymbol und dann auf Protein ausrichten, um die Sequenzen auszurichten. Bearbeiten Sie Parameter, oder klicken Sie auf OK, um sie mit standarden Parametern auszurichten.
Überprüfen Sie visuell und nehmen Sie alle manuellen Änderungen vor, speichern Und schließen Sie das Ausrichtungsfenster.
Klicken Sie im MEGA-Hauptfenster auf Modelle, klicken Sie auf Beste DNA/Protein-Modelle (ML) suchen, wählen Sie die Ausrichtungsdatei aus und wählen Sie entsprechende Parameter aus, wie zum Beispiel: Analyse: Modellauswahl (ML), zu verwendender Baum: Automatisch (Nachbar-Verbindender Baum), Statistische Methode: Maximale Wahrscheinlichkeit, Substitutionstyp: Aminosäure, Lücke / fehlende Datenbehandlung: Alle Standorte verwenden, Zweigstellenfilter: Keine.
Sobald das beste Modell für die Daten bestimmt ist, gehen Sie zum MEGA-Hauptfenster. Klicken Sie auf Phylogenie, klicken Sie auf Struktur mit maximaler Wahrscheinlichkeit erstellen/testen, und wählen Sie dann ggf. die Ausrichtung aus. Wählen Sie die entsprechenden Parameter für den Baum: Statistische Methode: Maximale Wahrscheinlichkeit, Test der Phylogenie: Bootstrap-Methode mit 100 Replikaten, Substitutionstyp: Aminosäure, Modell: LG mit Freqs. (+F), Raten zwischen Standorten: Gamma verteilt (G) mit 5 diskreten Gammakategorien, Gap/Missing Data Treatment: use all sites, ML heuristische Methode: Nearest-Neighbor-Interchange (NNI).

10. Visualisieren Sie die Genexpression mit TPM

Für Trinity gehen Sie auf dem Computercluster in das Verzeichnis, in dem abundance_estimates_to_matrix.pl ausgeführt wurde, und eine der Ausgaben sollte Matrix sein. TPM.not_cross_norm. Übertragen Sie diese Datei auf Ihren lokalen Computer.
HINWEIS: Siehe Ergänzende Materialien für die Normalisierung von Kreuzproben.
Für TPMs aus einer Genomanalyse führen Sie die folgenden Schritte aus.
1. Wechseln Sie auf dem Computercluster zum RSEM-Installationsspeicherort. Kopieren Sie rsem-generate-data-matrix, indem Sie scp rsem-generate-data-matrix rsem-generate-TPM-matrix eingeben. Verwenden Sie nano, um die neue Datei zu bearbeiten und ändern Sie "my $offsite = 4" von 4 auf 5 für TPM, es sollte jetzt "my $offsite = 5" heißen.
Gehen Sie zu dem Verzeichnis, in dem sich die RSEM-Ausgabedateien .genes.results befinden, und verwenden Sie nun rsem-generate-TPM-matrix *[genes/isoforms.results] > $OUTPUT, um eine TPM-Matrix zu generieren. Übertragen Sie die Ergebnisse auf einen lokalen Computer.
Visualisieren Sie die Ergebnisse in ggplot2.
1. Laden Sie R v. 4.0.0 und RStudio v. 1.2.1335 auf einen lokalen Computer herunter.
2. Öffnen Sie RStudio auf der rechten Seite des Bildschirms, gehen Sie zur Registerkarte Pakete und klicken Sie auf Installieren. Geben Sie ggplot2 ein und klicken Sie auf Installieren.
3. Lesen Sie im R-Skriptfenster die TPM-Tabelle durch Eingabe von data<-read.table("$tpm.txt",header = T)
4. Geben Sie für Balkendiagramme ähnlich Abbildung 4 etwas Ähnliches ein: p<- ggplot() + geom_bar(aes(y=TPM, x=Symbol, fill=Tissue), data=data, stat="identity")
  fill<-c("#d7191c","#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
  p<-p+scale_fill_manual(werte=füllung)
  p + theme(axis.text.x = element_text(angle = 90))

Ergebnisse

Die oben genannten Methoden sind in Abbildung 1 zusammengefasst und wurden auf einen Datensatz von Hydra vulgaris Geweben angewendet. H. vulgaris ist ein wirbelloses Süßwasser, das zum Stamm Cnidaria gehört, zu dem auch Korallen, Quallen und Seeanämonen gehören. H. vulgaris kann sich asexuell vermehren, indem sie knospen und sie können ihren Kopf und Fuß regenerieren, wenn sie halbiert werden. In dieser Studie wollten wir die Evolution und Expressio...

Diskussion

Der Zweck dieses Protokolls besteht darin, einen Überblick über die Schritte zur Charakterisierung einer Genfamilie unter Verwendung von RNA-seq-Daten zu geben. Diese Methoden haben sich für eine Vielzahl von Arten und Datensätzen⁴^,³⁴^,³⁵bewährt. Die hier etablierte Pipeline wurde vereinfacht und sollte einfach genug sein, um von einem Anfänger in der Bioinformatik verfolgt zu werden. Die Bedeutung des Protokolls besteht da...

Offenlegungen

Die Autoren haben nichts preiszugeben.

Danksagungen

Wir danken Adriana Briscoe, Gil Smith, Rabi Murad und Aline G. Rangel für Rat und Anleitung bei der Integration einiger dieser Schritte in unseren Workflow. Wir danken auch Katherine Williams, Elisabeth Rebboah und Natasha Picciani für Kommentare zum Manuskript. Diese Arbeit wurde teilweise durch ein Forschungsstipendium der George E. Hewitt Foundation for Medical an A.M.M unterstützt.

Materialien

Name	Company	Catalog Number	Comments
Bioanalyzer-DNA kit	Agilent	5067-4626	wet lab materials
Bioanalyzer-RNA kit	Agilent	5067-1513	wet lab materials
BLAST+ v. 2.8.1			On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC)			On local computer https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0			On computer cluster
Bowtie v. 1.0.0			On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended)			NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1			On computer cluster
edgeR v. 3.26.8 (in R)			In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0			On computer cluster
Java v. 11.0.2			On computer cluster
MEGA7 (on your PC)			On local computer https://www.megasoftware.net
MEGAX v. 0.1			On local computer https://www.megasoftware.net
NucleoSpin RNA II kit	Macherey-Nagel	740955.5	wet lab materials
perl 5.30.3			On computer cluster
python			On computer cluster
Qubit 2.0 Fluorometer	ThermoFisher	Q32866	wet lab materials
R v.4.0.0			On computer cluster https://cran.r-project.org/src/base/R-4/
RNAlater	ThermoFisher	AM7021	wet lab materials
RNeasy kit	Qiagen	74104	wet lab materials
RSEM v. 1.3.0			Computer software https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335			On local computer https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3			Computer software
SRA Toolkit v. 2.8.1			On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c			On computer cluster https://github.com/alexdobin/STAR
StringTie v. 1.3.4d			On computer cluster https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0			On computer cluster https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35			On computer cluster http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5			On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol	ThermoFisher	15596018	wet lab materials
TruSeq RNA Library Prep Kit v2	Illumina	RS-122-2001	wet lab materials
TURBO DNA-free Kit	ThermoFisher	AM1907	wet lab materials

*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

Referenzen

Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Trinity. . RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. . OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. . edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Eine Bioinformatik-Pipeline zur Untersuchung der molekularen Evolution und Genexpression mit RNA-seq

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken