Dieses Protokoll beschreibt bioinformatische Schritte zur Untersuchung der molekularen Evolution und Expression von Kandidatengenen. Hier bieten wir gründliche Anweisungen, damit jeder mit minimaler bioinformatischer Erfahrung dieses Protokoll durchlaufen kann. Diese Pipeline kann auf jeden Organismus und jede Genfamilie angewendet werden.
Ein häufiges Problem bei der Bioinformatik ist das Versagen von Shell-Skripten. Wenn Sie dieses Protokoll versuchen, stellen Sie sicher, dass Sie über die aktuellste Software verfügen, lesen Sie die Fehlerdateien und lesen Sie das Handbuch sorgfältig. Melden Sie sich zunächst in einem Terminal oder PuTTY-Anwendungsfenster beim Computerclusterkonto an.
Laden Sie auf dem Terminal SRA Toolkit Version 2.8.1 mit Wget herunter und beenden Sie dann die Installation des Programms. Durchsuchen Sie NCBI nach der SRA-Zugangsnummer für die gewünschten Proben und erhalten Sie dann die RNA-Sequenzdaten im Terminalfenster. Rufen Sie zwei FASTQ-Dateien für den Dateityp mit gepaartem Ende ab.
Finden Sie das Referenzgenom online, falls vorhanden. Um eine Referenzassembly abzurufen, geben Sie wget in das Terminalfenster ein, und fügen Sie die Linkadresse ein. Falls verfügbar, kopieren Sie auch die GTF-Datei und die Protein-FASTA-Datei für das Referenzgenom.
Indizieren Sie das Genom, dann kartenlesen und berechnen Sie die Expression für jede Probe. Benennen Sie die Ergebnisdatei in etwas Beschreibendes um und generieren Sie eine Matrix aller Zählungen. Öffnen Sie ein Internetbrowserfenster und gehen Sie zu NCBI GenBank.
Geben Sie in der Suchleiste den Namen des interessierenden Gens und den Namen der eng verwandten Arten ein, die sequenziert wurden. Wählen Sie links neben der Suchleiste Protein aus, und klicken Sie dann auf Suchen. Extrahieren Sie die Sequenzen, indem Sie auf Senden an klicken, und wählen Sie dann Datei aus.
Wählen Sie unter Format die Option FASTA aus, und klicken Sie dann auf Datei erstellen. Verschieben Sie die FASTA-Datei der Homologe über ein lokales Terminalfenster oder FileZilla in den Computercluster. Als nächstes suchen Sie mit BLAST+ nach Kandidatengenen Erstellen Sie auf dem Computercluster eine BLAST-Datenbank aus dem Genom oder dem transkriptomüberseten Protein FASTA.
BLAST die homologen Gensequenzen von NCBI in die Datenbank der interessierenden Spezies und dann die Ausgabedatei mit dem Befehl mehr anzeigen. Kopieren Sie eindeutige Gen-IDs von der interessierenden Spezies in eine neue Textdatei. Extrahieren Sie die Sequenzen der Kandidatengene.
Um die Genannotation mit Reciprocal BLAST zu bestätigen, gehen Sie zum BLAST Local Alignment Search Tool, wählen Sie BLASTP aus, fügen Sie dann die Kandidatensequenzen ein, wählen Sie die nicht redundante Proteinsequenzdatenbank aus und klicken Sie auf BLAST. Öffnen Sie MEGA, klicken Sie auf Ausrichten, dann auf Build-Ausrichtung bearbeiten, wählen Sie Neue Ausrichtung erstellen und klicken Sie auf OK. Wählen Sie Protein aus. Wenn das Fenster Ausrichtung geöffnet wird, klicken Sie auf Bearbeiten.
Klicken Sie auf Sequenzen aus Datei einfügen und wählen Sie die FASTA mit Proteinsequenzen von Kandidatengenen und wahrscheinlichen Homologen aus. Wählen Sie Alle Sequenzen aus. Suchen Sie das Armsymbol und bewegen Sie den Mauszeiger darüber.
Es sollte sagen, dass Sequenzen mit dem Muskelalgorithmus ausgerichtet werden. Klicken Sie auf das Armsymbol und dann auf Protein ausrichten, um die Sequenzen auszurichten Parameter bearbeiten, oder klicken Sie auf OK, um Standardparameter zu verwenden. Dieses Protokoll wurde auf Gewebe von Hydra vulgaris angewendet, einem wirbellosen Süßwassertiere, das zum Stamm Cnidaria gehört.
Opsin-Gene wurden untersucht, um Einblicke in die Evolution der Augen und die Lichtdetektion bei Tieren zu erhalten. Sequenzen für Opsin-verwandte Gene von H.vulgaris und anderen Spezies wurden in eine FASTA-Datei aus der NCBI GenBank extrahiert. Die Opsin-Gene wurden in MEGA ausgerichtet, so dass es möglich war, Hydra-Opsine zu identifizieren, denen eine konservierte Lysin-Aminosäure fehlte, die notwendig war, um ein lichtempfindliches Molekül zu binden.
Ein Maximum-Likelihood-Baum wurde mit Opsin-Sequenzen von Hydra vulgaris und anderen Arten generiert. Die Phylogenie legt nahe, dass sich Opsin-Gene durch linienspezifische Duplikationen bei Nesseltieren und möglicherweise durch Tandemduplikation bei H.vulgaris entwickeln. Als nächstes wurde eine differentielle Expressionsanalyse in edgeR durchgeführt, um die absolute Expression von Opsin-Genen zu untersuchen.
Um festzustellen, ob ein oder mehrere Opsine im Hypostom oder Kopf hochreguliert sind, wurden paarweise Vergleiche von Hypostom mit der Körpersäule, der Knospenzone, dem Fuß und den Tentakeln durchgeführt. Es wurde festgestellt, dass 1.774 Transkripte zwischen hypostom und Körpersäule unterschiedlich exprimiert wurden. Die Gene, die über mehrere Vergleiche hochreguliert wurden, wurden bestimmt und eine funktionelle Anreicherung in Blast2GO durchgeführt.
Schließlich wurde die absolute Expression von Opsin-Genen in verschiedenen Geweben während verschiedener Stadien der Knospung und während verschiedener Zeitpunkte der Regeneration untersucht. Die visuelle Inspektion der Ausrichtung und des Baums wird bestätigen, ob kandidatengene zur interessierende Familie gehören. Gene, die in der Reihenfolge zu unterschiedlich sind oder eine Gruppe außerhalb von allem anderen, sind wahrscheinlich Teil einer anderen Genfamilie.
Die Ergebnisse dieses Protokolls können als hypothesengenerierend angesehen werden. Diese Pipeline kann Kandidatengene hervorheben, die in zukünftigen Studien funktionell untersucht werden sollen. Nachdem wir die Hydra-Opsin-Expression untersucht haben, verwenden wir nun ähnliche Techniken, um verwandte Gene über Arten hinweg zu untersuchen, um Ähnlichkeiten und Funktionsunterschiede zu identifizieren.