Die Interpretation der Sequenzierungsdaten, die durch das Ribosomen-Profiling-Experiment generiert werden, ist entscheidend für die quantitative Messung der translationalen Aktivitäten von Ribosomen auf mRNA und für die Untersuchung der Mechanismen der translationalen Regulation. In diesem Protokoll beschreiben wir das Berechnungsverfahren zur Verwendung der Ribosom-Profiling-Daten und RiboCode, ein Befehlszeilenwerkzeug zur Dekodierung der mRNA-Translation auf genomweiter Ebene und Einzelnukleotidauflösung. Diese Methode ermöglicht die Suche nach den neuartigen Peptiden, die aus den genomischen Regionen außerhalb der annotierten proteinkodierenden Gene stammen, und bietet die Möglichkeit, die Rate der mRNA-Translation zu quantifizieren.
Öffnen Sie zunächst ein Linux-Terminalfenster und erstellen Sie eine conda-Umgebung, indem Sie den Befehl ausführen. Wechseln Sie zur erstellten Umgebung und installieren Sie RiboCode und Abhängigkeiten, indem Sie den Befehl ausführen. Um die Genomreferenzdateien für die Referenzsequenz zu erhalten, gehen Sie zur Ensembl-Website und klicken Sie dann auf Download, gefolgt von FTP-Download.
Klicken Sie auf die Option FASTA in der Spalte DNA FASTA, und wählen Sie die Zeile aus, in der die Art Mensch ist, die in der Tabelle auf der Website-Seite angezeigt wird. Kopieren Sie auf der Seite der Ensembl-Website den Link wie im Text erwähnt, laden Sie dann die Dateien im Terminal herunter und entpacken Sie sie, indem Sie den Befehl ausführen. Klicken Sie für die Referenzanmerkung mit der rechten Maustaste auf GTF in der Spalte Gensätze auf der zuletzt geöffneten Webseite.
Kopieren Sie den Link, und laden Sie ihn mit dem Befehl herunter. Um rRNA-Sequenzen abzurufen, öffnen Sie den UCSC-Genombrowser, klicken Sie dann auf Extras und wählen Sie in der Dropdown-Liste Tabellenbrowser aus. Geben Sie auf der UCSC-Genom-Browserseite Säugetier für Klade, Mensch für Genom, alle Tabellen für Gruppe, R-Maske für Tabelle und Genom für Region an.
Klicken Sie zum Filtern auf Erstellen, um zu einer neuen Seite zu gelangen, und legen Sie die Rep-Klasse so fest, wie sie mit rRNA übereinstimmt. Klicken Sie auf Senden, und legen Sie dann das Ausgabeformat auf Sequenz und den Namen der Ausgabedatei auf HG38_rRNA fest. FA. Klicken Sie abschließend auf Ausgabe abrufen, und wählen Sie dann Sequenz abrufen aus, um die rRNA-Sequenz abzurufen.
Um Ribosom-Profilerstellungs-Datasets aus dem Sequenzlesearchiv abzurufen, laden Sie die Replikationsbeispiele der si-eIFe-Behandlungsgruppe herunter und benennen Sie sie um, indem Sie den Befehl ausführen. Laden Sie dann die Replikatbeispiele der Steuerelementgruppe herunter, und benennen Sie sie um, indem Sie den Befehl ausführen. Um die rRNA-Kontamination zu entfernen, beginnen Sie mit der Indizierung von rRNA-Referenzsequenzen, indem Sie den Befehl ausführen.
Richten Sie nach der Indizierung die Lesevorgänge an der rRNA-Referenz aus, um die von rRNA stammenden Lesevorgänge durch Ausführen des Befehls auszuschließen. Erstellen Sie zunächst einen Genomindex, indem Sie den Befehl ausführen. Richten Sie dann die sauberen Lesevorgänge ohne rRNA-Kontamination an der erstellten Referenz aus, indem Sie den Befehl ausführen, und sortieren und indizieren Sie dann die Ausrichtungsdateien, indem Sie den Befehl ausführen.
Bereiten Sie die Transkriptanmerkungen vor, indem Sie den Befehl ausführen. Wählen Sie Ribosomen-geschützte Fragmente bestimmter Länge aus und identifizieren Sie ihre P-Site-Positionen, indem Sie den Befehl ausführen. Bearbeiten Sie die Konfigurationsdateien für jedes Beispiel, und führen Sie sie zusammen.
Führen Sie dann RiboCode aus, indem Sie den Befehl ausführen. Die Häufigkeitsverteilung der Längen der Lesevorgänge zeigte, dass die meisten Ribosomen-geschützten Fragmente 25 bis 35 Nukleotiden entsprechen. Die P-Site-Positionen für verschiedene Längen von Ribosom-geschützten Fragmenten wurden bestimmt, indem die Abstände von ihren fünf Hauptenden zu den annotierten Start- und Stopp-Codons untersucht wurden.
Die Mapping-Ergebnisse zeigen, dass 10.394 Gene für kommentierte offene Leserahmen kodieren. Darüber hinaus kodieren 509 und 168 Gene für vor- und nachgelagerte offene Leserahmen, während 939 Gene für vor- oder nachgelagerte offene Leserahmen kodieren, die sich mit bekannten kommentierten offenen Leserahmen überlappen. Darüber hinaus kodieren 68 proteinkodierende Gene und 2.601 nicht-kodierende Gene für neuartige offene Leserahmen.
Die Längenverteilung zeigte, dass Upstream-, Downstream-, Roman- und überlappende offene Leserahmen kürzer waren als die kommentierten offenen Leseframes. Relative Ribosomen-geschützte Fragmentzahlen wurden für jeden offenen Leserahmen berechnet, was zeigte, dass die Ribosomendichten von vorgelagerten offenen Leserahmen in eIF3e-defizienten Zellen signifikant höher waren als in Kontrollzellen. Die Metagenanalyse ergab, dass eine Masse von Ribosomen zwischen den Codons 25 und 75 hinter dem Start-Codon zum Stillstand kam, was darauf hindeutet, dass die Translationsdehnung in eIF3e-defizienten Zellen früh blockiert sein könnte.
Die P-Sites-Dichteprofile für vorgelagerte offene Leserahmen von PSMA6 und nachgeschaltete offene Leserahmen des Gens SENP3-EIF4A1 wurden untersucht, um die Periodizitätsmuster und Dichten von Ribosomen-geschützten Fragmenten zu demonstrieren. Die Überprüfung der Positionen von Lesevorgängen um die Start- und Stopp-Codons bekannter proteinkodierender Regionen ist notwendig, um die periodischen Eigenschaften von Lesevorgängen für jede Länge zu bewerten. RiboCode kann RiboMiner zusammen mit einem anderen Befehlszeilentool auch Qualitätskontrollen und mehrere Analysen durchführen, z. B. die Quantifizierung und Visualisierung der Belegungen der Ribosomen auf den vorhergesagten offenen Leserahmen.
Dieses Berechnungswerkzeug bietet eine Möglichkeit mit hohem Durchsatz, unkanonische Translationsereignisse mit Ribosomenprofilierungsdaten in bestimmten physiologischen Kontexten zu identifizieren und wie die Translation als Reaktion auf den Reiz moduliert wird.