De novo Identifizierung von aktiv übersetzten offenen Leserahmen mit Ribosom-Profiling-Daten

Yanan Zhu; Fajin Li; Xuerui Yang; Zhengtao Xiao

doi:10.3791/63366

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Übersetzende Ribosomen dekodieren drei Nukleotide pro Codon in Peptide. Ihre Bewegung entlang der mRNA, die durch Ribosomenprofilierung erfasst wird, erzeugt die Fußabdrücke, die eine charakteristische Triplettperiodizität aufweisen. Dieses Protokoll beschreibt, wie RiboCode verwendet werden kann, um dieses herausragende Merkmal aus Ribosom-Profiling-Daten zu entschlüsseln, um aktiv übersetzte offene Leserahmen auf der Ebene des gesamten Transkriptoms zu identifizieren.

Zusammenfassung

Die Identifizierung von offenen Leserahmen (ORFs), insbesondere solcher, die für kleine Peptide kodieren und aktiv unter spezifischen physiologischen Kontexten übersetzt werden, ist entscheidend für umfassende Annotationen kontextabhängiger Translatomen. Ribosomenprofilierung, eine Technik zur Erkennung der Bindungsstellen und Dichten der Übersetzung von Ribosomen auf RNA, bietet eine Möglichkeit, schnell herauszufinden, wo die Translation auf genomweiter Ebene stattfindet. In der Bioinformatik ist es jedoch keine triviale Aufgabe, die übersetzenden ORFs für die Ribosomenprofilierung effizient und umfassend zu identifizieren. Hier wird ein einfach zu bedienendes Paket namens RiboCode beschrieben, das entwickelt wurde, um aktiv nach der Übersetzung von ORFs beliebiger Größe aus verzerrten und mehrdeutigen Signalen in Ribosomenprofilierungsdaten zu suchen. Am Beispiel unseres zuvor veröffentlichten Datensatzes bietet dieser Artikel Schritt-für-Schritt-Anleitungen für die gesamte RiboCode-Pipeline, von der Vorverarbeitung der Rohdaten bis zur Interpretation der endgültigen Ausgabeergebnisdateien. Darüber hinaus werden zur Bewertung der Translationsraten der annotierten ORFs Verfahren zur Visualisierung und Quantifizierung von Ribosomendichten auf jedem ORF detailliert beschrieben. Zusammenfassend ist der vorliegende Artikel eine nützliche und zeitgemäße Anleitung für die Forschungsbereiche Translation, kleine ORFs und Peptide.

Einleitung

In jüngster Zeit hat eine wachsende Zahl von Studien eine weit verbreitete Produktion von Peptiden gezeigt, die aus ORFs kodierender Gene und den zuvor annotierten Genen als nicht kodierend übersetzt wurden, wie z.B. lange nicht-kodierende RNAs (lncRNAs) 1,2,3,4,5,6,7,8^. Diese übersetzten ORFs werden von Zellen reguliert oder induziert, um auf Umweltveränderungen, Stress und Zelldifferenzierung zu reagieren1,8,9,10,11,12,13. Es hat sich gezeigt, dass die Übersetzungsprodukte einiger ORFs eine wichtige regulatorische Rolle in verschiedenen biologischen Prozessen in Entwicklung und Physiologie spielen. Zum Beispiel entdeckten Chng et ^al.14 ein Peptidhormon namens Elabela (Ela, auch bekannt als Apela/Ende/Toddler), das für die kardiovaskuläre Entwicklung entscheidend ist. Pauli et al. schlugen vor, dass Ela auch als Mitogen wirkt, das die Zellmigration im frühen Fischembryo ^fördert15. Magny et al. berichteten über zwei Mikropeptide von weniger als 30 Aminosäuren, die den Kalziumtransport regulieren und die regelmäßige Muskelkontraktion im ^{Drosophila-Herzen beeinflussen10.}

Es bleibt unklar, wie viele solcher Peptide vom Genom kodiert werden und ob sie biologisch relevant sind. Daher ist eine systematische Identifizierung dieser potenziell kodierenden ORFs sehr wünschenswert. Die direkte Bestimmung der Produkte dieser ORFs (d.h. Protein oder Peptid) mit traditionellen Ansätzen wie evolutionärer Konservierung16,17 und Massenspektrometrie18,19 ist jedoch eine Herausforderung, da die Detektionseffizienz beider Ansätze von der Länge^, Häufigkeit und Aminosäurezusammensetzung der produzierten Proteine oder Peptide abhängt. Das Aufkommen der Ribosomenprofilierung, einer Technik zur Identifizierung der Ribosomenbelegung auf mRNAs bei Nukleotidauflösung, hat eine präzise Möglichkeit geschaffen, das Kodierungspotenzial verschiedener Transkripte zu bewerten3,20,21^, unabhängig von ihrer Länge und Zusammensetzung^. Ein wichtiges und häufig verwendetes Merkmal zur Identifizierung aktiv übersetzender ORFs mithilfe von Ribosomenprofiling ist die Drei-Nukleotid-Periodizität (3-nt) der Fußabdrücke des Ribosoms auf mRNA vom Startcodon bis zum Stopp-Codon. Ribosom-Profiling-Daten haben jedoch oft mehrere Probleme, einschließlich niedriger und spärlicher Sequenzierungswerte entlang von ORFs, hohem Sequenzierungsrauschen und ribosomalen RNA (rRNA) -Kontaminationen. Daher schwächen die verzerrten und mehrdeutigen Signale, die von solchen Daten erzeugt werden, die 3-nt-Periodizitätsmuster der Fußabdrücke der Ribosomen auf mRNA, was letztendlich die Identifizierung der hochkonfidenzierten übersetzten ORFs erschwert.

Ein Paket namens "RiboCode" adaptierte einen modifizierten Wilcoxon-Sign-Rank-Test und eine P-Wert-Integrationsstrategie, um zu untersuchen^, ob der ORF signifikant mehr Ribosomen-geschützte In-Frame-Fragmente (RPFs) aufweist als Off-Frame-RPFs22. Es erwies sich als hocheffizient, empfindlich und genau für die De-novo-Annotation des Translatoms in simulierten und realen Ribosomenprofilierungsdaten. Hier beschreiben wir, wie Sie dieses Tool verwenden, um die potenziellen übersetzenden ORFs aus den rohen Ribosom-Profiling-Sequenzierungsdatensätzen zu erkennen, die von der vorherigen ^Studie23 generiert wurden. Diese Datensätze wurden verwendet, um die Funktion der EIF3-Untereinheit "E" (EIF3E) in der Translation zu untersuchen, indem die Ribosomenbelegungsprofile von MCF-10A-Zellen, die mit Kontrolle (si-Ctrl) transfiziert wurden, und EIF3E (si-eIF3e) kleininterferierenden RNAs (siRNAs) verglichen wurden. Durch die Anwendung von RiboCode auf diese Beispieldatensätze haben wir 5.633 neuartige ORFs entdeckt, die möglicherweise für kleine Peptide oder Proteine kodieren. Diese ORFs wurden basierend auf ihren Standorten relativ zu den kodierenden Regionen in verschiedene Typen eingeteilt, darunter Upstream-ORFs (uORFs), Downstream-ORFs (dORFs), überlappende ORFs, ORFs aus neuartigen proteinkodierenden Genen (neuartige PCGs) und ORFs aus neuartigen nichtproteinkodierenden Genen (neuartige NonPCGs). Die RPF-Lesedichten auf uORFs waren in EIF3E-defizienten Zellen im Vergleich zu Kontrollzellen signifikant erhöht, was zumindest teilweise durch die Anreicherung von aktiv übersetzenden Ribosomen verursacht werden könnte. Die lokalisierte Ribosom-Akkumulation in der Region vom 25. bis 75. Codon von EIF3E-defizienten Zellen deutete auf eine Blockade der Translationsdehnung im Frühstadium hin^. Dieses Protokoll zeigt auch, wie die RPF-Dichte der gewünschten Region visualisiert werden kann, um die 3-nt-Periodizitätsmuster von Ribosomen-Fußabdrücken auf identifizierten ORFs zu untersuchen. Diese Analysen zeigen die mächtige Rolle von RiboCode bei der Identifizierung von übersetzenden ORFs und der Untersuchung der Regulierung der Übersetzung.

Protokoll

1. Einrichtung der Umgebung und Installation von RiboCode

Öffnen Sie ein Linux-Terminalfenster und erstellen Sie eine conda-Umgebung:
conda create -n RiboCode python=3.8
Wechseln Sie in die erstellte Umgebung und installieren Sie RiboCode und Abhängigkeiten:
conda aktiviert RiboCode
conda install -c bioconda ribocode ribominer sra-tools fastx_toolkit cutadapt bowtie star samtools

2. Datenaufbereitung

Holen Sie sich Genom-Referenzdateien.
1. Für die Referenzsequenz gehen Sie zur Ensemble-Website unter https://www.ensembl.org/index.html, klicken Sie auf das obere Menü Download und das linke Menü FTP Download. Klicken Sie in der angezeigten Tabelle in der Spalte DNA (FASTA) und in der Zeile, in der Spezies Mensch ist, auf FASTA. Kopieren Sie auf der geöffneten Seite den Link von Homo_sapiens. GRCh38.dna.primary_assembly.fa.gz, laden Sie es dann herunter und entpacken Sie es im Terminal:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
  gzip -d Homo_sapiens. GRCh38.dna.primary_assembly.FA.gz
2. Klicken Sie für Referenzanmerkungen mit der rechten Maustaste auf GTF in der Spalte Gene setzt auf der zuletzt geöffneten Webseite. Kopieren Sie den Link von Homo_sapiens. GRCh38.104.gtf.gz und laden Sie es herunter mit:
  wget -c \
  http://ftp.ensembl.org/pub/release-104/gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
  gzip -d Homo_sapiens. GRCh38.104.gtf.gz
  HINWEIS: Es wird empfohlen, die GTF-Datei von der Ensemble-Website zu beziehen, da sie Genomannotationen enthält, die in einer dreistufigen Hierarchie organisiert sind, d.h. jedes Gen enthält Transkripte, die Exons und optionale Übersetzungen enthalten (z. B. Kodierungssequenzen [CDS], Übersetzungsstartseite, Übersetzungsendseite). Wenn die Anmerkungen eines Gens oder Transkripts fehlen, z. B. eine GTF-Datei, die von UCSC oder NCBI abgerufen wurde, verwenden Sie GTFupdate, um eine aktualisierte GTF mit vollständigen Anmerkungen zur Eltern-Kind-Hierarchie zu generieren: GTFupdate original.gtf > updated.gtf. Verwenden Sie für die Anmerkungsdatei im .gff-Format das AGAT-Toolkit24 oder ein anderes Tool, um in das .^gtf-Format zu konvertieren.
Holen Sie sich rRNA-Sequenzen.
1. Öffnen Sie den UCSC Genome Browser unter https://genome.ucsc.edu und klicken Sie auf Tools | Tabellenbrowser in der Dropdown-Liste.
2. Geben Sie auf der geöffneten Seite Säugetier für Klade, Mensch für Genom, Alle Tabellen für Gruppe, rmask für Tabelle und Genom für Region an. Klicken Sie für Filter auf Erstellen, um zu einer neuen Seite zu gelangen und repClass als Übereinstimmung mit rRNA festzulegen.
3. Klicken Sie auf Senden, und legen Sie dann das Ausgabeformat auf Sequenz und Ausgabedateinamen als hg38_rRNA.fa fest. Klicken Sie abschließend auf Ausgabe | abrufen Holen Sie sich die Sequenz, um die rRNA-Sequenz abzurufen.
Rufen Sie Ribosom-Profilerstellungs-Datasets aus dem Sequence Read Archive (SRA) ab.
1. Laden Sie die Replikatproben der si-eIF3e-Behandlungsgruppe herunter und benennen Sie sie um:
  fastq-dump SRR9047190 SRR9047191 SRR9047192
  mv SRR9047190.fastq si-eIF3e-1.fastq
  mv SRR9047191.fastq si-eIF3e-2.fastq
  mv SRR9047192.fastq si-eIF3e-3.fastq
2. Laden Sie die Replikatbeispiele der Kontrollgruppe herunter und benennen Sie sie um:
  fastq-dump SRR9047193 SRR9047194 SRR9047195
  mv SRR9047193.fastq si-Strg-1.fastq
  mv SRR9047194.fastq si-Strg-2.fastq
  mv SRR9047195.fastq si-Strg-3.fastq
  HINWEIS: Die SRA-Beitritts-IDs für diese Beispieldatensätze wurden von der Gene Expression Omnibus (GEO)-^Website25 durch Suchen nach GSE131074 abgerufen.

3. Adapter trimmen und rRNA-Verunreinigungen entfernen

(Optional) Entfernen Sie Adapter aus den Sequenzierungsdaten. Überspringen Sie diesen Schritt, wenn die Adaptersequenzen bereits beschnitten wurden, wie in diesem Fall. Andernfalls verwenden Sie cutadapt , um die Adapter von Lesevorgängen abzuschneiden.
für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
tun
cutadapt -m 15 --match-read-wildcards -a CTGTAGGCACCATCAAT \
-o ${i}_trimmed.fastq ${i}.fastq
fertig
HINWEIS: Die Adaptersequenz nach -a Parameter variiert je nach cDNA-Bibliotheksvorbereitung. Messwerte kürzer als 15 (gegeben durch -m) werden verworfen, da die Ribosomen-geschützten Fragmente normalerweise länger als diese Größe sind.
Entfernen Sie die rRNA-Kontamination mit den folgenden Schritten:
1. Index rRNA-Referenzsequenzen:
  Bowtie-build -f hg38_rRNA.fa hg38_rRNA
2. Richten Sie die Lesevorgänge an der rRNA-Referenz aus, um die von rRNA stammenden Lesevorgänge auszuschließen:
  für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
  tun
  Fliege -n 0 -y -a --norc --best --strata -S -p 4 -l 15 \
  --un=./${i}_noncontam.fastq hg38_rRNA -q ${i}.fastq ${i}.aln
  fertig
  -p gibt die Anzahl der Threads für die parallele Ausführung der Tasks an. In Anbetracht der relativ geringen Größe der RPF-Reads sollten andere Argumente (z. B. -n, -y, -a, -norc, --best, --strata und -l) angegeben werden, um sicherzustellen, dass die gemeldeten Alignments am besten sind. Weitere Informationen finden Sie auf der ^{Bowtie-Website26}.

4. Richten Sie die sauberen Lesevorgänge am Genom aus

Erstellen Sie einen Genomindex.
STAR_hg38_genome mkdir
STAR --runThreadN 8 --runMode genomeGenerate --genomeDir ./STAR_hg38_genome --genomeFastaFiles Homo_sapiens. GRCh38.dna.primary_assembly.fa --sjdbGTFfile Homo_sapiens. GRCh38.104.gtf
Richten Sie die sauberen Lesevorgänge (keine rRNA-Kontamination) an der erstellten Referenz aus.
für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
tun
STAR --runThreadN 8 --outFilterType Normal --outWigType wiggle --outWigStrand Stranded --outWigNorm RPM --outFilterMismatchNmax 1 --outFilterMultimapNmax 1 --genomeDir STAR_hg38_genome --readFilesIn ${i}_noncontam.fastq --outFileNamePrefix ${i}. --outSAMtype BAM SortedByCoordinate --quantMode TranscriptomeSAM GeneCounts --outSAMattributes Alle
fertig
HINWEIS: Ein Nukleotid ohne Vorlage wird häufig am 5'-Ende jedes Lesevorgangs durch die umgekehrte ^{Transkriptase27} hinzugefügt, die von STAR effizient abgeschnitten wird, da standardmäßig Soft-Clipping durchgeführt wird. Die Parameter für STAR sind im ^{STAR-Handbuch28} beschrieben.
Sortieren und indizieren Sie Ausrichtungsdateien.
für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
tun
samtools sort -T ${i}. Aligned.toTranscriptome.out.sorted \
-o ${i}. Aligned.toTranscriptome.out.sorted.bam \
${i}. Aligned.toTranscriptome.out.bam
samtools index ${i}. Aligned.toTranscriptome.out.sorted.bam
samtools index ${i}. Aligned.sortedByCoord.out.bam
fertig

5. Größenauswahl der RPFs und Identifizierung ihrer P-Standorte

Bereiten Sie die Transkriptanmerkungen vor.
prepare_transcripts -g Homo_sapiens. GRCh38.104.gtf \
-f Homo_sapiens. GRCh38.dna.primary_assembly.fa -o RiboCode_annot
HINWEIS: Dieser Befehl sammelt die erforderlichen Informationen von mRNA-Transkripten aus der GTF-Datei und extrahiert die Sequenzen für alle mRNA-Transkripte aus der FASTA-Datei (jedes Transkript wird zusammengestellt, indem die Exons gemäß den in der GTF-Datei definierten Strukturen zusammengeführt werden).
Wählen Sie RPFs mit bestimmten Längen aus und identifizieren Sie ihre P-Site-Positionen.
für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
tun
metaplots -a RiboCode_annot -r ${i}. Aligned.toTranscriptome.out.bam \
-o ${i} -f0_percent 0.35 -pv1 0.001 -pv2 0.001
fertig
HINWEIS: Mit diesem Befehl werden die aggregierten Profile des 5'-Endes der ausgerichteten Lesevorgänge jeder Länge um kommentierte Start- (oder Stopp-) Start- (oder Stopp-) Codons der Übersetzung herum dargestellt. Die leselängenabhängige P-Site kann manuell bestimmt werden, indem die Verteilungsdiagramme (z. B. Abbildung 1B) der Offsetabstände zwischen den 5'-Enden der Hauptlesevorgänge und dem Startcodon untersucht werden. RiboCode generiert auch eine Konfigurationsdatei für jedes Beispiel, in der die P-Site-Positionen von Lesevorgängen, die signifikante 3-nt-Periodizitätsmuster anzeigen, automatisch bestimmt werden. Die Parameter -f0_percent, -pv1 und -pv2 definieren den Anteilsschwellenwert und die p-Wert-Cutoffs für die Auswahl der RPF-Messwerte, die im Leserahmen angereichert sind. In diesem Beispiel werden die Nukleotide +12, +13 und +13 aus dem 5'-Ende der 29-, 30- und 31-nt-Lesevorgänge in jeder Konfigurationsdatei manuell definiert.
Bearbeiten Sie die Konfigurationsdateien für jedes Beispiel und führen Sie sie zusammen.
HINWEIS: Um einen Konsenssatz eindeutiger ORFs zu generieren und eine ausreichende Abdeckung der Lesevorgänge für die Durchführung nachfolgender Analysen sicherzustellen, werden die ausgewählten Lesevorgänge aller Stichproben im vorherigen Schritt zusammengeführt. Die in merged_config.txt Datei definierten Reads bestimmter Längen (Supplemental File 1) und deren P-Site-Informationen werden im nächsten Schritt zur Bewertung des Übersetzungspotenzials von ORFs verwendet.

6. De novo annotate Übersetzung von ORFs

Führen Sie RiboCode aus.
RiboCode -a RiboCode_annot -c merged_config.txt -l ja -g \
-o RiboCode_ORFs_result -s ATG -m 5 -A CTG,GTG,TTG
Dabei lauten die wichtigen Parameter dieses Befehls wie folgt:
-c, Konfigurationsdatei, die den Pfad der Eingabedateien und die Informationen der ausgewählten Lesevorgänge und ihrer P-Sites enthält.
-l, für Transkripte mit mehreren Startcodons vor den Stopp-Codons, ob die längsten ORFs (die Region vom distalen Startcodon zum Stopp-Codon) zur Bewertung ihres Übersetzungspotenzials verwendet werden. Wenn auf no gesetzt, werden die Start-Codons automatisch bestimmt.
-s, die kanonischen Startcodes, die zur Identifizierung von ORFs verwendet werden.
-A, (optional) die nichtkanonischen Startkodons (z. B. CTG, GTG und TTG für den Menschen), die zur ORF-Identifizierung verwendet werden und sich in Mitochondrien oder Kernen anderer Spezies unterscheiden ^können29.
-m, die Mindestlänge (d. h. Aminosäuren) von ORFs.
-o, das Präfix des Ausgabedateinamens, das die Details der vorhergesagten ORFs enthält (Supplemental File 2).
-g und -b geben die vorhergesagten ORFs im gtf - bzw. Bettformat aus.

7. (Optional) ORF-Quantifizierung und Statistik

Zählen Sie RPF-Lesevorgänge in jedem ORF.
für i in si-Strg-1 si-Strg-2 si-Strg-3 si-eIF3e-1 si-eIF3e-2 si-eIF3e-3
tun
ORFcount -g RiboCode_ORFs_result_collapsed.gtf \
-r ${i}. Aligned.sortedByCoord.out.bam -f 15 -l 5 -m 25 -M 35 \
-o ${i}_ORF.counts -s yes -c intersection-strict
fertig
HINWEIS: Um die potenziell akkumulierenden Ribosomen um den Anfang und das Ende von ORFs auszuschließen, wird die Anzahl der Lesevorgänge, die in den ersten 15 (spezifiziert durch - f) und den letzten 5 Codons (spezifisch durch -l) zugewiesen sind, nicht gezählt. Optional sind die Längen der gezählten RPFs auf den Bereich von 25 bis 35 nt (übliche Größen von RPFs) beschränkt.
Berechnen Sie grundlegende Statistiken der erkannten ORFs mit RiboCode:
Rscript RiboCode_utils. R
HINWEIS: RiboCode_utils. R (Supplemental File 3) liefert eine Reihe von Statistiken für die RiboCode-Ausgabe, z. B. das Zählen der Anzahl der identifizierten ORFs, das Anzeigen der Verteilung der ORF-Längen und das Berechnen der normalisierten RPF-Dichten (d. h. RPKM, Lesevorgänge pro Kilobasis pro Million zugeordneter Lesevorgänge).

8. (Optional) Visualisierung der vorhergesagten ORFs

Erhalten Sie die relativen Positionen der Start- und Stopp-Codons für den gewünschten ORF (z. B. ENSG00000100902_35292349_35292552_67) auf seinem Transkript von RiboCode_ORFs_result_collapsed.txt (Supplemental file 3). Zeichnen Sie dann die Dichte der RPF-Lesevorgänge im ORF auf:
plot_orf_density -a RiboCode_annot -c merged_config.txt -t ENST00000622405 \
-s 33 -e 236 --start-codon ATG -o ENSG00000100902_35292349_35292552_67
Dabei geben -s und -e die Start- und Stoppposition der Übersetzung des Plottens von ORF an. --start-codon definiert das Startcodon des ORF, das im Abbildungstitel erscheinen wird. -o definiert das Präfix des Namens der Ausgabedatei.

9. (Optional) Metagenanalyse mit RiboMiner

HINWEIS: Führen Sie die Metagenanalyse durch, um den Einfluss des EIF3E-Knockdowns auf die Translation identifizierter annotierter ORFs zu bewerten, indem Sie die folgenden Schritte ausführen:

Generieren Sie Transkriptanmerkungen für RiboMiner, das das längste Transkript für jedes Gen basierend auf der von RiboCode generierten Annotationsdatei extrahiert (Schritt 5.1).
OutputTranscriptInfo -c RiboCode_annot/transcripts_cds.txt \
-g Homo_sapiens. GRCh38.104.gtf -f RiboCode_annot/transcripts_sequence.fa \
-o longest.transcripts.info.txt -O all.transcripts.info.txt
Bereiten Sie die Konfigurationsdatei für RiboMiner vor. Kopieren Sie die Konfigurationsdatei, die mit dem Metaplot-Befehl von RiboCode (Schritt 5.4) generiert wurde, und benennen Sie sie in "RiboMiner_config.txt" um. Ändern Sie es dann entsprechend dem Format, das in der Ergänzungsdatei 4 angezeigt wird.
Metagenanalysen mit RiboMiner
1. Verwenden Sie MetageneAnalysis, um ein aggregiertes und gemitteltes Profil der RPF-Dichten über Transkripte hinweg zu generieren.
  Metagenanalyse -f RiboMiner_config.txt -c longest.transcripts.info.txt \
  -o MA_normed -U codon -M RPKM -u 100 -d 400 -l 100 -n 10 -m 1 -e 5 --norm ja \
  -y 100 --Typ UTR
  Dabei sind wichtige Parameter: --type, analysiert entweder CDS- oder UTR-Regionen; --Norm, ob die Lesedichte normalisiert wurde; -y, die Anzahl der für jedes Transkript verwendeten Codons; -U, Diagramm der RPF-Dichte entweder auf Codon-Ebene oder auf nt-Ebene; -u und -d, definieren den Bereich der Analysebereiche relativ zum Start von codon oder stop codon; -l, die Mindestlänge (d. h. die Anzahl der Codons) von CDS; -M, der Modus für die Filterung von Transkripten, entweder Zählungen oder RPKM; -n Mindestzählungen oder RPKM in CDS zur Analyse. -m Mindestanzahl oder RPKM von CDS in der normalisierten Region; -e, die Anzahl der aus der normalisierten Region ausgeschlossenen Codons.
2. Generieren Sie eine Reihe von PDF-Dateien zum Vergleich der Ribosomenbelegungen auf mRNA in Kontrollzellen und eIF3-defizienten Zellen.
  PlotMetagenAnalysis -i MA_normed_dataframe.txt -o MA_normed \
  -g si-Strg,si-eIF3e -r si-Strg-1,si-Strg-2,si-Strg-3__si-eIF3e-1,si-eIF3e-2,si-eIF3e-3 -u 100 -d 400 --mode Mittelwert
  HINWEIS: PlotMetageneAnalysis generiert den Satz von PDF-Dateien. Details zur Verwendung von MetageneAnalysis und PlotMetageneAnalysis finden Sie auf der RiboMiner ^Website30.

Ergebnisse

Die Beispiel-Ribosom-Profiling-Datensätze wurden in der GEO-Datenbank unter der Zugangsnummer GSE131074 hinterlegt. Alle Dateien und Codes, die in diesem Protokoll verwendet werden, sind unter Ergänzende Dateien 1-4 verfügbar. Durch die Anwendung von RiboCode auf eine Reihe von veröffentlichten ^{Ribosom-Profiling-Datensätzen23} identifizierten wir die neuartigen ORFs, die aktiv in MCF-10A-Zellen übersetzt wurden, die mit Kontroll- und EIF3...

Diskussion

Die Ribosomen-Profilierung bietet eine beispiellose Gelegenheit, die Wirkung der Ribosomen in Zellen auf Genomebene zu untersuchen. Die genaue Entschlüsselung der Informationen, die von den Ribosom-Profiling-Daten enthalten sind, könnte Aufschluss darüber geben, welche Regionen von Genen oder Transkripten aktiv übersetzt werden. Dieses Schritt-für-Schritt-Protokoll bietet Anleitungen zur Verwendung von RiboCode zur detaillierten Analyse von Ribosomenprofilierungsdaten, einschließlich Paketinstallation, Datenvorbere...

Offenlegungen

Die Autoren haben keine Interessenkonflikte offenzulegen.

Danksagungen

Die Autoren möchten die Unterstützung durch die Rechenressourcen der HPCC-Plattform der Xi'an Jiaotong University würdigen. Z.X. dankt dem Young Topnotch Talent Support Plan der Xi'an Jiaotong Universität.

Materialien

Name	Company	Catalog Number	Comments
A computer/server running Linux	Any	-	-
Anaconda or Miniconda	Anaconda	-	Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html
R	R Foundation	-	https://www.r-project.org/
Rstudio	Rstudio	-	https://www.rstudio.com/

Referenzen

Eisenberg, A. R., et al. Translation Initiation Site Profiling Reveals Widespread Synthesis of Non-AUG-Initiated Protein Isoforms in Yeast. Cell Systems. 11 (2), 145-160 (2020).
Spealman, P., et al. Conserved non-AUG uORFs revealed by a novel regression analysis of ribosome profiling data. Genome Research. 28 (2), 214-222 (2018).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. The EMBO Journal. 33 (9), 981-993 (2014).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Chew, G. L., Pauli, A., Schier, A. F. Conservation of uORF repressiveness and sequence features in mouse, human and zebrafish. Nature Communications. 7, 11663 (2016).
Zhang, H., et al. Determinants of genome-wide distribution and evolution of uORFs in eukaryotes. Nature Communications. 12 (1), 1076 (2021).
Guenther, U. P., et al. The helicase Ded1p controls use of near-cognate translation initiation codons in 5' UTRs. Nature. 559 (7712), 130-134 (2018).
Goldsmith, J., et al. Ribosome profiling reveals a functional role for autophagy in mRNA translational control. Communications Biology. 3 (1), 388 (2020).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Stumpf, C. R., Moreno, M. V., Olshen, A. B., Taylor, B. S., Ruggero, D. The translational landscape of the mammalian cell cycle. Molecular Cell. 52 (4), 574-582 (2013).
Gerashchenko, M. V., Lobanov, A. V., Gladyshev, V. N. Genome-wide ribosome profiling reveals complex translational regulation in response to oxidative stress. Proceedings of the National Academy of Sciences of the United States of America. 109 (43), 17394-17399 (2012).
Andreev, D. E., et al. Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biology. 16, 90 (2015).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Stark, A., et al. Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature. 450 (7167), 219-232 (2007).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Schwaid, A. G., et al. Chemoproteomic discovery of cysteine-containing human short open reading frames. Journal of the American Chemical Society. 135 (45), 16750-16753 (2013).
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. Genome-wide annotation and quantitation of translation by ribosome profiling. Current Protocols in Molecular Biology. , 1-19 (2013).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Xiao, Z., et al. De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Research. 46 (10), 61 (2018).
Lin, Y., et al. eIF3 Associates with 80S Ribosomes to Promote Translation Elongation, Mitochondrial Homeostasis, and Muscle Health. Molecular Cell. 79 (4), 575-587 (2020).
. AGAT: Another Gff Analysis Toolkit to handle annotations in any GTF/GFF format Available from: https://agat.readthedocs.io/en/latest/gff_to_gtf.html (2020)
. Gene Expression Omnibus Available from: https://www.ncbi.nim.nih.gov/geo (2002)
Ingolia, N. T., Brar, G. A., Rouskin, S., McGeachy, A. M., Weissman, J. S. The ribosome profiling strategy for monitoring translation in vivo by deep sequencing of ribosome-protected mRNA fragments. Nature Protocols. 7 (8), 1534-1550 (2012).
. STAR manual Available from: https://github.com/alexdobin/STAR/blob/master/doc/STARmanual.pdf (2022)
. The genetic codes Available from: https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi (2019)
. RiboMiner Available from: https://github.com/xryanglab/RiboMiner (2020)
Ingolia, N. T., Hussmann, J. A., Weissman, J. S. Ribosome profiling: global views of translation. Cold Spring Harbor Perspectives in Biology. 11 (5), 032698 (2018).
Lee, S., et al. Global mapping of translation initiation sites in mammalian cells at single-nucleotide resolution. Proceedings of the National Academy of Sciences of the United States of America. 109 (37), 2424-2432 (2012).
Gao, X., et al. Quantitative profiling of initiating ribosomes in vivo. Nature Methods. 12 (2), 147-153 (2015).
Spealman, P., Naik, A., McManus, J. uORF-seqr: A Machine Learning-Based approach to the identification of upstream open reading frames in yeast. Methods in Molecular Biol. 2252, 313-329 (2021).
. RiboCode Available from: https://github.com/xryanglab/RiboCode (2018)
Sharma, P., Wu, J., Nilges, B. S., Leidel, S. A. Humans and other commonly used model organisms are resistant to cycloheximide-mediated biases in ribosome profiling experiments. Nature Communications. 12 (1), 5094 (2021).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

De novo Identifizierung von aktiv übersetzten offenen Leserahmen mit Ribosom-Profiling-Daten

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken