Das hier beschriebene Protokoll enthält detaillierte Anweisungen zur Analyse genomischer Regionen von Interesse auf Proteinkodierungspotenzial mit phyloCSF im benutzerfreundlichen UCSC-Genombrowser. PhloCSF kann effektiv konservierte kurze offene Leserahmen mit Mikroprotein-kodierendem Potenzial in genomischen Regionen identifizieren, die derzeit als nicht kodierend annotiert sind. Die hier beschriebenen Methoden sind leicht anzuwenden und können von Forschern aller Hintergründe ohne vorherige Ausbildung oder Fachwissen in Bioinformatik oder vergleichender Genomik implementiert werden.
Öffnen Sie zunächst ein Internetbrowserfenster und navigieren Sie zum Genombrowser der University of California Santa Cruz oder UCSC. Wählen Sie unter der Überschrift "Unsere Tools" die Option "Hubs verfolgen". Geben Sie auf der Registerkarte Öffentliche Hubs phyloCSF in das Feld Suchbegriffe ein.
Klicken Sie dann auf die Schaltfläche Öffentliche Hubs durchsuchen. Verbinden Sie sich mit phyloCSF, indem Sie auf die Schaltfläche connect für den Hub-Namen phyloCSF klicken. Nachdem Sie auf Verbinden geklickt haben, warten Sie, bis Sie zur UCSC Genome Browser Gateway-Seite weitergeleitet werden.
Um eine andere Art abzufragen, wählen Sie die interessierende Art unter der Überschrift "Arten durchsuchen oder auswählen" aus, indem Sie auf das entsprechende Symbol klicken, oder geben Sie die Art in das Textfeld ein, in dem es heißt: Geben Sie den allgemeinen Namen der Art oder die Versammlungs-ID ein.Wählen Sie im Dropdown-Menü die Baugruppe aus, die unter der definierten Positionsüberschrift gesucht werden soll, geben Sie dann das Positionsgensymbol oder die Suchbegriffe in das Feld Position oder Suchbegriff ein und klicken Sie auf Gehe zu, um zu navigieren zu einem Gen von Interesse im Genom-Browser. Wenn die Suche dazu geführt hat, dass mehrere Übereinstimmungen darauf warten, auf eine Seite umgeleitet zu werden, die die Auswahl einer interessanten Position erfordert, klicken Sie auf das entsprechende Gen von Interesse. Nachdem Sie zum UCSC-Genom-Browser navigiert sind, wählen Sie das Blast-like-Alignment-Tool oder blat unter der Überschrift unserer Tools, um eine bestimmte DNA- oder Proteinsequenz abzufragen.
Alternativ können Sie den Cursor über die Registerkarte Extras bewegen und die Option blat auswählen oder dem angegebenen Link folgen. Wählen Sie im Dropdown-Menü die gewünschte Spezies, das Genom und die gewünschte Assemblierung aus. Definieren Sie dann den Abfragetyp, fügen Sie die gewünschte Sequenz in das Textfeld blat search genome ein und klicken Sie auf Senden.
Klicken Sie anschließend auf den Browser-Link unter der Überschrift Aktionen, um zur genomischen Region von Interesse zu navigieren. Scannen Sie den genomischen Interessenbereich visuell auf eine positive Bewertung der PhyloCSF-Regionen. Verwenden Sie die Zoomfunktion, um Bereiche von Interesse zu vergrößern, um Sequenzmerkmale zu untersuchen und nach den Start- und Stopp-Codons zu suchen.
Um manuell zu zoomen, halten Sie die Umschalttaste gedrückt und klicken und halten Sie die Maustaste gedrückt, während Sie den gewünschten Bereich ziehen. Alternativ können Sie die Schaltflächen Vergrößern und Verkleinern oben auf der Seite verwenden, um zu navigieren. Vergrößern Sie, bis das Nukleotid oder die Basensequenz sichtbar ist.
Scannen Sie visuell die nukleare Gezeitensequenz in der Nähe des Beginns und Endes der positiv bewerteten PhyloCSF-Regionen, um Strafstart- und -stopp-Codons zu identifizieren. Bewegen Sie den Mauszeiger über die Ansichtsüberschrift oben auf der Seite und klicken Sie auf die Option In andere Genome konvertieren, und definieren Sie dann das Genom von Interesse über das Dropdown-Menü unter der neuen Genomüberschrift. Wählen Sie unter der Überschrift "Neue Baugruppe" die gewünschte genomische Assemblierung aus und klicken Sie auf die Schaltfläche "Senden".
Sobald der Browser eine Liste der Bereiche in der neuen Assembly mit Ähnlichkeit zurückgibt. Klicken Sie auf den Link zur Chromosomenposition, um zur homologen Region von Interesse zu navigieren. Befolgen Sie die zuvor beschriebenen Navigationsstrategien, um die Sequenz zu analysieren.
Um zur Genbeschreibungsseite zu navigieren, klicken Sie auf das Gen of Interest in der Gen-Code-Spur im UCSC-Genom-Browser. Klicken Sie unter der Überschrift Sequenz und Links zu Werkzeugen und Datenbanken auf den Link in der Tabelle, der andere Arten schneller liest. Klicken Sie auf die Kästchen, die mit den interessierenden Arten verknüpft sind, um sie auszuwählen.
Klicken Sie dann auf Senden. Kopieren Sie die Sequenzen, die unten auf der Seite angezeigt werden, und fügen Sie sie schneller formatiert in ein Textverarbeitungsdokument ein. Öffnen Sie als Nächstes ein zweites Browserfenster und navigieren Sie zum clustal omega multiple sequence alignment-Tool auf der Website des European Bioinformatics Institute.
Fügen Sie die Sequenzdateien in der Zwischenablage in das Feld im ersten Schritt ein, in dem Sequenzen in einem beliebigen unterstützten Format gelesen werden. Scrollen Sie zum Ende der Seite und klicken Sie auf Senden. Beachten Sie unten die ausgerichteten Ergebnisse für Symbole, die den Erhaltungsgrad jeder Aminosäure angeben.
Um die Eigenschaften und die Farbe der Aminosäuren anzuzeigen, klicken Sie auf den Link Farben anzeigen direkt über den Sequenzen, um die Aminosäuren nach ihren Eigenschaften zu färben. Kopieren Sie dann die Sequenzausrichtung und fügen Sie sie in ein Textverarbeitungs- oder Diashowprogramm ein, um eine Abbildungs- oder Illustrationsdatei zu generieren. Um andere Ausgaben von der clustal omega Ergebnisseite anzuzeigen, klicken Sie auf die Registerkarten Guide Tree oder Phylo Genetic Tree.
Klicken Sie abschließend auf die Registerkarte des Ergebnis-Viewers, um Optionen zum Anzeigen der Sequenzinformationen mit jalview anzuzeigen oder auf direkte Links zu mview und einfacher Phylogenie zuzugreifen. Eine repräsentative PhyloCSF-Analyse des Mitoregulin-Gens zeigt eine Region hoher Sequenzerhaltung, die einem validierten Mikroprotein entspricht. Die komplette Mitoregulin-Codierungssequenz ist in Exon eins enthalten und punktet sehr gut auf dem phyloCSF minus einer Spur.
Ein konservierter Start-Codon kann am Anfang der positiv bewerteten Region im phyloCSF minus einer Spur beobachtet werden. Die positiv bewertete Region im ersten Exon von Mitoregulin beginnt direkt über einem Start-Codon und endet am Stopp-Codon. Hier wird die Mehrfachsequenzausrichtung des Mikroproteins Mitoregulin für acht verschiedene Spezies gezeigt.
Die Analyse der langen nicht-kodierenden RNA-Heißluft zeigte einen negativen Score über das gesamte Gen über alle sechs Spuren hinweg, was auf einen Mangel an Sequenzerhaltung hinweist und unterstützt, dass heiße Luft korrekt als nicht-kodierende RNA annotiert ist. Die PhyloCSF-Analyse des Maus-Gene eins, acht, eins, null, null, fünf, acht, I 24 zeigte, dass ein konservierter offener Leserahmen drei Exons umfasst und der positive PhyloCSF-Score von der Plus-Zwei-Spur im Exon eins zur Plus-Drei-Spur im Exon zwei und dann zurück zur Plus-Zwei-Spur im Exon drei springt. Die PhyloCSF-Analyse des Meet-One-Genlocus wurde auch effektiv verwendet, um mehrere verschiedene kodierende offene Leserahmen innerhalb eines einzelnen RNA-Moleküls zu identifizieren.
Es ist wichtig zu beachten, dass, während ein positiver PhyloCSF-Score stark auf die Mikroproteinkodierungskapazität hinweist, diese Beweislinie nicht allein stehen kann und experimentell validiert werden muss. Sobald eine Periode von Mikroprotein identifiziert wurde, kann die Aminosäuresequenz auf konservierte Domänen oder Sequenzeigenschaften analysiert werden, um einen Einblick in ihre Funktion zu geben. PhyloCSF wurde effektiv eingesetzt, um neuartige Mikroproteine in genomischen Regionen zu identifizieren, von denen bisher angenommen wurde, dass sie nicht kodierend sind, und wird auch in zukünftigen Mikroprotein-Identifizierungsstudien ein hilfreiches Werkzeug sein.