Method Article
Wir präsentieren eine öffentliche Computational Website für die Analyse von genomischen Sequenzen. Es erkennt DNA-Sequenz-Muster mit verschiedenen nicht-zufällige Nukleotid Kompositionen. Diese Ressource erzeugt auch randomisierte Sequenzen mit verschiedenen Ebenen der Komplexität.
Nicht-codierende genomische Regionen in komplexen Eukaryonten, einschließlich intergenischen Bereichen, Introns und nicht übersetzte Segmente des Exons, sind zutiefst nicht-zufällige in ihrer Nukleotid-Zusammensetzung und bestehen aus einem komplexen Mosaik von Sequenz-Muster. Diese Muster sind so genannte Mid-Range Inhomogenität (MRI)-Regionen - Sequenzen 3-10 Nukleotiden Länge, die von einer bestimmten Basis oder eine Kombination von Basen angereichert sind (z. B. (G + T)-reiche, Purin-reiche, etc. ). MRI Regionen mit ungewöhnlichen (non-B-Form) DNA-Strukturen, die oft in der Regulation der Genexpression, Rekombination und andere genetische Prozesse (Fedorova & Fedorov 2010) beteiligt sind, verbunden. Die Existenz einer starken Fixierung Bias innerhalb MRI Regionen gegen Mutationen, die zur Verringerung ihrer Reihenfolge Inhomogenität unterstützt zusätzlich die Funktionalität und die Bedeutung dieser genomischen Sequenzen (Prakash et al. 2009) neigen.
Hier zeigen wir eine frei verfügbare Internet-Ressource - die Genomic MRI-Programm-Paket - (. Bechtel et al 2008) für computergestützte Analyse von genomischen Sequenzen entworfen, um zu finden und zu charakterisieren verschiedene MRT-Muster in ihnen. Dieses Paket erlaubt die Erzeugung von randomisierten Sequenzen mit verschiedenen Eigenschaften und das Niveau der Korrespondenz, die die natürliche Eingabe-DNA-Sequenzen. Das Hauptziel dieser Ressource ist, die Prüfung der weiten Gebieten der nicht-kodierenden DNA, die noch kaum erforscht und warten auf gründliche Erforschung und Anerkennung zu erleichtern.
Alle verwendeten Programme in das Papier geschrieben wurden, die Perl-, und alle Web-Seiten wurden erstellt mit Hilfe von PHP.
1. Ausgangspunkt:
Öffnen Sie die Startseite des Online-Genomic MRI-Paket an http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Die Web-Ressource enthält auch Anweisungen / Erläuterungen zu den Programmen in der "Hilfe (How-to/README)"-Link, während alle veröffentlichten Materialien auf Genomic MRI und ähnliche Algorithmen in der "Links zu relevanten Ressourcen" aufgeführt Link.
2. Vorbereitung und Hochladen von Eingabesequenz (s).
Erstellen Sie eine Datei mit FASTA-Format-Sequenz (en) zu einem GMRI Analyse-Sitzung zu starten. Jedes Nukleotid-Sequenz in diesem Format müssen mit einer einzigen Zeile, beginnend mit dem Zeichen ">", dass eine Kennung darstellt, auf der gleichen Linie durch eine kurze Beschreibung dieser Sequenz vorangestellt werden. Nukleotidsequenzen für GMRI Analyse erlaubt auch Zeichen wie R, Y, N, X, etc. Hwever, non-A, T, C, wird G-Zeichen vom Programm nicht verarbeitet werden und wird übersprungen. Sequenzen, in denen sich wiederholende Elemente wurden "maskiert" (ersetzt durch "N" s) als Eingang verwendet werden. Beachten Sie, dass Sequenz Zeichen Groß-und Kleinschreibung sind.
HINWEIS: Von nun an den Eingang Sequenzen werden als "userfile" bezeichnet.
3. Holen Sie sich ein Oligonukleotid Häufigkeitsverteilung der Eingabesequenzen (optional).
Klicken Sie auf das "SRI Analyzer"-Reiter (obere Reihe), um eine Verteilung von Oligonukleotid-Frequenzen für die gesamte Menge der Input-Sequenzen erhalten. Die Abkürzung SRI steht für die Kurzstrecken-Inhomogenität. An dieser Stelle kann der Benutzer angeben, die höchste Länge der Oligonukleotide (von 2 bis 9 Nukleotide, Standard 6 Nächte) für die Frequenzen berechnet werden. Diese Auswahl wird durch einen Klick auf die gewünschte Option im Rahmen des "Maximum Oligomer size" Listenfeld aus. Dann drücken Sie die "Analyze File"-Taste, um Rechenzeit zu initiieren. Eine grobe Darstellung der Input-Sequenz Zusammensetzung wird sofort als eine kurze Tabelle erscheinen in der Mitte dieser Web-Seite und zum Download als "userfile.comp.tbl". Diese Tabelle stellt nur die meisten und am wenigsten reichlich Oligonukleotide innerhalb des Eingangs-Sequenzen.
Die gesamte Frequenz-Tabelle für alle möglichen Oligonukleotiden als eine Datei namens "userfile.comp", die über den "Download Zusammensetzung file" Link erreicht werden kann erzeugt werden.
HINWEIS: SRI-Analysator zählt die gesamte Menge aller überlappenden Oligonukleotiden.
4. Generate Random-Sequenzen mit dem gleichen Oligonukleotid-Zusammensetzung wie in den Input-Sequenzen (optional).
(Abschluss von Schritt 3 des Protokolls ist für diese Aufgabe erforderlich).
5. Die Analyse der Mid-Range Inhomogenität (MRI) des Eingangs-und Zufalls-Sequenzen.
6. Zusätzliche Programme innerhalb der genomischen MRI-Paket (optional).
Das Genomic MRI Ressource hat auch zwei erweiterte Optionen für die Erzeugung von sehr spezifischen zufälligen Sequenzen. Sie sind durch das "MRI Generator" und "CDS Generator" Registerkarten in der oberen Reihe zur Verfügung.
7. Repräsentative Ergebnisse
Dieses Protokoll ermöglicht es einem Benutzer, kompositorische Inhomogenität der Nukleotid-Sequenzen zu untersuchen. Wichtig ist, es unterstützt auch die Erzeugung einer Vielzahl von randomisierten Sequenzen mit einem Oligonucleotid Zusammensetzung annähert, dass der Eingangs-Sequenzen. In der Regel werden genomischen Sequenzen von komplexen Eukaryonten nicht in der Zusammensetzung homogen, sondern bilden vielmehr ein komplexes Mosaik aus Sequenzabschnitte durch bestimmte Nukleotide angereichert (z. B. Purin-reiche, (G + T)-reiche, (A + T)-reiche, etc.). Diese Muster bei Mid-Range-Skala (3-10 bp) visualisiert werden durch die grafische Ausgabe des MRI-Analyzer, inhaltsreichen Segmente ausgewählt zeigt als obere blaue Spitzen-und Content-armer als untere rote Spitzen (siehe Abbildungen 1 und 2). Typischerweise ist die Anzahl der Inhalte-reich und content-armen Regionen in einer natürlichen Reihenfolge (Abbildung 1) in der Größenordnung von Mal höher als die Zahl der die gleichen Typen von Regionen in entsprechenden randomisierten Sequenzen (Abbildung 2) mit dem gleichen Oligonukleotid Zusammensetzung. Diese Sequenzabschnitte mit Mid-Range-Inhomogenität in Nukleotid-Zusammensetzung kann von Interesse für den Benutzer sein. Sie sind aus dem Genomic MRI Ausgabedateien für weitere Untersuchungen.
Abbildung 1. Ein Beispiel für die MRI-Analysator grafische Ausgabe von Schritt 5.7. Die Ergebnisse wurden anhand einer Stichprobe von 44 menschlichen Introns erhalten worden. Blaue Balken repräsentieren Positionen der GC-reichen Regionen entlang dieser Introns. Rote Balken repräsentieren GC-armen (oder AT-reiche) MRI Regionen. Die y-Achse enthält obere und untere Grenzwerte für die gegebene Art des Inhalts.
Abbildung 2. MRI-Analysator-Ausgang für den zufälligen Sequenz "userfile.rand1_4".
Die grafischecal Darstellung der MRI innerhalb einer zufällig generierten Sequenz mit dem SRI-Generator Programm.
Abbildung 3. Ein Beispiel für den Beginn einer Textausgabe Datei von MRI-Analysator.
Alle Content-reiche und die Inhalte der Armen-Sequenzen durch das Programm erkannt werden in der letzten (vierten) Spalte dargestellt. Ihre relativen Positionen, in die Anzahl der Fenster gemessen werden, sind in der ersten Spalte angezeigt. Die zweiten und dritten Spalte sind Indikatoren für Content-reiche und Content-armen Regionen bzw..
Regionen mit inhomogener Nukleotid-Zusammensetzung bei Mid-Range-Skalen (3-10 Nukleotide) sind überreich in den Genomen von komplexen Eukaryonten und kann überall gefunden werden (intergenischen Regionen, Introns, untranslatierten Regionen der Exons, repetitive Elemente). Diese Regionen sind häufig mit ungewöhnlichen DNA-Konformationen zugeordnet. Zum Beispiel neigen purine-/pyrimidine-rich Sequenzen DNA Triplexen (H-DNA) bilden; Sequenzen mit alternierenden Purin / Pyrimidin-Basen sind mit Z-DNA Konformation verbunden sind; (G + C)-reichen Regionen weisen strukturelle Anomalien in B- DNA und könnte anfällig für Backbone-Spaltung; (A + T)-reiche Regionen bilden könnte eine ungewöhnliche Struktur - eine DNA Abwickeln Element; etc. (Bewertung von Fedorov & Fedorova 2010). Einige dieser Mid-Range-Mustern (zB (G + T)-reiche Regionen) sind kaum untersucht und warten noch auf gründliche Erforschung und Anerkennung. Das Hauptziel unserer Genomic MRI Web-Ressource für Benutzer in der Identifizierung dieser MRI Regionen für ihre weitere experimentelle Analyse und für die Erforschung ihrer möglichen Funktionen helfen. Die Kenntnis der MRI Regionen könnten in einbezogen werden und zur Verbesserung der neuen Generation von Gen-Vorhersage-Programmen (Shepard 2010) und unser Verständnis des Genoms Funktionen und Eigenschaften.
Wir sind dankbar, dass Samuel Shepard, Peter Bazeley und John David Bell für die Verwaltung des Genomic MRI Web-Seiten. Diese Arbeit wurde vom National Science Foundation Career Award "Untersuchung der Introns zellulärer Funktionen" unterstützt [Grantnummer MCB-0643542].
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten