Method Article
Nous présentons un site Web public de calcul pour l'analyse des séquences génomiques. Il détecte les schémas de séquences d'ADN avec les diverses organisations non-aléatoire de nucléotides compositions. Cette ressource génère également des séquences aléatoires avec les divers niveaux de complexité.
Des régions non codantes génomique chez les eucaryotes complexes, y compris les zones intergéniques, les introns et d'exons non traduits segments, sont profondément non-aléatoire dans leur composition en nucléotides et se composent d'une mosaïque complexe de schémas séquence. Ces modèles comprennent ce qu'on appelle Mi-Range Inhomogénéité (IRM) des régions - 30-10000 séquences nucléotides de long qui sont enrichies par une base ou d'une combinaison de bases (par exemple (G + T)-riches, riches en purines, etc ). IRM régions sont associées à des structures d'ADN inhabituels (non-B-forme) qui sont souvent impliqués dans la régulation de l'expression génique, la recombinaison, et d'autres processus génétiques (Fedorova & Fedorov 2010). L'existence d'un biais de la fixation solide au sein des régions IRM contre les mutations qui ont tendance à réduire leur inhomogénéité séquence supporte en outre les fonctionnalités et l'importance de ces séquences génomiques (Prakash et al. 2009).
Ici nous démontrons une ressource Internet librement disponibles - l'ensemble des programmes génomiques IRM - (. Bechtel et al 2008) conçu pour l'analyse informatique de séquences génomiques afin de trouver et de caractériser les différents modèles d'IRM en leur sein. Ce package permet également la génération de séquences aléatoires avec des propriétés différentes et le niveau de correspondance avec les séquences d'ADN naturelles d'entrée. L'objectif principal de cette ressource est de faciliter l'examen de vastes régions des régions non codantes d'ADN qui sont encore peu étudiés et attendent d'exploration approfondie et de reconnaissance.
Tous les programmes utilisés dans le document ont été écrites en utilisant perl, et toutes les pages web ont été créés en utilisant PHP.
1. Point de départ:
Ouvrez la page d'accueil de l'ensemble du génome à l'IRM en ligne http://mco321125.meduohio.edu/ ~ jbechtel / GMRI /. La ressource Web fournit également des instructions / des explications sur les programmes dans le menu «Aide (How-to/README)" lien, tandis que tous les documents publiés sur la génomique des algorithmes IRM et similaires sont listés dans le "Liens vers des ressources pertinentes" lien.
2. Préparation et le chargement de la séquence d'entrée (s).
Créer un fichier avec FASTA format séquence (s) pour démarrer une session d'analyse GMRI. Chaque séquence nucléotidique dans ce format devrait être précédée par une seule ligne en commençant par le caractère ">" qui représente un identificateur, suivi sur la même ligne par une courte description de cette séquence. Les séquences nucléotidiques pour l'analyse GMRI permet aussi des personnages comme R, Y, N, X, etc Hwever, non-A, T, C, G caractères ne seront pas traitées par le programme et sera ignorée. Séquences dans lesquelles les éléments répétitifs ont été «masquée» (remplacé par "N" s) peut être utilisé comme entrée. Notez que les caractères de séquence sont insensibles à la casse.
REMARQUE: Désormais les séquences d'entrée sont désignés comme "userfile".
3. Obtenir une distribution de fréquence des oligonucléotides des séquences d'entrée (en option).
Cliquez sur "ISR Analyzer" onglet (rangée du haut) afin d'obtenir une distribution des fréquences d'oligonucléotides pour l'ensemble des séquences d'entrée. L'ISR est l'acronyme de courte portée non-homogénéité. À ce stade, l'utilisateur peut spécifier la longueur de plus d'oligonucléotides (de 2 à 9 nucléotides, par défaut 6 nuits) pour les fréquences qui seront calculés. Cette sélection se fait en cliquant sur l'option souhaitée dans la case "Taille maximale oligomère" liste. Appuyez ensuite sur la "analyser un fichier" bouton pour lancer le calcul. Une représentation grossière de la composition de la séquence d'entrée apparaît immédiatement comme une courte table au milieu de cette page web et téléchargeable comme «userfile.comp.tbl". Ce tableau ne représente que les oligonucléotides les plus et les moins abondantes dans les séquences d'entrée.
Le tableau de fréquence pour tous les oligonucléotides possible est généré dans un fichier nommé "userfile.comp", qui peut être obtenue via le "fichier de composition Télécharger" lien.
REMARQUE: SRI analyseur compte l'ensemble de tous les oligonucléotides qui se chevauchent.
4. Générer des séquences aléatoires ayant la même composition oligonucléotide comme dans les séquences d'entrée (en option).
(Achèvement de l'étape 3 du protocole est requis pour cette tâche).
5. Analyse de milieu de gamme Inhomogénéité (IRM) des entrées et des séquences aléatoires.
6. Programmes supplémentaires dans le paquet génomique IRM (en option).
Les ressources génomiques IRM a également deux options avancées pour la génération de très spécifique des séquences aléatoires. Ils sont disponibles à travers le «Générateur d'IRM» et «CDS générateur" onglets dans la rangée du haut.
7. Les résultats représentatifs
Ce protocole permet à un utilisateur d'étudier la composition inhomogénéité des séquences nucléotidiques. Surtout, il supporte aussi la génération d'une variété de séquences aléatoires avec une composition proche de celle d'oligonucléotides de séquences d'entrée. Habituellement, les séquences génomiques des eucaryotes complexes ne sont pas homogènes dans leur composition, mais représentent plutôt une mosaïque complexe de segments de séquences enrichies par les nucléotides particulier (par exemple, riches en purines, (G + T)-riche, (A + T)-riche, etc.) Ces modèles à mi-plage d'échelle (30-1000 pb) sont visualisés par la sortie graphique de l'analyseur d'IRM qui montre sélectionnés riches en contenu que les segments supérieurs des pointes bleues et le contenu des pauvres segments inférieurs des pointes rouges (voir les figures 1 et 2). Typiquement, le nombre des régions éventuellement riches en contenu et le contenu des pauvres dans une séquence naturelle (figure 1) est de l'ordre de fois plus élevé que le nombre des mêmes types de régions correspondantes séquences randomisées (figure 2) ayant le même oligonucléotide composition. Ces segments de séquence avec milieu de gamme inhomogénéité dans la composition des nucléotides peuvent être d'intérêt pour l'utilisateur. Ils sont disponibles à partir des fichiers de sortie génomique IRM pour complément d'enquête.
Figure 1. Un exemple de la sortie de l'analyseur graphique de l'IRM de l'étape 5.7. Les résultats ont été obtenus sur un échantillon de 44 introns humains. Barres bleues représentent les positions des régions riches en GC le long de ces introns. Les barres rouges représentent GC-pauvres (ou riches en AT) IRM régions. L'axe des y contient les seuils supérieurs et inférieurs pour le type de contenu donné.
Figure 2. IRM sortie de l'analyseur pour la séquence aléatoire "userfile.rand1_4".
Le GraphiReprésentation cal de l'IRM dans une séquence aléatoire généré en utilisant le programme générateur de l'ISR.
Figure 3. Un exemple du début d'un fichier de sortie textuelle de l'analyseur d'IRM.
Toutes les séquences riches en contenu et le contenu des pauvres détecté par le programme sont présentés dans la dernière (quatrième) de la colonne. Leur position relative, mesurée en nombre de fenêtres, sont présentés dans la première colonne. Les deuxième et troisième colonnes sont des indicateurs pour les régions riches en contenu et le contenu des pauvres, respectivement.
Les régions à composition nucléotidique inhomogène au milieu de gamme des échelles (30-1000 nucléotides) sont surabondants dans les génomes des eucaryotes complexes et peuvent être trouvés nulle part (régions intergéniques, les introns, des exons régions non traduites, les éléments répétitifs). Ces régions sont souvent associées à l'ADN conformations inhabituelles. Par exemple, les séquences purine-/pyrimidine-rich ont tendance à former des triplex ADN (H-ADN); séquences avec alternance de purine / pyrimidine bases sont associées à des ADN-Z conformations; (G + C)-régions riches présentent des anomalies structurelles dans le B- ADN et pourrait être sujette à un clivage colonne vertébrale; (A + T)-régions riches pourraient former une structure inhabituelle - un ADN dénouement élément; etc (revu par Fedorov et Fedorova 2010). Certains de ces modèles de milieu de gamme (par exemple (G + T)-régions riches) sont à peine étudiées et attendent toujours l'exploration approfondie et de reconnaissance. L'objectif principal de notre ressource Web génomique IRM est d'aider les utilisateurs dans l'identification de ces régions IRM pour leur analyse expérimentale plus loin et pour l'exploration de leurs fonctions possibles. La connaissance des régions IRM pourrait être incorporé dans et à améliorer la nouvelle génération de programmes prédicteur génétique (Shepard 2010) et de faire progresser notre compréhension des fonctions du génome et les propriétés.
Nous sommes reconnaissants à Samuel Shepard, Peter Bazeley, et John David Bell pour l'administration des pages web génomique IRM. Ce travail a été soutenu par la National Science Foundation récompense de carrière "Enquête sur les rôles cellulaires intron" [numéro de subvention MCB-0643542].
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon