Le protocole décrit ici fournit des instructions détaillées sur l’analyse des régions génomiques d’intérêt pour le potentiel de codage des protéines à l’aide de phyloCSF sur le navigateur de génome CONVIVIAL UCSC. PhloCSF peut identifier efficacement les cadres de lecture ouverts courts conservés avec un potentiel de codage de microprotéiques dans les régions génomiques qui sont actuellement annotées comme non codantes. Les méthodes décrites ici sont faciles à utiliser et peuvent être mises en œuvre par des chercheurs de tous horizons sans formation préalable ni expertise en bioiformatique ou en génomique comparative.
Pour commencer, ouvrez une fenêtre de navigateur Internet et accédez au navigateur du génome de l’Université de Californie à Santa Cruz ou de l’UCSC. Sous l’en-tête de nos outils, sélectionnez l’option Hubs de piste. Dans l’onglet Hubs publics, tapez phyloCSF dans la zone des termes de recherche.
Ensuite, cliquez sur le bouton Rechercher des hubs publics. Connectez-vous à phyloCSF en cliquant sur le bouton de connexion pour le nom du hub phyloCSF. Après avoir cliqué sur se connecter, attendez de rediriger vers la page de passerelle du navigateur de génome UCSC.
Pour interroger une autre espèce, sélectionnez l’espèce d’intérêt sous l’en-tête Parcourir ou sélectionner une espèce en cliquant sur l’icône appropriée, ou tapez l’espèce dans la zone de texte qui dit, entrez le nom commun de l’espèce ou l’ID de l’assemblée.À l’aide du menu déroulant, choisissez l’assemblage pour effectuer une recherche sous l’en-tête de position définie, puis entrez le symbole du gène de position ou les termes de recherche dans la zone de position ou de terme de recherche et cliquez sur aller pour naviguer à un gène d’intérêt sur le navigateur du génome. Si la recherche a abouti à plusieurs correspondances, attendez d’être redirigé vers une page qui nécessite la sélection d’une position d’intérêt, cliquez sur le gène d’intérêt approprié. Après avoir navigué vers le navigateur de génome UCSC, sélectionnez l’outil d’alignement en forme de souffle ou blat sous l’en-tête de nos outils pour interroger une séquence d’ADN ou de protéine spécifique.
Vous pouvez également placer le curseur sur l’onglet Outils et sélectionner l’option blat ou suivre le lien donné. À l’aide du menu déroulant, sélectionnez l’espèce, le génome et l’assemblage qui vous intéressent. Ensuite, définissez le type de requête, collez la séquence d’intérêt dans la zone de texte du génome de recherche blat et cliquez sur Envoyer.
Ensuite, cliquez sur le lien du navigateur sous l’en-tête des actions pour accéder à la région génomique d’intérêt. Scannez visuellement la zone d’intérêt génomique pour obtenir une notation positive des régions phyloCSF. Utilisez la fonction de zoom pour agrandir les régions d’intérêt afin d’examiner les caractéristiques de séquence et de rechercher les codons de départ et d’arrêt.
Pour effectuer un zoom avant manuellement, maintenez la touche Maj enfoncée et maintenez le bouton de la souris enfoncé tout en faisant glisser le long de la région d’intérêt. Vous pouvez également utiliser les boutons de zoom avant et de zoom arrière en haut de la page pour naviguer. Effectuez un zoom avant jusqu’à ce que le nucléotide ou la séquence de base soit visible.
Scannez visuellement la séquence de marée nucléaire près du début et de la fin des régions phyloCSF à score positif pour identifier les codons de départ et d’arrêt punitifs. Placez le curseur de la souris sur le titre de la vue en haut de la page et cliquez sur l’option de conversion dans d’autres génomes, puis définissez le génome d’intérêt à l’aide du menu déroulant sous le nouveau titre du génome. Sélectionnez l’assemblage génomique qui vous intéresse sous le nouvel en-tête de l’assemblage et cliquez sur le bouton Soumettre.
Une fois que le navigateur renvoie une liste de régions dans le nouvel assembly avec similitude. Cliquez sur le lien de position du chromosome pour accéder à la région homologue d’intérêt. Suivez les stratégies de navigation décrites précédemment pour analyser la séquence.
Pour accéder à la page de description du gène, cliquez sur le gène d’intérêt dans la piste de code de génération sur le navigateur du génome UCSC. Sous l’en-tête séquence et liens vers les outils et les bases de données, cliquez sur le lien dans le tableau qui lit plus rapidement les autres espèces. Cliquez sur les cases associées aux espèces d’intérêt pour les sélectionner.
Ensuite, cliquez sur soumettre. Copiez et collez les séquences apparaissant en bas de la page dans un format plus rapide dans un document de traitement de texte. Ensuite, ouvrez une deuxième fenêtre de navigateur et accédez à l’outil d’alignement de séquences multiples oméga clustal sur le site Web de l’Institut européen de bioinformatique.
Collez les fichiers de séquence dans le Presse-papiers dans la zone de la première étape qui lit les séquences dans n’importe quel format pris en charge. Faites défiler jusqu’au bas de la page et cliquez sur soumettre. Observez ci-dessous les résultats alignés pour les symboles qui indiquent le degré de conservation de chaque acide aminé.
Pour voir les propriétés des acides aminés et la couleur, cliquez sur le lien Afficher les couleurs directement au-dessus des séquences pour colorer les acides aminés en fonction de leurs propriétés. Ensuite, copiez et collez l’alignement de séquence dans un programme de traitement de texte ou de diaporama pour générer un fichier de figure ou d’illustration. Pour afficher d’autres résultats de la page de résultats de l’oméga clustal, cliquez sur l’arbre guide des onglets ou l’arbre génétique phylo.
Enfin, cliquez sur l’onglet de la visionneuse de résultats pour obtenir des options permettant d’afficher les informations de séquence à l’aide de jalview ou d’accéder à des liens directs vers mview et une phylogénie simple. Une analyse phyloCSF représentative du gène de la mitoréguline indique une région de conservation de séquence élevée correspondant à une microprotéique validée. La séquence complète de codage de la mitoréguline est contenue dans l’exon un et obtient des scores très élevés sur le phyloCSF moins une piste.
Un codon de départ conservé peut être observé au début de la région de notation positive dans le phyloCSF moins une piste. La région de notation positive dans le premier exon de la mitoreguline commence directement sur un codon de départ et se termine au codon d’arrêt. L’alignement des séquences multiples de la microtéine mitoréguline pour huit espèces différentes est montré ici.
L’analyse de l’air chaud à long ARN non codant a montré un score négatif dans l’ensemble du gène sur les six pistes, indiquant un manque de conservation de la séquence et soutenant que l’air chaud est correctement annoté en tant qu’ARN non codant. L’analyse PhyloCSF du gène rike 24 de souris un, huit, un, zéro, zéro, cinq, huit, I a montré qu’un cadre de lecture ouvert conservé couvre trois exons et que le score phyloCSF positif passe de la piste plus deux dans l’exon un à la piste plus trois dans l’exon deux, puis revient à la piste plus deux dans l’exon trois. L’analyse PhyloCSF du locus du gène Meet One a également été utilisée efficacement pour identifier plusieurs cadres de lecture ouverts codants distincts dans une seule molécule d’ARN.
Il est important de noter que, bien qu’un score phyloCSF positif soit fortement évocateur de la capacité de codage des microprotéiques, cette ligne de preuve ne peut pas être isolée et doit être validée expérimentalement. Une fois qu’une période de microprotéique a été identifiée, la séquence d’acides aminés peut être analysée pour les domaines conservés ou les caractéristiques de la séquence afin de fournir un aperçu de sa fonction. PhyloCSF a été utilisé efficacement pour identifier de nouvelles microprotéines dans des régions génomiques que l’on pensait auparavant non codantes et continuera d’être un outil utile dans les futures études d’identification des microprotéiques.