Method Article
Un protocole pour l'étude en ligne des relations protéines-structure-structure dynamique utilisant Bio3D-web est présenté.
Nous démontrons l'utilisation de Bio3D-web pour l'analyse interactive des données de la structure biomoléculaire. L'application Bio3D-web fournit une fonctionnalité en ligne pour: (1) L'identification des ensembles de structures de protéines connexes aux seuils de similarité spécifiés par l'utilisateur; (2) L'alignement multiple et la superposition de structure; (3) Analyse de conservation de séquences et de structures; (4) Mapping relation interconforme avec l'analyse des composantes principales, et (5) comparaison de la dynamique interne prédite par l'analyse du mode normal d'ensemble. Cette fonctionnalité intégrée fournit un flux de travail en ligne complet pour étudier les relations structure-structure-dynamique dans les familles de protéines et les superfamillies.
La banque de données sur les protéines (PDB) contient maintenant plus de 120 000 structures protéiques - dont beaucoup sont de même famille de protéines mais résolus dans différentes conditions expérimentales. Ces structures multiples représentent une ressource précieuse pour comprendre les subtilités de la forme et de la fonction des protéines. Par exemple, la comparaison rigoureuse de ces ensembles de structures peut révéler des mécanismes moléculaires importants 1 , 2 , 3 et informer sur la dynamique conformationnelle impliquée dans des processus comprenant la liaison du ligand, la catalyse enzymatique et la reconnaissance bi-moléculaire 4 , 5 , 6 , 7 . De nouvelles idées peuvent être obtenues à partir de l'analyse détaillée à grande échelle de la séquence, de la structure et de la dynamique des familles de protéines. Cependant, cela nécessite généralement une bioinfection considérableL'expertise ormatique et informatique ainsi que la familiarité avec les systèmes protéiques étudiés. Par exemple, les logiciels tels que Bio3D, ProDy et Maven nécessitent une programmation dans R, Python et Matlab, respectivement 8 , 9 , 10 . À l'inverse, les outils en ligne d'analyse de la flexibilité structurelle sont généralement limités à l'étude des structures individuelles 11 , 12 . Une exception à cet égard est le serveur WebNM @ récemment développé, qui permet de comparer les modèles de flexibilité obtenus à partir de l'analyse en mode normal (NMA) de plusieurs structures précisées par les utilisateurs 13 . Cependant, ce serveur manque d'une procédure automatisée pour l'identification de structures à des fins de comparaison, leur alignement ou une analyse ultérieure au-delà de NMA. Une autre contribution récente est la base de données PDBFlex en ligne, qui présente pré-cAnalyse omputative des structures PDB partageant une identité de séquence de 95% ou plus 14 . Cependant, l'analyse des ensembles de structures plus divers n'est actuellement pas disponible.
Nous avons précédemment présenté Bio3D-web: une application Web facile à utiliser pour l'analyse de la relation protéine-structure-structure-dynamique 15 . Bio3D-web est unique en fournissant une fonctionnalité intégrée facile à utiliser pour l'identification, la comparaison et l'analyse détaillée des grands ensembles de structures homologues en ligne. Nous présentons ici un protocole détaillé pour l'étude en ligne de la relation protéine-structure-structure dynamique à l'aide de Bio3D-web. Bio3D-web offre une variété de fonctions pour supporter les cinq grandes étapes de l'analyse des données présentées à la figure 1 et discutées en détail ci-dessous. Ces étapes constituent un flux de travail qui s'étend de la séquence de requête ou de l'entrée de la structure, à travers plusieurs niveaux d'analyse séquentielle-structure-dynamique, au résuméEt génération de rapport. Les résultats sont disponibles immédiatement grâce à de vastes fonctionnalités de visualisation et de traçage dans le navigateur, ainsi que par le téléchargement de fichiers de résultats dans les formats couramment utilisés. En plus d'une interface dynamique pratique et facile à utiliser pour explorer les effets des choix de paramètres et de méthodes, Bio3D-web enregistre également l'entrée complète de l'utilisateur et les résultats graphiques ultérieurs de la session d'un utilisateur comme un rapport reproductible pouvant être reproduit dans les formats PDF, DOC et HTML. Les sessions utilisateur peuvent être sauvegardées et rechargées à l'avenir et compléter les résultats téléchargés et interprétés par le paquet Bio3D R sur la machine locale d'un utilisateur.
Bio3D-web est alimenté par le paquet Bio3D R pour l'analyse de la structure biomoléculaire, des séquences et des données de simulation moléculaire 8 , 16 . En particulier, les algorithmes Bio3D pour l'identification du noyau rigide 8 , superposition, analyse de composante principale(PCA) 8 et l'analyse de mode normal d'ensemble (eNMA) 16 forment la base de l'application. Nous utilisons également des protocoles Bio3D qui dépendent de pHMMER 17 pour l'identification des structures protéiques apparentées et du MUSCLE 18 pour l'alignement des séquences multiples. Les annotations de structure et de séquence sont dérivées via les utilitaires Bio3D à partir des bases de données RCSB PDB 19 et PFAM 20 . Bio3D-web peut être exécuté à partir de notre serveur en ligne ou installé localement sur n'importe quel ordinateur exécutant R. Bio3D-web est ouvert à tous les utilisateurs et est fourni gratuitement sous une licence open-source GPL-3 à partir de: http: // thegrantlab. Org / bio3d / webapps
REMARQUE: Une session Bio3D-web typique passe à travers cinq étapes consécutives et dépendantes (voir la figure 1 pour une représentation schématique). Chaque étape est implémentée sous la forme d'un onglet de navigation consécutif de l'application Web, à savoir RECHERCHE, ALIGN, FIT, PCA et eNMA.
1. Recherche et sélection de structure (RECHERCHE)
2. Analyse d'alignement de séquences multiples (ALIGN)
3. Structure Fitting et Analyse (FIT)
4. Analyse des composantes principales (PCA)
5. Ensemble Normal Mode Analysis (eNMA)
L'adénylate kinase (Adk) est une enzyme omniprésente qui fonctionne pour maintenir l'équilibre entre les nucléotides cytoplasmiques essentiels à de nombreux processus cellulaires. Adk opère en catalysant le transfert réversible d'un groupe phosphoryle de l'ATP à l'AMP. Cette réaction s'accompagne de transitions conformationnelles 3 , 21 . Nous analysons ici toutes les structures Adk actuellement disponibles avec Bio3D-web pour révéler les caractéristiques détaillées et les principes mécanistes de ces transitions essentielles.
Nous pouvons commencer notre analyse Bio3D-Web d'Adk en entrant le code RCSB PDB de toute structure Adk connue. Par exemple, l'entrée de PDB ID 1AKE dans le panneau A de l'onglet SEARCH renvoie 167 structures similaires à partir desquelles les top 26 sont automatiquement sélectionnés pour une analyse plus approfondie (voir le panneau B). L'annotation présenteEd dans le panneau C indique que ces structures sélectionnées sont toutes provenant de E. coli, ont été résolus par diffraction des rayons X dans une gamme de groupes spatiaux; Ont une plage de résolution de 1,63 à 2,8 Å, et ont été co-cristallisés avec une gamme de ligands différents (y compris sans ligands, AMP, ADP, MG et l'inhibiteur AP5). Notez que les détails d'annotation supplémentaires peuvent être affichés en cliquant sur l'option "Afficher / Masquer les colonnes" dans le panneau C.
L'alignement de plusieurs séquences est effectué lors de l'entrée de l'onglet ALIGN. Le premier panneau de l'onglet ALIGN affiche un résumé de l'alignement fournissant des détails sur le nombre de lignes de séquence (équivalent au nombre de structures PDB), ainsi que le nombre de positions ( c.- à-d. Colonnes d'alignement). Ceci inclut une spécification du nombre d'espaces et de colonnes contenant des espaces non cumulables. La figure du côté droit de la première rangée fournit une représentation schématique de l'alignement des séquences. Ici thLes zones grises représentent des positions sans espace, tandis que les zones blanches dans l'alignement correspondent à des espaces. Une représentation de la conservation de la séquence est indiquée au-dessus de l'alignement avec des zones rouges indiquant des positions bien conservées et un blanc indiquant moins conservé. Notez que les séquences de cette figure sont commandées en fonction de leur similitude fournie par le dendrogramme de cluster sur le côté gauche. Le deuxième panneau de cet onglet facilite en outre le regroupement des PDB sélectionnés en fonction de leur similitude de séquence en paire, qui peut être visualisé sous forme de dendrogramme ou d'une carte de chaleur. Par défaut, un dendrogramme (ou diagramme d'arbre) représentant l'agencement des clusters est affiché. L'axe y du dendrogramme représente la distance (en termes d'identité de séquence) entre les grappes.
La superposition de structure est effectuée automatiquement lors de l'entrée dans l'onglet FIT. Les structures superposées, affichées de manière interactive dans le panneau A, indicaLa présence d'une région de noyau relativement rigide (englobant les résidus 1-29, 68-117 et 161-214, voir le panneau "éléments de base optionnels et RMSD" au bas de l'onglet FIT pour plus de détails). Deux autres régions de liaison nucléotidiques variables (résidus 30-67 et 118-167) sont également clairement visibles ( figure 2 ). Le regroupement basé sur RMSD regroupe ces structures en deux conformations distinctes.
Le fait de cliquer sur l'onglet PCA montre plus clairement la relation entre les structures en ce qui concerne les déplacements de ces régions qui ferment effectivement les espèces nucléotidiques liées dans les structures apparentées ( figure 2B et 2C ). La majorité des structures sont en forme "fermée" (bleu dans la figure 2C ) et sont associées à un ligand ou à un inhibiteur lié. En revanche, les conformations plus «ouvertes» sont nucléotidiques et sans inhibiteurs. Ceci est conforme àLe vaste ensemble de recherches sur la structure et la dynamique d'Adk indiquant qu'une configuration ouverte de ces régions est nécessaire pour la liaison des nucléotides et une conformation fermée pour un transfert efficace de phosphoryle et une suppression des événements d'hydrolyse néfastes. Il est remarquable qu'un PC unique capture 97% du déplacement carré moyen total dans cet ensemble de structures Adk et fournit une description claire et convaincante de la transition ouverte à fermée avec les contributions de résidu individuelles à ce déplacement fonctionnel (panneau C de l'application Et la figure 2 ).
En visitant l'onglet NMA et en augmentant le nombre de structures considérées pour le calcul (par diminution du seuil de filtrage des structures similaires), les structures d'état ouvert affichent une dynamique locale et globale améliorée par rapport aux structures de forme fermées ( Figure 2D et panneau C de l'application) . Comparaison des résultats PCA et NMA pourLes structures individuelles (panneau D) indiquent que le premier mode de toutes les structures ouvertes affiche un chevauchement relativement élevé sur PC1 (avec une valeur moyenne de 0,37 ± 0,04). En revanche, les structures de forme fermée affichent des valeurs inférieures (avec une moyenne de 0,30 ± 0,01). Les valeurs de RMSIP pour les structures ouvertes (0,62 ± 0,003) sont également supérieures à celles des structures fermées (0,56 ± 0,008). En outre, l'analyse de chevauchement montre que les premiers modes de l'état ouvert sont en accord avec le changement conformationnel qui décrit la différence des états ouvert et fermé (panneau E). Le regroupement basé sur les valeurs RMSIP affiche encore un partitionnement cohérent des structures d'état ouvertes et fermées (panneau F).
Collectivement, ces résultats indiquent l'existence de deux états conformationnels distincts majeurs pour Adk. Ceux-ci diffèrent par un déplacement collectif de basse fréquence de deux régions de site de liaison aux nucléotides qui présentent une flexibie distincteSur la liaison nucléotidique.
Figure 1: Aperçu de Bio3D-web avec des captures d'écran des onglets PCA et NMA. Bio3D-web prend une structure ou une séquence protéique fournie par l'utilisateur comme entrée dans l'onglet RECHERCHE ( 1 ). Le serveur fournit une liste de structures apparentées, qui peuvent être sélectionnées pour une analyse plus approfondie. ( 2 ) L'onglet ALIGN fournit l'alignement des séquences et l'analyse des structures sélectionnées dans l'onglet RECHERCHE. ( 3 ) Dans l'onglet FIT, toutes les structures sont superposées et visualisées en 3D avec les résultats de l'analyse classique de la structure en paire. ( 4 ) L'analyse des composants principaux de l'ensemble de structure est effectuée dans l'onglet PCA pour caractériser les relations interconformité. ( 5 ) L'analyse du mode normal sur chaque structure peut être effectuée dans l'onglet eNMAPour explorer les tendances dynamiques pour les états structurels disponibles. Cliquez ici pour voir une version plus grande de ce chiffre.
Figure 2: Résultats de l'analyse bio3D-web de l'adénylate kinase. ( A ) Les structures PDB disponibles de l'adénylate kinase superposées au noyau invariant identifié. Les structures sont colorées en fonction du clustering basé sur RMSD fourni dans l'onglet FIT. ( B ) La visualisation des principaux composants est disponible à partir de l'onglet PCA pour caractériser les principales variations conformationnelles dans le jeu de données. Ici, la trajectoire correspondant au premier composant principal est représentée dans la représentation tubulaire montrant le mouvement de fermeture à grande échelle de la protéine. ( C ) Les structures sont prOnt été jetés sur leurs deux premiers composants principaux dans un graphique conforme qui représente une représentation à faible dimension de la variabilité conformationnelle. Chaque point (ou structure) est coloré selon les critères spécifiés par l'utilisateur, dans ce cas, les résultats de clustering PCA. ( D ) L'analyse de mode normal dans l'onglet eNMA suggère une dynamique locale et globale améliorée pour les structures à l'état ouvert (rouge) par rapport aux structures de forme fermée (bleu). Cliquez ici pour voir une version plus grande de ce chiffre.
Bio3D-web peut être utilisé pour explorer et cartographier de manière interactive les états structurels, dynamiques et fonctionnels des protéines à partir des structures cristallographiques disponibles. En outre, les résultats de clustering basés sur NMA et PCA, ainsi que les annotations et l'analyse basée sur la séquence, peuvent être particulièrement utiles pour sélectionner des structures représentatives pour une analyse plus longue, comme des simulations d'ensemble de petites molécules ou des dynamiques moléculaires. Bio3D-web facilite ainsi une analyse de la bioinformatique structurale avancée pour une plus large gamme de chercheurs en réduisant le niveau d'expertise technique requis. La conception actuelle de Bio3D-web met l'accent sur la simplicité au sujet de l'inclusion exhaustive des nombreuses méthodes d'analyse disponibles dans le package bio3D autonome complet. Dans de nombreux cas, il est envisagé que les chercheurs utilisent Bio3D-web pour comprendre les tendances générales de leur famille de protéines ou de leur superfamille d'intérêt, ce qui pourrait ensuite éclairer des analyses plus spécialisées. Bio3D-web est leConçu pour explorer rapidement les ensembles de données de structure biomoléculaire et servir d'outil générateur d'hypothèses. Nous encourageons les utilisateurs à explorer davantage leurs données en fournissant un exemple de code Bio3D dans le rapport reproductible qui stocke également tous les détails de la requête et les résultats de l'analyse.
Dans le protocole d'exemple représentatif ci-dessus, nous montrons la capacité de Bio3D-web à révéler les caractéristiques structurelles des transitions conformationnelles fonctionnelles d'Adk. Les applications supplémentaires de Bio3D-web incluent une analyse structurelle et dynamique des structures PDB chargées par l'utilisateur. Par exemple, l'utilisateur peut télécharger de nouvelles structures ou même des séquences de protéines pour l'analyse. Les étapes d'analyse mentionnées plus tôt, en particulier l'étape de l'eNMA, peuvent révéler les tendances locales et mondiales dans les mouvements de protéines, les mouvements collectifs ayant une signification fonctionnelle. La comparaison avec les structures apo peut également révéler des caractéristiques des transitions conformationnelles non liées aux contraintes. Des exemples supplémentaires d'application àUne gamme de familles de protéines différentes sont fournies en ligne.
Bien que toutes les protéines soient des entités flexibles et dynamiques, toutes les protéines ne possèdent pas de structures de résolution atomique disponibles dans une gamme d'états différents ( p. Ex. États actifs et inactifs). Notre vision de l'espace structure protéique est donc limitée et, par conséquent, l'information obtenue à partir d'outils tels que Bio3D-web est nécessairement également limitée pour certaines protéines. Cependant, avec les progrès technologiques actuels et les nouvelles initiatives pour la génomique structurelle, le protocole présenté ici deviendra de plus en plus un chemin important pour mieux comprendre les relations structure-fonction importantes. Une étape critique, particulièrement importante lors de l'analyse de protéines plus éloignées, est l'apparition potentielle d'erreurs d'alignement dans l'onglet ALIGN. Les erreurs d'alignement se produiront inévitablement lorsque la similitude des séquences baisse en dessous de 30% et que l'utilisateur doit, dans de tels cas, vérifier et corriger l'alignement des séquencesDans l'onglet ALIGN. Les erreurs d'alignement entraîneront éventuellement des structures superposées incorrectes dans l'onglet FIT et masqueront les variations de conformation les plus pertinentes pour la PCA suivante. En outre, l'utilisateur doit être conscient des résidus manquants dans les structures de PDB sélectionnées, comme dans la mise en œuvre actuelle, PCA ne peut être effectué que sur des résidus de protéines dans lesquels toutes les structures ont leur atome alpha de carbone correspondant. Par conséquent, si une PDB sélectionnée a des résidus non résolus pour une région particulière de la protéine, cette région sera omise de PCA.
Bio3D-web est actuellement limité à l'analyse des structures PDB à chaîne unique. Par conséquent, les mouvements fonctionnels se produisant au niveau quaternaire ne peuvent pas être explorés en utilisant le protocole actuel. Bien que nous développions actuellement de nouveaux algorithmes pour inclure une telle analyse dans Bio3D-web, la seule option actuelle est l'utilisation conventionnelle de Bio3D.
Bio3D-web est la seule application en lignePermettant d'interroger et d'identifier des ensembles de structures, d'interpréter leurs schémas de séquence et de leur variabilité structurelle, et d'extraire des informations mécanistes à la fois de l'analyse et de la prédiction de leur plasticité structurale. Une large gamme d'outils de visualisation moléculaire et de serveurs en ligne permettent aux chercheurs d'explorer et d'analyser des structures biomoleculaires individuelles. Cependant, les outils existants pour l'analyse de la séquence, de la structure et de la dynamique des grandes familles de protéines hétérogènes nécessitent souvent une expertise informatique importante et restent généralement accessibles uniquement aux utilisateurs possédant des compétences de programmation pertinentes. Par exemple, le paquet Bio3D nécessite R 8 , ProDy nécessite python et Maven requiert le savoir Matlab 9 , 10 . Bio3D-web en revanche ne nécessite pas de connaissances de programmation et augmente ainsi l'accessibilité et diminue la barrière d'entrée pour effectuer une séquence comparative avancée, la structure et dyAnalyse de la namique. En outre, la préparation, la conservation, l'annotation et le nettoyage des structures moléculaires souvent nécessaires à une analyse efficace sont inclus dans le service Web Bio3D. De plus, la restriction à l'exécution d'une telle analyse sur des ressources informatiques capables est atténuée par notre instance de serveur qui permet une analyse à grande échelle de nombreuses structures pouvant être initiées et contrôlées à partir de n'importe quel navigateur Web moderne.
Le développement ouvert de Bio3D-web est en cours (voir https://bitbucket.org/Grantlab/bio3d). Nous continuons d'ajouter de nouvelles fonctionnalités d'analyse et d'améliorer les méthodes existantes. Le développement futur se concentrera sur l'ajout de PCA basée sur la matrice de distance et de PCA torsionnelle, des approches de conservation de séquences plus étendues qui incluent un composant phylogénétique, une identification du site de liaison d'ensemble et de nouvelles approches pour l'analyse de réseau dynamique dans les familles de protéines. À cet égard, l'application Web actuelle représente le point de départT pour de nombreux autres workflows d'analyse de la bioinformatique structurale collaborative en permettant des étapes reproductibles et partageables sur des ensembles de structures expérimentales définis par l'utilisateur. Nous prévoyons également le soutien futur des ensembles de coordonnées des unités biologiques reconstruites en plus des chaînes individuelles et multiples de l'unité asymétrique des structures PDB. Les fonctionnalités supplémentaires incluent une sauvegarde et un chargement améliorés des espaces de travail collaboratifs avec une possibilité d'annulation.
Bio3D-web est une application en ligne pour une analyse interactive des données de structure biomoléculaire. Bio3D-web fonctionne sur n'importe quel navigateur Web moderne et fournit des fonctionnalités pour: (1) L'identification des ensembles de structures de protéines connexes aux seuils de similarité spécifiés par l'utilisateur; (2) L'alignement multiple et la superposition de structure; (3) Analyse de conservation de séquences et de structures; (4) Cartographie relationnelle interconformité avec analyse de composante principale, et (5) comparaison de la dynamique interne prédite par l'ensemble niAnalyse de mode mal. Cette fonctionnalité intégrée fournit un flux de travail complet pour l'étude des relations structure-structure-dynamique au sein des familles de protéines et des superfamilles. En plus d'une interface dynamique pratique et facile à utiliser pour explorer les effets des choix de paramètres et de méthodes, Bio3D-web enregistre également l'entrée complète de l'utilisateur et les résultats graphiques ultérieurs de la session d'un utilisateur. Cela permet aux utilisateurs de partager et de reproduire facilement la séquence des étapes d'analyse qui ont créé leurs résultats. Bio3D-web est entièrement implémenté dans le langage R et repose sur les paquets Bio3D et Shiny R. Il peut être exécuté à partir de notre serveur en ligne ou installé localement sur n'importe quel ordinateur exécutant R. Cela inclut l'installation du serveur local pour fournir une instance multi-utilisateur personnalisée avec accès à des ensembles de données structurelles prioritaires tels que ceux communs dans l'industrie pharmaceutique. Le code source complet et la documentation complète sont fournis sous licence GPL-3 à partir de: http://thegrantlab.org/ Bio3d / webapps
Les auteurs déclarent qu'ils n'ont pas d'intérêts financiers concurrents.
Nous remercions le Dr Guido Scarabelli et Hongyang Li pour des tests approfondis tout au long du développement, ainsi que la communauté des utilisateurs Bio3D et les participants à l'atelier de bioinformatique structurale de l'Université de Bergen pour les commentaires et les commentaires qui ont amélioré cette application.
Name | Company | Catalog Number | Comments |
Bio3D-web | |||
Web-site | http://thegrantlab.org/bio3d-web/ | ||
Requirements | Web browser |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon