JoVE Logo

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

  • Résumé
  • Résumé
  • Introduction
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Analyse de signal-bruit au niveau d’acides aminés détermine la prévalence de la variation génétique à une position donnée d’acides aminés normalisée à variation génétique de fond d’une population donnée. Cela permet l’identification des variantes « hotspots » dans une séquence de protéines (signal) qui s’élève au-dessus de la fréquence des variants rares trouvées dans une population (bruit).

Résumé

Avancements dans le coût et la rapidité du séquençage génétique de prochaine génération ont généré une explosion de l’exome toute clinique et tests du génome entier. Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a augmenté considérablement le nombre d’ailleurs trouvé des variantes génétiques d’importance inconnue (VUS). C’est un défi majeur pour les scientifiques et les cliniciens de déterminer la signification clinique de ces variantes. Une approche pour aider à déterminer la probabilité de pathogénicité est analyse de signal-bruit au niveau de séquences de protéines. Ce protocole décrit une méthode pour l’analyse de signal-bruit au niveau d’acides aminés qui exploite une fréquence variant à chaque position d’acides aminés de la protéine avec topologie protéiques connus pour identifier les domaines de la séquence primaire avec une probabilité élevée de variations pathologiques (par rapport à la variation de la population de « fond »). Cette méthode peut identifier l’emplacement de résidus d’acides aminés « points chauds » du signal pathologique élevé, ce qui permet d’affiner le diagnostic poids de VUSs tels que ceux identifiés par dépistage génétique de prochaine génération.

Introduction

L’amélioration rapide des plateformes de séquençage génétique a révolutionné l’accessibilité et le rôle de la génétique en médecine. Une fois limité à un seul gène, ou une poignée de gènes, la réduction des coûts et augmentation de la vitesse de prochaine génération séquençage génétique a conduit le séquençage systématique de la totalité du génome de codage séquence (séquençage de l’exome entier, WES) et le génome entier () le séquençage du génome entier, WGS) en milieu clinique. WES et groupes de travail ont été utilisés fréquemment dans le cadre des nouveau-nés gravement malades et les enfants avec le souci de syndrome génétique où c’est un outil diagnostique qui peut changer la prise en charge clinique1,2. Alors que cela a conduit à l’identification accrue des mutations pathogènes susceptibles, associées à des syndromes génétiques, il a considérablement augmenté le nombre de variants génétiques trouvées ailleurs, ou des résultats positifs inattendus, de diagnostic inconnu signification (VUS). Tandis que certaines de ces variantes sont ignorées et non publiées, variantes, localisation de gènes associés à des maladies potentiellement mortelles ou très morbides sont souvent signalés. Lignes directrices actuelles recommandent déclaration des variantes accessoires trouvées dans les gènes spécifiques qui peuvent être d’utilité médicale du patient, y compris les gènes associés à l’apparition des maladies de prédisposant à la mort cardiaques soudaines comme les cardiomyopathies et Canalopathies3. Bien que cette recommandation a été conçue pour capturer des personnes présentant un risque d’une maladie prédisposant à la SCD, la sensibilité de détection variante dépasse de loin spécificité. Cela se reflète dans un nombre croissant de VUSs et par ailleurs identifié des variantes avec l’utilitaire de diagnostic difficile qui dépassent de loin la fréquence des maladies dans une population donnée4respectifs. Une telle maladie, le syndrome du QT long (SQTL), est un canonique canalopathie cardiaque causée par des mutations, localisation de gènes qui codent des canaux ioniques cardiaques ou canal interaction protéines, aboutissant à retard de repolarisation cardiaque5. Cette repolarisation retardée, vue par un intervalle prolongé de QT sur l’électrocardiogramme, de repos se traduit par une prédisposition électrique à des arythmies ventriculaires potentiellement mortelles telles que des torsades de pointes. Alors qu’un certain nombre de gènes ont été associé au développement de cette maladie, les mutations KCNQ1-j’ai codéKs potassium channel (KCNQ1, Kv7.1) est la cause du SQTL type 1 et est utilisé comme un exemple inférieur à6. Illustrant la complexité dans l’interprétation variant, la présence de variants rares dans les gènes associés à la SQTL, ce qu’on appelés « variation génétique de fond » a été décrite précédemment7,8.

En plus de bases de données grand recueil de style des variantes pathogènes connus, plusieurs stratégies existent pour prédire que les variantes différentes effet produira. Certains sont basés sur des algorithmes, tels que les EIPD et Polyphen 2, qui peut filtrer un grand nombre de nouvelles variantes non-synonyme de prédire prohibé9,10. Malgré une large utilisation de ces outils, faible spécificité limite leur applicabilité lorsqu’il s’agit de « vocation » clinique VUSs11. Analyse de « Signal sur bruit » est un outil qui identifie la probabilité d’une variante étant associée à la maladie basée sur la fréquence de la variation pathologique connue aux loci en question normalisée contre rare variation génétique d’une population. Variantes de localisation au locus génétiques où il y a une forte prévalence des mutations associées à la maladie par rapport à la variation sur la population, un signal sur bruit élevé, sont plus susceptibles d’être associés à la maladie eux-mêmes. En outre, rares variantes trouvées ailleurs localisation d’un gène ayant une fréquence élevée de variantes rares de population par rapport à la fréquence associés à la maladie, un faible signal-bruit, peut être moins susceptibles d’être associés à la maladie. L’utilitaire de diagnostic de l’analyse de signal-bruit a été illustré dans les dernières directives pour des tests génétiques pour les cardiomyopathies et Canalopathies ; Toutefois, il a seulement été utilisé au niveau du gène entier ou spécifiques à un domaine de niveau12. Récemment, étant donné la disponibilité accrue de variantes pathologiques (maladie bases de données, études de cohortes dans la littérature) et variantes de contrôle axée sur la population (Consortium d’agrégation de l’Exome, ExAC et les bases de données génomiques agrégation, GnomAD13), Ceci a été appliqué à la position de chaque acide aminé dans la séquence primaire d’une protéine. Analyse de signal-bruit au niveau d’acides aminés a révélé utile pour catégoriser les variantes d’ailleurs identifiés dans les gènes associés à SQTL comme probablement des variations génétiques « arrière-plan » plutôt que des associés à la maladie. Parmi les trois principaux gènes associés du SQTL, y compris KCNQ1, ces variants identifiés soit dit en passant n’avait pas un ratio signal-bruit significative, suggérant que la fréquence de ces variantes aux positions des acides aminés individuels représentent les rares variation de la population plutôt que des mutations associées à la maladie. En outre, lorsque la topologie de domaine spécifique à la protéine a été superposée contre les zones de forte mutation signal-bruit, pathologique « points chauds » localisés dans les principaux domaines fonctionnels de la protéines14. Cette méthodologie est prometteuse à déterminer 1) la probabilité d’une variante ou population-associés à la maladie et 2) identifier les nouveaux domaines fonctionnels critiques d’une protéine associée à la maladie humaine.

Protocole

1. identifier le gène et l’isoforme spécifique épissure d’intérêt

NOTE : Ici, nous démontrons l’utilisationdes Ensembl15 pour identifier la séquence consensus pour le gène d’intérêt qui est associé à la pathogenèse de la maladie d’intérêt (c.-à-d. KCNQ1 de mutations sont associées par SQTL). Alternatives à Ensembl comprennent RefSeq via le National Center for Biotechnology Information (NCBI)16 et l’Université de Californie, Santa Cruz (UCSC) Human Genome Browser17 (voir Table des matières).

  1. Dans la page d’accueil de l’Ensembl, sélectionnez l’espèce (c'est-à-dire humain) dans le menu déroulant et entrez le gène de l’acronyme d’intérêt dans le domaine (c'est-à-dire KCNQ1). Cliquez sur « Go »
  2. Cliquez sur le lien correspondant au gène d’intérêt (c.-à-d. « KCNQ1 (gène humain) »
  3. Cliquez sur le lien correspondant à la transcription des ID d’intérêt d’intérêt de la « table de transcription » (p. ex. TranscriptID ENST00000155840.10, NM_000218 [transcrit], NP_000209 [produit protéique d’ARN de transcription]).
    NOTE : Revue de la littérature pertinente est nécessaire pour s’assurer que la séquence consensus de la transcription correcte est sélectionnée.
  4. Notez les numéros d’identification transcription spécifique NM et NP pour un usage ultérieur dans la colonne « RefSeq » de la « Table de transcription ».
  5. Cliquez sur le lien associé au numéro d’ID de NP pour ouvrir une nouvelle page Web de la base de données de protéine de NCBI.
  6. Faites défiler jusqu'à la section « Origine » pour obtenir la séquence (primaire) de protéines pour la transcription du gène d’intérêt.
  7. Faites défiler jusqu'à la section « Caractéristiques » pour obtenir une liste des fonctionnalités protéine (domaines fonctionnels, domaines de liaison, sites de modification post-traductionnelle).
    NOTE : Cette information peut également être obtenue via la base de données de protéine de NCBI ou de sources primaires dans la littérature. Cela sera examiné à l’étape 5.

2. créer le Experimental Database Variant génétique (le « Signal »)

NOTE : Ici, nous montrent comment créer une base de données des variants associés à la maladie dans le gène d’intérêt avec la fréquence des variants associés à la maladie chez les personnes atteintes de la maladie d’intérêt. Cette base de données peut prendre plusieurs formes et représente le « signal » (phénotype séropositifs variation génétique) qui normaliseront contre la base de données des variantes. Cela peut inclure des variantes 1) associés à la maladie pour la comparaison avec VUSs pour identifier de nouveaux domaines fonctionnels des protéines et/ou 2) VUSs, y compris d’ailleurs identifiés VUSs, à comparer à des variants associés à la maladie afin de déterminer la probabilité de pathogénicité. Des variants associés à la maladie dans KCNQ1 seront présentés à titre d’illustration ; Toutefois, la méthode est la même pour l’analyse de VUSs soit dit en passant-identifiés ou tout autre ensemble de variantes expérimentales.

  1. Identifier cohorte de cas index/proposants sans rapport avec la maladie d’intérêt dont le gène d’intérêt a été génotypé globalement pour tous les proposants (c'est-à-dire une étude identifie 24 proposants indépendants hébergement variantes dans KCNQ1 sur 200 individus avec SQTL qui ont été soumis à un interrogatoire génétique KCNQ1).
    Remarque : Ces cohortes peuvent être identifiés de la littérature, de l’analyse génétique expérimentale, ou une combinaison des deux.
    1. Exclure les études qui ne sont pas fondées sur une cohorte (c'est-à-dire un rapport de cas décrivant un seul individu de mutation positive) ne fournissent pas le nombre total d’individus génotypés pour le gène d’intérêt, ou analyser pas globalement génétiquement le gène ( c'est-à-dire un dépistage génétique « ciblé » de seulement KCNQ1 exons 2-4) ces empêchent le calcul de la fréquence d’une variante.
    2. Inclure les personnes qui sont sans rapport avec proposants et excluent les individus apparentés comme cela peut surestimer les fréquences variant (c'est-à-dire une étude identifie 4 individus non apparentés aux mutations KCNQ1 dans une cohorte de 20 patients avec SQTL. Un des ces proposants appartient à une famille avec 5 autres kindred mutation positive. Exclure tous les membres de la famille et inclure uniquement les 4 proposants indépendants).
  2. Compiler tous les variants génétiques expérimentales dans la cohorte identifiés
    1. Assignez la nomenclature qui contient de l’acide aminé de type sauvage, la position d’acides aminés et variant d’acides aminés (c.-à-d. alanine au acide aminé numéro 212 changé en valine, Ala212Val ou A212V). Un tel type de nomenclature est illustré dans la Figure 1.
    2. Confirmer que la variante nomenclature de toutes les variantes génétiques expérimentales est basé sur la même transcription de gène de référence tel qu’indiqué dans l’étape 1.4. Si des variantes génétiques expérimentales ne sont pas annotées sur la transcription de gène de référence même, puis reannotate position variant d’une transcription de référence à l’aide d’alignement de la transcription (voir l’étape 1.2)
  3. Exclure les variantes qui ne sont pas applicables en fonction de la question à l’étude.
    1. Exclure les variantes localisation de régions non codantes du génome ou de variantes qui ne modifient pas la protéine de séquence comme synonymes, intronic variantes, région non traduite en 5' ou 3' [UTR] et région intergénique variantes (c.-à-d. un déclarés pathologique variante en KCNQ1 qui se localise à la 5' UTR de la région codante serait exclue car il n’est pas prévu de modifier la séquence de la protéine).
    2. Exclure les variantes qui ne satisfont pas aux critères d’inclusion pour l’étude. Pour les variantes associés à la maladie, cela comprend les variantes ne sont plus considérées comme pathologiques.
      1. Confirmer que chaque variante est actuellement considéré comme pathogène, probablement pathogène, ou au moins pas bénigne, en renvoyant les variantes avec la base de données ClinVar (voir la Table des matières).
      2. Insérer le gène et la variante d’intérêt dans ClinVar champ de recherche (c.-à-d. KCNQ1-Y111C), sélectionnez « Rechercher »
      3. Identifier la variante d’intérêt sous la colonne « Variation/lieu ».
      4. Notez l’interprétation d’un consensus de pathogénicité sous la colonne « Signification clinique » (c.-à-d. KCNQ1-Y111C est interprété comme « pathogènes »).
      5. Incluent des variantes qui sont « vraisemblablement pathogène » ou « pathogènes ».
      6. Incluent des variantes avec appellations de « interprétations contradictoires de la pathogénicité, » « signification incertaine », ou lorsque aucun document n’est disponible (« ne pas prévu ») si cela est justifié par l’étude.
      7. Exclure variantes désignés comme « probablement bénigne » (c'est-à-dire KCNQ1-A62T).
  4. Calculer la fréquence de l’allèle mineur (CRG) de chaque position variante expérimentale.
    1. Calculer comment les allèles étaient positifs pour chaque variante respective (c'est-à-dire si une mutation hétérozygote se trouve à 2 individus non apparentés, le nombre d’allèles positifs variante KCNQ1-Y111C 2).
    2. Calculer le nombre total d’allèles séquencé au sein de la cohorte
      1. Notez le nombre total d’individus séquencé dans chaque étude de cohorte (étape 2.1)
      2. Multipliez le nombre total d’individus par 2 pour déterminer le nombre total d’allèles.
        Remarque : Cela suppose des génomes diploïdes par lequel chaque possibilité individuelle 2 de chaque allèle.
    3. Calculer le nombre total d’individus variant pour chaque position d’acides aminés (allèles dans 2.4.1/alleles étape à l’étape 2.4.2). Par exemple, si 2 indépendants individus chaque hôte KCNQ1-Y111C des mutations hétérozygotes cohortes de 100 et 200 personnes touchées par le SQTL, respectivement, alors la fréquence des variantes expérimentales à la position de l’acide aminé 111 est 2 variantes/((100+200 individuals ) * 2 allèles/individus) (c.-à-d. en combinaison CRG 0,0033).
    4. Calculer cette valeur pour chaque variante comme le CRG respectif de chaque variante expérimentale. Pour plus de détails voir l’étape 4.2.

3. Créez le contrôle génétique Variant de base de données (le « bruit »)

NOTE : Ici, nous montrent comment créer une base de données des variantes de contrôle dans le gène d’intérêt avec une fréquence associée à une population témoin. Cette base de données représente le « bruit » (phénotype-négatif, axée sur la population de la variation génétique) qui est le fond sur lequel la base de données variante expérimentale normaliseront. Ceci est dénommé variation de « contrôle ».

  1. Identifier une cohorte de proposants sain, sans lien avec ou d’utiliser de grandes études populationnelles afin d’identifier des variants rares parmi une population donnée.
    NOTE : Cette base de données des Sources sont diverses et comprennent : 1) individus sains et/ou phénotype négatif sinon individus soumis à Sanger séquençage ou bases de données publiquement tenues d’individus basée sur la population pour laquelle la maladie en question est rare en fréquence par exemple 2) 1000 Genome Project (N = 1 094 sujets)18, 3) National Heart, Lung, and projet de séquençage de l’Exome sang Institut GO (ESP, N = 5 379 sujets)19, 4) de l’Exome agrégation Consortium (ExAC, N = 60 706 sujets)13 , ou 5) base de données de génome agrégation (GnomAD, N = 138 632 personnes)13 (voir la Table des matières). La base de données GnomAD serviront à titre d’exemple.
    1. Entrez le gène d’intérêt dans la zone Rechercher sur la page d’accueil GnomAD (c.-à-d. KCNQ1).
    2. Vérifier que le navigateur sélectionné le bon gène et transcription d’intérêt (étape 1.4).
    3. Confirmez qu’il existe une couverture appropriée du séquençage du locus en passant en revue « la couverture moyenne » et « tracé de couverture ».
    4. Sélectionnez pour le codage génétique variation de séquence en sélectionnant « Faux-sens + LoF. »
    5. Sélectionnez « table d’exportation au format CSV, » qui va générer un fichier de TextEdit nommé « Inconnu ».
    6. Renommer le fichier et inclut une nouvelle extension « *.csv » (c'est-à-dire « KCNQ1 contrôle Variation.csv »).
    7. Ouvrez le fichier à l’aide d’un logiciel approprié pour l’analyse de fichiers *.csv (voir la Table des matières).
  2. Identifier la protéine changeant la variation génétique dans la colonne intitulée « Protéine conséquence. »
  3. S’appliquent même critères d’exclusion pour ces variantes génétiques de contrôle comme les variantes génétiques expérimentales (étape 2.3.1).
  4. Identifier le CRG de chaque version "control".
    1. Localisez la colonne « Allèle Count », qui désigne le nombre d’allèles trouvés pour héberger la variante.
    2. Localisez la colonne « Numéro de l’allèle », qui désigne le nombre total d’allèles séquencé à cela étant donné la position d’acides amine.
      Remarque : Le nombre total d’allèles séquencé variera selon la couverture à cet endroit. Zones de couverture élevée seront approcheront 2 * nombre total d’individus au sein de GnomAD (c'est-à-dire à 138 632 personnes, couverture complète englobe 277 264 totales allèles génotypés).  À l’inverse, les zones de couverture inférieure aura plusieurs allèle total réduit
    3. Localiser la variante du CRG est pré calculé dans la colonne « Fréquence », qui représente « Allèle Count » divisé par « Nombre d’allèle ».
      Remarque : Les génomes humains ont deux de chaque allèle (c'est-à-dire 1 objet trouvé pour avoir une variante hétérozygote chez 10 personnes a un MAF de 1/20)
    4. Notez le CRG pour chaque variante comme le CRG respectif de chaque version "control".
      Remarque : Variante CRG spécifique pour chaque groupe racial ou ethnique comprenant GnomAD peut être vu dans les colonnes à droite de « Fréquence allélique. »
  5. Appliquer un seuil CRG pour variants rares au-dessus duquel contrôle variantes sont exclus comme « commun ».
    1. Définissez le seuil de CRG sur la valeur maximale à laquelle tous vraiment associés à la maladie variantes (voir étape 2) observées également dans la base de données de contrôle sont inclus sous le seuil (c.-à-d., parmi toutes les variantes de KCNQ1 associés à la maladie retrouve dans GnomAD le variante courante plus élevée du CRG est 0,009, alors il convient d’exclure toutes les variantes de GnomAD au-dessus d’un seuil de 0,01).
  6. S’assurer que la nomenclature variante expérimentale est identique au contrôle (voir l’étape 2.2).
  7. Enregistrez le fichier. Dans certains cas, il faudra changer l’extension/type de fichier.

4. cartographie et le calcul de Signal-bruit niveau acides aminés

  1. Calculer un CRG pour chaque position d’acide aminé avec une version "control" (voir Figure 1 contenant des variantes KCNQ1 GnomAD exemple).
    1. Dans une feuille graphique compatible, créer une colonne de la position de toutes les variantes expérimentales.
    2. Supprimer la variante texte pour laisser seulement la position variant.
      NOTE : Les différentes fonctions/formules peut être utilisés pour supprimer automatiquement ces éléments de texte dans les cellules (Figure 1, la colonne C, voir Table des matières).
    3. Trier les variantes en valeur ascendante afin d’identifier qui les postes comportent plus de 1 variante associée (Figure 1, colonne E ; c'est-à-dire l’acide aminé position 10 est répertoriée deux fois dans la colonne E qui indique 2 variantes uniques à la position).
    4. Combiner le CRG pour chaque variante associée à une position donnée en prenant la somme de tous les MAFs pour une position donnée (Figure 1, colonne G et H).
  2. Calculer un CRG pour chaque position d’acide aminé avec une variante expérimentale (voir Figure 2 contenant des simulacres KCNQ1 variantes pathologiques).
    1. De manière similaire au point 4.1.1, créer une colonne de positions d’acides aminés qui ont des variantes expérimentales (Figure 2, colonne B).
    2. Pour chaque poste variant, calculer le CRG de toutes les variantes associées à cette position de l’étape 2.4 (Figure 2, colonne C-G).
  3. Créer un roulement moyen du CRG à la fois expérimentale et variantes de contrôle.
    1. Développez les colonnes créées en 4.1 et 4.2 pour inclure les cellules pour les positions d’acides aminés qui n’ont aucune variante comme un CRG = 0. (Figure 3).
      1. Créer une colonne contenant tous les acides aminés postes dans le gène d’intérêt (c.-à-d. 1 à 676 pour KCNQ1, Figure 3, colonne C et I).
      2. Ajouter un MAF de 0 pour tous les postes qui n’ont pas de variantes pour les témoins et les ensembles de données expérimentales.
        Remarque : Ceci peut être fait automatiquement en utilisant la fonction « RECHERCHEV » dans un programme de logiciels couramment utilisés (Figure 3, colonne D et J, voir Table des matières).
    2. Créer un enroulement moyenne pour chaque expérimentale et manche de prévalence.
      Remarque : Ceci permet d’inférence de pathogénicité position adjacente et peut être modifié ou même exclu, pour répondre aux besoins de l’étude.
      1. Créer une colonne, ce qui représente une moyenne mobile du CRG pour les deux le contrôle et les ensembles de données expérimentales (Figure 3, colonne E et K).
      2. Dans la colonne moyenne roulante, placez la moyenne du CRG respectif pour les 5 positions de variante variante N-terminale et 5 postes C-terminale à la position donnée.
        Remarque : Cela crée un enroulement moyenne de +/-5. Pour les postes avec moins de 5 résidus d’acide aminé précédents ou suivant, un emplacement moyen glissant (c'est-à-dire l’extrémité N - ou C-terminale), la moyenne mobile seulement prendra en compte ces résidus qui sont présents (c'est-à-dire le roulement moyen à acide aminé position 3 sera une moyenne du CRG aux positions de l’acide aminé 1 bien que 8, calculée comme la somme de ces FMM divisé par 8).
  4. Calculer la fréquence minimale de contrôle en divisant le CRG plus faible roulement par 2.
    1. Changer n’importe quelle cellule avec un contrôle du CRG de 0 à la fréquence minimale étant d’éviter la division par 0, lors du calcul d’un ratio signal-bruit.
  5. Calculer le rapport de signal-bruit niveau d’acides aminés (Figure 4).
    1. Diviser chaque position d’acides aminés expérimentale moyenne mobile par le contrôle respectif de moyenne mobile.
    2. Le graphique de ce ratio (axe y) vs acides aminés position (axe x).

5. superposition de topologie de domaine protéine

  1. Identifiez les emplacements d’acide aminé de consensus des domaines/caractéristiques fonctionnelles ou des zones de modification poteau-de translation, de la protéine d’intérêt (étape 1.7).
    Remarque : Un certain nombre de ressources peut être utilisé pour identifier ces domaines. Ces ressources, ainsi que des ressources pour l’identification des domaines putatifs de nouvelles protéines, ont été bien examinées dans la littérature20. Ce protocole décrit la base de données de protéine disponible par le biais de NCBI, qui est largement utilisé et robuste (voir Table des matières).
  2. Identifier les positions de l’acide aminé associées protéine domaines/fonctionnalités.
    1. Ouvrez la page Web du NCBI.
    2. Entrez le NP de la protéine d’intérêt dans le champ de recherche.
    3. Identifient des domaines protéiques connus et fonctionnalités sont catalogues sous « Caractéristiques ».
    4. Identifier et noter les positions de nom/type et d’acides aminés du domaine.
    5. Cliquez sur le lien correspondant à la fonction de visualiser la région sur la protéine de la séquence primaire d’intérêt.
  3. Créer une colonne qui contient les limites des domaines/fonctionnalités.
    1. Créer une colonne à côté de la colonne de signal : bruit, afin que la colonne de position d’acides aminés peut être référencé (Figure 5A, colonne C).
    2. Identifier les cellules correspondant à l’aspect N-terminal ou C-terminale de chaque fonctionnalité de domaine/et placer un 1 dans chaque cellule (c'est-à-dire si le domaine N-terminal du domaine transmembranaire S1 de KCNQ1 est acide aminé, poste 122, et le domaine C-terminal est position 142, puis un 1 est placé sur la ligne de position d’acides aminés 122 et 142).
    3. Pour le chevauchement des domaines/fonctionnalités, afficher plusieurs domaines en changeant les 1 aux autres valeurs (c'est-à-dire 1,5, 2, 2.5) ; Cela peut aider à distinguer les domaines.
  4. Créer un graphique avec ces limites comme position axe des ordonnées et l’acide aminé sur l’axe des abscisses (Figure 5B).
  5. Le recouvrement de ce graphique avec le signal-bruit graphique créé à l’étape 4.4.
  6. Identifier les corrélations entre protéiques connus domaines/caractéristiques et l’analyse de signal-bruit.

6. variante de Position Overlay

  1. Carte des positions individuelles variant pour superposition de graphiques générés lors des étapes 4,4 et 5,4.
    1. Créer une colonne à côté de la colonne/fonctionnalité de domaine tels que les lignes dans la colonne correspondra à des postes d’acides aminés (Figure 5A, colonne D).
    2. Placer un 1 dans chaque cellule de la ligne supplémentaire correspondant à une position contenant une variante respectif.
    3. Créer un graphique avec cette colonne comme une position axe y et acide aminé sur l’axe des abscisses (Figure 5C).
  2. Overlay ce graphique avec le signal-bruit graphique créé à l’étape 4.4 et le graphique de domaine créé à l’étape 5.4.

Résultats

Un résultat représentatif pour les acides aminés au niveau de signal à l’analyse du bruit pour KCNQ1 est représenté à la Figure 6. Dans cet exemple, variants rares identifiés dans la cohorte GnomAD (cohorte de contrôle), soit dit en passant-identifiés des variantes de WES (cohorte expérimentale #1) et variantes associées aux cas de SQTL considérés comme probablement associés à la maladie (experimental cohorte #2) est représenté. En outre, ...

Discussion

Tests génétiques haut débit a progressé considérablement dans sa demande et la disponibilité durant la dernière décennie. Toutefois, dans de nombreuses maladies avec des fondements génétiques bien établis, comme les cardiomyopathies, essai élargi a échoué à améliorer le rendement diagnostique21. En outre, il y a une incertitude importante concernant l’utilitaire de diagnostic de nombreux variants identifiés. Ceci est partiellement dû à un nombre croissant d’ailleurs identifi...

Déclarations de divulgation

Les auteurs n’ont rien à divulguer.

Remerciements

APL est pris en charge par les instituts nationaux de santé K08-HL136839.

matériels

NameCompanyCatalog NumberComments
1000 Genome ProjectN/Awww.internationalgenome.org
ClinVarN/Awww.ncbi.nlm.nih.gov/clinvar
Ensembl Genome BrowserN/Auswest.ensembl.org/index.html
ExcelMicrosoftoffice.microsoft.com/excel/Used for all example formulas and functions
Exome Aggregation Consortium N/Awww.exac.broadinstitute.org
Genome Aggregation Database N/Awww.gnomad.broadinstitute.org
National Center for Biotechnology Information Domain and Structure DatabaseN/Awww.ncbi.nlm.nih.gov/guide/domains-structures/
National Center for Biotechnology Information Gene DatabaseN/Awww.ncbi.nlm.nih.gov/gene/
National Center for Biotechnology Information Protein DatabaseN/Awww.ncbi.nlm.nih.gov/protein/
National Heart, Lung, and Blood Institute GO Exome Sequencing ProjectN/Awww.evs.gs.washington.edu/EVS/
SnapGeneGSL Biotech LCCwww.snapgene.com
University of California, Santa Cruz Human Genome BrowserN/Awww.genome.ucsc.edu

Références

  1. Yang, Y., et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. New England Journal of Medicine. 369 (16), 1502-1511 (2013).
  2. Meng, L., et al. Use of Exome Sequencing for Infants in Intensive Care Units: Ascertainment of Severe Single-Gene Disorders and Effect on Medical Management. Journal of the American Medical Association Pediatrics. 171 (12), 173438 (2017).
  3. Kalia, S. S., et al. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genetics in Medicine. 19 (2), 249-255 (2017).
  4. Landstrom, A. P., Ackerman, M. J. The Achilles' heel of cardiovascular genetic testing: distinguishing pathogenic mutations from background genetic noise. Clinical Pharmacology and Therapeutics. 90 (4), 496-499 (2011).
  5. Landstrom, A. P., Tester, D. J., Ackerman, M. J., Lawless, C. Role of genetic testing for sudden death predisposing heart conditions in athletes. Sports Cardiology Essentials. , (2011).
  6. Wang, Q., et al. Positional cloning of a novel potassium channel gene: KVLQT1 mutations cause cardiac arrhythmias. Nature Genetics. 12 (1), 17-23 (1996).
  7. Kapa, S., et al. Genetic testing for long-QT syndrome: distinguishing pathogenic mutations from benign variants. Circulation. 120 (18), 1752-1760 (2009).
  8. Ackerman, M. J., et al. Ethnic differences in cardiac potassium channel variants: implications for genetic susceptibility to sudden cardiac death and genetic testing for congenital long QT syndrome. Mayo Clinic Proceedings. 78 (12), 1479-1487 (2003).
  9. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nature Protocols. 4 (7), 1073-1081 (2009).
  10. Adzhubei, I., Jordan, D. M., Sunyaev, S. R. Predicting functional effect of human missense mutations using PolyPhen-2. Current Protocols in Human Genetics. , (2013).
  11. Flanagan, S. E., Patch, A. M., Ellard, S. Using SIFT and PolyPhen to predict loss-of-function and gain-of-function mutations. Genetic Testing and Molecular Biomarkers. 14 (4), 533-537 (2010).
  12. Ackerman, M. J., et al. HRS/EHRA expert consensus statement on the state of genetic testing for the channelopathies and cardiomyopathies this document was developed as a partnership between the Heart Rhythm Society (HRS) and the European Heart Rhythm Association (EHRA). Heart Rhythm. 8 (8), 1308-1339 (2011).
  13. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  14. Landstrom, A. P., et al. Amino acid-level signal-to-noise analysis of incidentally identified variants in genes associated with long QT syndrome during pediatric whole exome sequencing reflects background genetic noise. Heart Rhythm. 15 (7), 1042-1050 (2018).
  15. Hubbard, T., et al. Ensembl 2005. Nucleic Acids Research. 33, 447-453 (2005).
  16. O'Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, 733-745 (2016).
  17. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  18. The 100 Genome Projects Consortium. An integrated map of genetic variation from 1,092 human genomes. Nature. 491 (7422), 56-65 (2012).
  19. Fu, W., et al. Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants. Nature. 493 (7331), 216-220 (2013).
  20. Mulder, N. J., Apweiler, R. Tools and resources for identifying protein families, domains and motifs. Genome Biology. 3 (1), (2002).
  21. Cirino, A. L., et al. A Comparison of Whole Genome Sequencing to Multigene Panel Testing in Hypertrophic Cardiomyopathy Patients. Circulation Cardiovascular Genetics. 10 (5), (2017).
  22. Landstrom, A. P., et al. Interpreting Incidentally Identified Variants in Genes Associated With Catecholaminergic Polymorphic Ventricular Tachycardia in a Large Cohort of Clinical Whole-Exome Genetic Test Referrals. Circulation Arrhythmia and Electrophysiology. 10 (4), (2017).
  23. Whiffin, N., et al. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine. 19 (10), 1151-1158 (2017).
  24. Walsh, R., et al. Reassessment of Mendelian gene pathogenicity using 7,855 cardiomyopathy cases and 60,706 reference samples. Genetics in Medicine. 19 (2), 192-203 (2017).
  25. Buske, O. J., Manickaraj, A., Mital, S., Ray, P. N., Brudno, M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 31 (5), 799 (2015).
  26. Wen, P., Xiao, P., Xia, J. dbDSM: a manually curated database for deleterious synonymous mutations. Bioinformatics. 32 (12), 1914-1916 (2016).
  27. Bagnall, R. D., et al. Whole Genome Sequencing Improves Outcomes of Genetic Testing in Patients With Hypertrophic Cardiomyopathy. Journal of the American College of Cardiology. 72 (4), 419-429 (2018).
  28. Giudicessi, J. R., Roden, D. M., Wilde, A. A. M., Ackerman, M. J. Classification and Reporting of Potentially Proarrhythmic Common Genetic Variation in Long QT Syndrome Genetic Testing. Circulation. 137 (6), 619-630 (2018).
  29. Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 50, 1161-1170 (2018).
  30. Krittanawong, C., Zhang, H., Wang, Z., Aydar, M., Kitai, T. Artificial Intelligence in Precision Cardiovascular Medicine. Journal of the American College of Cardiology. 69 (21), 2657-2664 (2017).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

G n tiquenum ro 143analyse g n tiquetests g n tiquesmutationtopologievariante de signification incertaines quen age de l exome entier

This article has been published

Video Coming Soon

JoVE Logo

Confidentialité

Conditions d'utilisation

Politiques

Recherche

Enseignement

À PROPOS DE JoVE

Copyright © 2025 MyJoVE Corporation. Tous droits réservés.