Method Article
Nous présentons un protocole pour identifier les implications fonctionnelles des variantes non codantes identifiées par des études d'association à l'échelle du génome (GWAS) utilisant des interactions tridimensionnelles de chromatine.
Des études d'association à l'échelle du génome (GWAS) ont permis d'identifier avec succès des centaines de loci génomiques qui sont associés à des traits humains et à des maladies. Cependant, parce que la majorité des loci significatifs de génome (GWS) tombent sur le génome non-codant, l'impact fonctionnel de beaucoup restent inconnus. Les interactions tridimensionnelles de chromatine identifiées par Hi-C ou ses dérivés peuvent fournir des outils utiles pour annoter ces loci en reliant les variantes non codantes à leurs gènes exploitables. Ici, nous énoncions un protocole pour cartographier les variantes non codantes gWAS à leurs gènes putatifs en utilisant la maladie d'Alzheimer (MA) GWAS et Hi-C ensembles de données à partir de tissu cérébral adulte humain. Les polymorphismes causals putatifs à un seul nucléotide (SNP) sont identifiés par l'application d'algorithmes de cartographie fine. Les SNP sont ensuite cartographiés selon leurs gènes cibles putatifs à l'aide d'interactions enhancer-promoteur basées sur Hi-C. L'ensemble de gènes qui en résulte représente les gènes de risque de la MA, car ils sont potentiellement réglementés par des variantes de risque aD. Afin d'obtenir d'autres connaissances biologiques sur les mécanismes moléculaires sous-jacents à la MA, nous caractérisons les gènes à risque de la MA à l'aide de données sur l'expression cérébrale développementale et de profils d'expression monocellulaire du cerveau. Ce protocole peut être étendu à n'importe quel ensemble de données GWAS et Hi-C afin d'identifier les gènes cibles putatifs et les mécanismes moléculaires sous-jacents à divers traits et maladies humains.
Les études d'association à l'échelle du génome (GWAS) ont joué un rôle essentiel en révélant la base génétique d'une gamme de traits et de maladies humains. Ce génotypage à grande échelle a mis au jour des milliers de variantes génomiques associées à des phénotypes allant de la hauteur au risque de schizophrénie. Cependant, en dépit de l'énorme succès de GWAS dans l'identification des loci associés à la maladie et au trait, une compréhension mécaniste de la façon dont ces variantes contribuent au phénotype a été difficile parce que la plupart des variantes associées au phénotype résident dans le non-codage fraction du génome humain. Étant donné que ces variantes se chevauchent souvent avec les éléments réglementaires prévus, elles sont susceptibles de modifier le contrôle transcriptionnel d'un gène voisin. Cependant, les loci non codants peuvent influencer la transcription des gènes à des distances linéaires dépassant une mégabase, ce qui rend les gènes affectés par chaque variante difficiles à identifier. La structure tridimensionnelle (3D) de chromatine joue un rôle important dans la médiation des connexions entre les loci régulateurs éloignés et les promoteurs de gènes et peut être utilisée pour identifier les gènes affectés par les polymorphismes mononucléotides associés au phénotype (SNP).
La régulation génique est médiée par un processus complexe, qui implique l'activation de l'améliorateur et la formation de boucles de chromatine qui relient physiquement les exhausteurs aux promoteurs de gènes auxquels la machinerie transcriptionnelle peut être dirigée1,2,3. Étant donné que les boucles de chromatine couvrent souvent plusieurs centaines de kilobases (kb), des cartes détaillées de l'architecture de chromatine 3D sont nécessaires pour déchiffrer les mécanismes de régulation des gènes. Plusieurs technologies de capture de conformation de chromatine ont été inventées pour identifier l'architecture de chromatine 3D4. Parmi ces technologies, Hi-C fournit l'architecture la plus complète, car elle capture des profils d'interaction de chromatine 3D à l'échelle du génome. Les ensembles de données Hi-C ont été rapidement adaptés pour interpréter les variantes non codantes significatives (GWS) loci5,7,8,9,10,11,12,13, car il peut lier les variantes non codantes à leurs gènes cibles putatives basées sur des profils d'interaction de chromatine.
Dans cet article, nous énoncions un protocole pour prévoir computationnellement les gènes cibles putatifs des variantes de risque de GWAS utilisant des profils d'interaction de chromatine. Nous appliquons ce protocole pour cartographier AD GWS loci14 à leurs gènes cibles en utilisant des ensembles de données Hi-C dans le cerveau humain adulte9. Les gènes de risque de la MA qui en résultent sont caractérisés par d'autres ensembles de données génomiques fonctionnelles qui comprennent des profils d'expression transcriptomique et développementale à cellule unique.
1. Configuration de poste de travail
2. Génération d'un objet GRanges pour les SNP crédibles
3. Cartographie positionnelle
REMARQUE : Pour chaque étape, tapez le code correspondant dans la fenêtre de la console dans RStudio.
4. Trajectoires d'expression développementale
REMARQUE : Pour chaque étape, tapez le code correspondant dans la fenêtre de la console dans RStudio.
5. Profils d'expression de type cellulaire
REMARQUE : Pour chaque étape, tapez le code correspondant dans la fenêtre de la console dans RStudio.
6. Analyse de l'enrichissement de l'annotation génétique des gènes de risque de la MA
Le processus décrit ici a été appliqué à un ensemble de 800 SNP crédibles qui ont été définis par l'étude originale14. La cartographie de position a révélé que 103 SNP chevauchaient les promoteurs (43 gènes uniques) et 42 SNP chevauchés avec des exons (27 gènes uniques). Après cartographie positionnelle, 84 % (669) SNP sont restés sans annotated. En utilisant des ensembles de données Hi-C dans le cerveau adulte, nous avons pu relier 208 SNP supplémentaires à 64 gènes basés sur la proximité physique. Au total, nous avons cartographié 284 SNP crédibles adm. 100 à 112 gènes à risque AD(figure 1A). Les gènes de risque d'AD ont été associés aux protéines de précurseur amyloïde, à la formation amyloïde-bêta, et à la réponse immunitaire, reflétant la biologie connue de l'AD15,16,17,18 ( figure1B-D). Les profils d'expression développementale des gènes de risque de MA ont montré l'enrichissement postnatal marqué, indicatif du risque élevé associé à l'âge de la MA (figure 2A). Enfin, les gènes du risque de MA ont été fortement exprimés dans les microglies, les cellules immunitaires primaires du cerveau (Figure 2B). Ceci est en accord avec les résultats récurrents que la MA a une base immunitaire forte et les microglies sont l'acteur central dans la pathogénie AD14,19,20.
Figure 1 : Définir les gènes cibles putatifs des loci AD GWS. (A) Les SNP crédibles dérivés des 29 principaux loci ads ont été classés dans les SNP promoteurs, les SNP exoniques et les SNP non codants non annotés. Le promoteur et les SNP exoniques ont été directement affectés à leurs gènes cibles par cartographie positionnelle, tandis que les profils d'interaction de chromatine dans le cerveau adulte ont été en outre utilisés pour cartographier les SNP en fonction des interactions physiques. (B-D) L'enrichissement de GO (B), KEGG (C), et Reactome (D) termes dans les gènes de risque de LA D a été effectué en utilisant HOMER comme décrit dans la section 6 du protocole. L'axe x représente le faux taux de découverte (FDR) corrigé -log10 (valeur P). Des termes enrichis avec FDR et 0,1 ont été tracés. Les lignes verticales grises représentent le FDR 0,05. Protéine précurseur amyloïde d'APP. Numérateur, le nombre de gènes de risque de MA représentés dans chaque terme ; dénominateur, le nombre de gènes dans chaque terme. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 2 : Caractérisation des gènes à risque de la MA. (A) les gènes de risque d'AD sont fortement exprimés dans le cortex postnatal comparé au cortex prénatal. (B) Des parcelles de violon représentant des distributions de valeurs d'expression génique (expression normalisée) dans différents types de cellules du cortex. Ces résultats montrent que les gènes de risque de LAD sont fortement exprimés dans les microglies, conformément aux études précédentes14. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Dossier supplémentaire 1. S'il vous plaît cliquez ici pour voir ce fichier (Clic droit pour télécharger).
Dossier supplémentaire 2. S'il vous plaît cliquez ici pour voir ce fichier (Clic droit pour télécharger).
Dossier supplémentaire 3. S'il vous plaît cliquez ici pour voir ce fichier (Clic droit pour télécharger).
Ici, nous décrivons un cadre analytique qui peut être utilisé pour annoter fonctionnellement GWS loci basé sur la cartographie positionnelle et les interactions de chromatine. Ce processus comporte plusieurs étapes (pour plus de détails voir cet examen13). Tout d'abord, étant donné que les profils d'interaction de chromatine sont fortement de type cellulaire spécifique, les données Hi-C obtenues à partir des types appropriés de cellules/tissus qui capturent le mieux la biologie sous-jacente du trouble doivent être utilisées. Étant donné que la MA est un trouble neurodégénératif, nous avons utilisé le cerveau adulte Hi-C données9 pour annoter GWS loci. Deuxièmement, chaque locus GWS a souvent jusqu'à des centaines de SNP qui sont associés au trait en raison du déséquilibre de liaison (LD), il est donc important d'obtenir des SNP causals putatifs (« crédibles ») en prédisant causalité par l'utilisation d'algorithmes de cartographie fine21,22 ou de tester expérimentalement des activités de réglementation en utilisant des approches à haut débit telles que des essais de reporter massivement parallèles (MPRA)23 ou l'auto-transcrire le séquençage actif de la région réglementaire ( STARR-seq)24. Pour le travail décrit ici, nous avons utilisé des SNP crédibles rapportés dans Jansen et al.14. Troisièmement, les SNP promoteurs et exoniques sont annotés en fonction de la cartographie de position. Nous avons utilisé une stratégie de cartographie positionnelle simple dans laquelle les SNP ont été cartographiés aux gènes lorsqu'ils se chevauchaient avec des promoteurs (définis comme 2 kb en amont du site de démarrage de transcription) ou des exons. Cependant, cette approche peut être plus approfondie en évaluant les conséquences fonctionnelles des SNP exoniques, telles que si le SNP induit la décomposition médiatisée de non-sens, la variation de mauvais sens, ou la variation absurde. Quatrièmement, les profils d'interaction de chromatine du type approprié de tissu/cellule peuvent être employés pour assigner des SNP à leurs gènes cibles putatifs basés sur la proximité physique. Nous avons utilisé des profils d'interaction ancrés aux promoteurs, mais nous pouvons affiner ou élargir davantage les profils d'interaction en tenant compte des activités d'amélioration (guidées par l'acétylation ou l'accessibilité de la chromatine h3 K27) ou des interactions exoniques. Une considération importante dans ce processus est d'utiliser la construction cohérente du génome humain. Par exemple, si les positions génomiques des statistiques sommaires ne sont pas fondées sur hg19 (c.-à-d. hg18 ou hg38), une version appropriée du génome de référence devrait être obtenue ou les statistiques sommaires doivent être converties en hg19 à l'aide de l'élévateur25.
Nous avons appliqué ce cadre pour identifier les gènes cibles putatifs pour AD GWAS, en attribuant 284 SNP à 112 gènes de risque ad. En utilisant les profils d'expression développementale26 et les profils d'expression spécifiques de type cellulaire9, nous avons alors démontré que cet ensemble de gènes était compatible avec ce que l'on sait sur la pathologie de la MA, révélant les types cellulaires (microglies), les fonctions biologiques (réponse immunitaire et bêta amyloïde), et le risque élevé à l'âge.
Bien que nous ayons présenté un cadre qui délimite les gènes cibles potentiels de la MA et de sa biologie sous-jacente, il est à noter que l'annotation basée sur le Hi-C peut être élargie pour annoter toute variation non codante. Au fur et à mesure que de plus en plus de données sur le séquençage du génome entier seront disponibles et que notre compréhension de la variation rare non codante s'accroît, Le Hi-C constituera une ressource clé pour l'interprétation des variantes génétiques associées à la maladie. Un recueil de ressources Hi-C obtenues à partir de plusieurs types de tissus et de cellules sera donc essentiel pour faciliter une large application de ce cadre afin d'obtenir des informations biologiques sur divers traits humains et maladies.
Les auteurs n'ont rien à révéler.
Ce travail a été soutenu par la subvention des NIH R00MH13823 (à H.W.) et R35GM128645 (à D.H.P.), le prix NARSAD jeune chercheur (à H.W.), et la subvention SPARK de la Simons Foundation Autism Research Initiative (SFARI, à N.M. et H.W.).
Name | Company | Catalog Number | Comments |
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon