Presentamos un protocolo para identificar las implicaciones funcionales de las variantes no codificacionales identificadas por los estudios de asociación del genoma (GWAS) utilizando interacciones tridimensionales de cromatina.
Los estudios de asociación en todo el genoma (GWAS) han identificado con éxito cientos de loci genómicos que están asociados con rasgos humanos y enfermedades. Sin embargo, debido a que la mayoría de los loci significativos en todo el genoma (GWS) caen sobre el genoma no codificante, el impacto funcional de muchos sigue siendo desconocido. Las interacciones tridimensionales de cromatina identificadas por Hi-C o sus derivados pueden proporcionar herramientas útiles para anotar estos loci vinculando variantes no codificantes a sus genes accionables. Aquí, delineamos un protocolo para mapear variantes no codificantes de GWAS a sus genes putativos usando conjuntos de datos GWAS y Hi-C de la enfermedad de Alzheimer (AD) del tejido cerebral adulto humano. Los polimorfismos de un solo nucleótido (SNP) de causalidad putativa se identifican mediante la aplicación de algoritmos de asignación fina. A continuación, los SNP se asignan a sus genes de destino putativos mediante interacciones potenciadoro-promotor basadas en Hi-C. El conjunto de genes resultante representa genes de riesgo de AD, ya que están potencialmente regulados por variantes de riesgo de AD. Para obtener más información biológica sobre los mecanismos moleculares subyacentes a la AD, caracterizamos los genes de riesgo de AD utilizando datos de expresión cerebral del desarrollo y perfiles de expresión de una sola célula cerebral. Este protocolo se puede ampliar a cualquier conjunto de datos GWAS e Hi-C para identificar genes de destino putativos y mecanismos moleculares subyacentes a diversos rasgos y enfermedades humanas.
Los estudios de asociación en todo el genoma (GWAS) han desempeñado un papel fundamental en la revelación de la base genética de una serie de rasgos y enfermedades humanas. Este genotipado a gran escala ha descubierto miles de variantes genómicas asociadas con fenotipos que van desde la altura hasta el riesgo de esquizofrenia. Sin embargo, a pesar del enorme éxito de gWAS en la identificación de loci asociados a enfermedades y rasgos, una comprensión mecanicista de cómo estas variantes contribuyen al fenotipo ha sido un reto porque la mayoría de las variantes asociadas al fenotipo residen en la no codificación fracción del genoma humano. Dado que estas variantes a menudo se superponen con los elementos reglamentarios previstos, es probable que alteren el control transcripcional de un gen cercano. Sin embargo, los loci no codificantes pueden influir en la transcripción de genes a distancias lineales superiores a una megabase, lo que hace que los genes afectados por cada variante sean difíciles de identificar. La estructura tridimensional de la cromatina (3D) desempeña un papel importante en la mediación de las conexiones entre los loci reguladores distantes y los promotores de genes y se puede utilizar para identificar genes afectados por polimorfismos de un solo nucleótido (SNP) asociados al fenotipo.
La regulación genética está mediada por un proceso complejo, que implica la activación del potenciador y la formación del bucle de cromatina que conecta físicamente potenciadores a los promotores genéticos a los que se puede dirigir la maquinaria transcripcional1,2,3. Debido a que los bucles de cromatina a menudo abarcan varios cientos de kilobases (kb), se requieren mapas detallados de la arquitectura de cromatina 3D para descifrar los mecanismos reguladores de genes. Se han inventado múltiples tecnologías de captura de conformación de cromatina para identificar la arquitectura de cromatina 3D4. Entre estas tecnologías, Hi-C proporciona la arquitectura más completa, ya que captura perfiles de interacción de cromatina 3D en todo el genoma. Los conjuntos de datos Hi-C se han adaptado rápidamente parainterpretar loci5,6,7,8,9,10,11,12,13, ya que puede vincular variantes no codificantes a sus genes de destino putativos basados en perfiles de interacción con cromatina.
En este artículo, delineamos un protocolo para predecir computacionalmente los genes de destino putativos de las variantes de riesgo de GWAS utilizando perfiles de interacción con cromatina. Aplicamos este protocolo para asignar AD GWS loci14 a sus genes de destino utilizando conjuntos de datos Hi-C en el cerebro humano adulto9. Los genes de riesgo de AD resultantes se caracterizan por otros conjuntos de datos genómicos funcionales que incluyen perfiles de expresión transcriptomica y de desarrollo de una sola célula.
1. Configuración de la estación de trabajo
2. Generación de un objeto GRanges para SNP creíbles
3. Mapeo posicional
NOTA: Para cada paso, escriba el código correspondiente en la ventana de la consola en RStudio.
4. Trayectorias de expresión del desarrollo
NOTA: Para cada paso, escriba el código correspondiente en la ventana de la consola en RStudio.
5. Perfiles de expresión de tipo celular
NOTA: Para cada paso, escriba el código correspondiente en la ventana de la consola en RStudio.
6. Análisis de enriquecimiento de anotación genética de genes de riesgo AD
El proceso descrito aquí se aplicó a un conjunto de 800 SNP creíbles que fueron definidos por el estudio original14. El mapeo posicional reveló que 103 SNP se superponían con promotores (43 genes únicos) y 42 SNP se superponían con exones (27 genes únicos). Después de la asignación posicional, el 84% (669) SNp permaneció sin anotar. Utilizando conjuntos de datos Hi-C en el cerebro adulto, pudimos vincular 208 SNP adicionales a 64 genes basados en la proximidad física. En total, mapeamos 284 SNP creíbles de AD a 112 genes de riesgo AD(Figura 1A). Los genes de riesgo de AD se asociaron con proteínas precursoras de amiloide, formación de amiloide-beta y respuesta inmune, reflejando la biología conocida de AD15,16,17,18 (Figura 1B-D). Los perfiles de expresión de desarrollo de los genes de riesgo de AD mostraron un marcado enriquecimiento postnatal, indicativo del riesgo elevado asociado a la edad de AD(Figura 2A). Finalmente, los genes de riesgo de AD se expresaron altamente en microglia, células inmunitarias primarias en el cerebro(Figura 2B). Esto está de acuerdo con los hallazgos recurrentes de que AD tiene una fuerte base inmune y la microglia es el actor central en la patogénesis AD14,19,20.
Figura 1: Definición de genes de destino putativo s de loci AD GWS. (A) Los SNP creíbles derivados de los 29 loci de AD superiores se clasificaron en SNP promotores, SNP exónicos y SNP no codificantes sin anotar. Los Promotores y SNP exónicos se asignaron directamente a sus genes objetivo mediante mapeo posicional, mientras que los perfiles de interacción de cromatina en el cerebro adulto se utilizaron adicionalmente para mapear SNP basados en interacciones físicas. (B-D) El enriquecimiento de términos GO (B), KEGG (C) y Reactome (D) en genes de riesgo AD se realizó utilizando HOMER como se describe en la sección 6 del protocolo. El eje x representa la tasa de detección falsa (FDR) corregida -log10 (valor P). Se trazaron términos enriquecidos con FDR < 0.1. Las líneas verticales grises representan FDR a 0,05. Proteína precursora de amiloide APP. Numerador, el número de genes de riesgo de AD representados en cada término; denominador, el número de genes en cada término. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: Caracterización de genes de riesgo de AD. (A) Los genes de riesgo de AD están muy expresados en la corteza postnatal en comparación con la corteza prenatal. (B) Gráficas de violín que representan distribuciones de valores de expresión génica (expresión normalizada) en diferentes tipos de células de la corteza. Estos resultados muestran que los genes de riesgo de AD están muy expresados en microglia, de acuerdo con estudios anteriores14. Haga clic aquí para ver una versión más grande de esta figura.
Archivo Suplementario 1. Haga clic aquí para ver este archivo (haga clic con el botón derecho para descargar).
Archivo Suplementario 2. Haga clic aquí para ver este archivo (haga clic con el botón derecho para descargar).
Archivo Suplementario 3. Haga clic aquí para ver este archivo (haga clic con el botón derecho para descargar).
Aquí describimos un marco analítico que se puede utilizar para anotar funcionalmente los loci de GWS basados en mapeo posicional e interacciones de cromatina. Este proceso implica varios pasos (para más detalles vea esta revisión13). En primer lugar, dado que los perfiles de interacción con cromatina son altamente específicos del tipo celular, los datos de Hi-C obtenidos de los tipos de células/tejidos apropiados que mejor capturan la biología subyacente del trastorno deben utilizarse. Dado que la AD es un trastorno neurodegenerativo, usamos datos de Hi-C del cerebro adulto9 para anotar loci GWS. En segundo lugar, cada locus de GWS a menudo tiene hasta cientos de SNP que están asociados con el rasgo debido al desequilibrio de la vinculación (LD), por lo que es importante obtener SNP putativos causales ('creíbles') prediciendo computacionalmente la causalidad mediante el uso de algoritmos de mapeo fino21,22 o pruebas experimentales de las actividades regulatorias utilizando enfoques de alto rendimiento, como ensayos de reporteros paralelos masivos (MPRA)23 o secuenciación de región reguladora activa auto-transcripción ( STARR-seq)24. Para el trabajo descrito aquí, utilizamos SNP creíbles reportados en Jansen et al.14. En tercer lugar, los SNP de promotor y exónico se anotan en función del mapeo posicional. Utilizamos una estrategia de mapeo posicional simple en la que los SNP se mapearon a los genes cuando se superponían con promotores (definidos como 2 kb aguas arriba del sitio de inicio de transcripción) o exones. Sin embargo, este enfoque puede elaborarse más detalladamente evaluando las consecuencias funcionales de los SNP exónicos, como si el SNP induce una caries mediada sin sentido, una variación de sentido erróneo o una variación sin sentido. En cuarto lugar, los perfiles de interacción con cromatina del tipo de tejido/célula apropiado se pueden utilizar para asignar SNP a sus genes de destino putativos en función de la proximidad física. Utilizamos perfiles de interacción anclados a los promotores, pero podemos refinar o ampliar aún más los perfiles de interacción teniendo en cuenta las actividades potenciadoras (guiadas por la acetilación o accesibilidad a la cromatina de histona H3 K27) o las interacciones exónicas. Una consideración importante en este proceso es utilizar la construcción consistente del genoma humano. Por ejemplo, si las posiciones genómicas de las estadísticas resumidas no se basan en hg19 (es decir, hg18 o hg38), se debe obtener una versión adecuada del genoma de referencia o las estadísticas resumidas deben convertirse a hg19 utilizando liftover25.
Aplicamos este marco para identificar genes de destino putativos para AD GWAS, asignando 284 SNP a 112 genes de riesgo AD. Utilizando perfiles de expresión de desarrollo 26 yperfiles de expresión específicos de tipo celular9, luego demostramos que este conjunto de genes era consistente con lo que se conoce sobre la patología AD, revelando los tipos de células (microglia), las funciones biológicas (respuesta inmune y beta amiloide), y el riesgo elevado a la edad.
Si bien presentamos un marco que delinea los genes objetivo potenciales de AD y su biología subyacente, es de destacar que la anotación basada en Hi-C se puede expandir para anotar cualquier variación que no sea codificante. A medida que se disponga de más datos de secuenciación del genoma completo y aumente nuestra comprensión sobre la variación rara no codificante, Hi-C proporcionará un recurso clave para la interpretación de variantes genéticas asociadas a la enfermedad. Por lo tanto, un compendio de recursos Hi-C obtenidos de múltiples tipos de tejidos y células será fundamental para facilitar una amplia aplicación de este marco para obtener información biológica sobre diversos rasgos humanos y enfermedades.
Los autores no tienen nada que revelar.
Este trabajo fue apoyado por la subvención NIH R00MH113823 (a H.W.) y R35GM128645 (a D.H.P.), el Premio NarSAD Young Investigator (a H.W.), y la subvención SPARK de la Simons Foundation Autism Research Initiative (SFARI, a N.M. y H.W.).
Name | Company | Catalog Number | Comments |
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static-content.springer.com/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados