Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Este protocolo guía a los principiantes en bioinformática a través de una línea de análisis introductoria de CUT&RUN que permite a los usuarios completar un análisis inicial y la validación de los datos de secuenciación de CUT&RUN. Completar los pasos de análisis descritos aquí, combinados con la anotación de picos aguas abajo, permitirá a los usuarios extraer información mecanicista sobre la regulación de la cromatina.
La técnica CUT&RUN facilita la detección de las interacciones proteína-ADN en todo el genoma. Las aplicaciones típicas de CUT&RUN incluyen la creación de perfiles de cambios en las modificaciones de la cola de histonas o el mapeo de la ocupación de la cromatina del factor de transcripción. La adopción generalizada de CUT&RUN está impulsada, en parte, por las ventajas técnicas sobre ChIP-seq convencional que incluyen menores requisitos de entrada de celdas, menores requisitos de profundidad de secuenciación y mayor sensibilidad con una señal de fondo reducida debido a la falta de agentes de reticulación que de otro modo enmascararían los epítopos de anticuerpos. La adopción generalizada de CUT&RUN también se ha logrado gracias al generoso intercambio de reactivos por parte del laboratorio de Henikoff y el desarrollo de kits comerciales para acelerar la adopción por parte de los principiantes. A medida que aumenta la adopción técnica de CUT&RUN, el análisis y la validación de la secuenciación de CUT&RUN se convierten en cuellos de botella críticos que deben superarse para permitir la adopción completa por parte de los equipos de laboratorio predominantemente húmedos. El análisis CUT&RUN suele comenzar con controles de calidad de las lecturas de secuenciación sin procesar para evaluar la profundidad de la secuenciación, la calidad de la lectura y los posibles sesgos. A continuación, las lecturas se alinean con un ensamblaje de secuencia genómica de referencia y, posteriormente, se emplean varias herramientas bioinformáticas para anotar las regiones genómicas del enriquecimiento de proteínas, confirmar la interpretabilidad de los datos y extraer conclusiones biológicas. Aunque se han desarrollado múltiples canales de análisis in silico para soportar el análisis de datos de CUT&RUN, su compleja estructura de múltiples módulos y el uso de múltiples lenguajes de programación hacen que las plataformas sean difíciles para los principiantes en bioinformática que pueden carecer de familiaridad con múltiples lenguajes de programación pero desean comprender el procedimiento de análisis de CUT&RUN y personalizar sus canales de análisis. Aquí, proporcionamos un protocolo de canalización de análisis CUT&RUN paso a paso en un solo idioma, diseñado para usuarios con cualquier nivel de experiencia en bioinformática. Este protocolo incluye la realización de controles de calidad críticos para validar que los datos de secuenciación son adecuados para la interpretación biológica. Esperamos que seguir el protocolo introductorio proporcionado en este artículo, combinado con la anotación de picos aguas abajo, permita a los usuarios extraer información biológica de sus propios conjuntos de datos de CUT&RUN.
La capacidad de medir las interacciones entre las proteínas y el ADN genómico es fundamental para comprender la biología de la regulación de la cromatina. Los ensayos eficaces que miden la ocupación de la cromatina para una proteína determinada proporcionan al menos dos datos clave: i) la localización genómica y ii) la abundancia de proteínas en una región genómica determinada. El seguimiento de los cambios en el reclutamiento y la localización de una proteína de interés en la cromatina puede revelar loci diana directa de la proteína y revelar las funciones mecanicistas de esa proteína en los procesos biológicos basados en la cromatina, como la regulación de la transcripción, la reparación del ADN o la replicación del ADN. Las técnicas disponibles hoy en día para perfilar las interacciones proteína-ADN están permitiendo a los investigadores explorar la regulación con una resolución sin precedentes. Estos avances técnicos han sido posibles gracias a la introducción de nuevas técnicas de perfilado de cromatina que incluyen el desarrollo de la escisión bajo objetivos y la liberación mediante nucleasa (CUT&RUN) por parte del laboratorio Henikoff. CUT&RUN ofrece varias ventajas técnicas sobre la inmunoprecipitación de cromatina convencional (ChIP) que incluyen menores requisitos de entrada de células, menores requisitos de profundidad de secuenciación y una mayor sensibilidad con una señal de fondo reducida debido a la falta de agentes de reticulación que de otro modo enmascararían los epítopos de anticuerpos. La adopción de esta técnica para estudiar la regulación de la cromatina requiere una comprensión profunda del principio subyacente a la técnica y una comprensión de cómo analizar, validar e interpretar los datos de CUT&RUN.
El procedimiento CUT&RUN comienza con la unión de las células a la concanavalina A conjugada con perlas magnéticas para permitir la manipulación de números bajos de células durante todo el procedimiento. Las células aisladas se permeabilizan utilizando un detergente suave para facilitar la introducción de un anticuerpo que se dirige a la proteína de interés. A continuación, la nucleasa microcócica (MNasa) se recluta para el anticuerpo unido mediante una etiqueta de proteína A o proteína A/G unida a la enzima. El calcio se introduce para iniciar la actividad enzimática. La digestión de MNasa da lugar a complejos mononucleosomales de ADN-proteína. Posteriormente, el calcio se quela para finalizar la reacción de digestión, y los fragmentos cortos de ADN de la digestión de la MNasa se liberan de los núcleos, luego se someten a la purificación del ADN, la preparación de la biblioteca y la secuenciación de alto rendimiento1 (Figura 1).
Los enfoques in silico para mapear y cuantificar la ocupación de proteínas en todo el genoma se han desarrollado en paralelo con los enfoques de laboratorio húmedo utilizados para enriquecer esas interacciones ADN-proteína. La identificación de regiones de señales enriquecidas (picos) es uno de los pasos más críticos en el análisis bioinformático. Los métodos iniciales de análisis ChIP-seq utilizaron algoritmos como MACS2 y SICER3, que emplearon modelos estadísticos para distinguir los sitios de unión proteína-ADN de buena fe del ruido de fondo. Sin embargo, el menor ruido de fondo y la mayor resolución de los datos CUT&RUN hacen que algunos programas de llamadas máximas empleados en el análisis ChIP-seq no sean adecuados para el análisis CUT&RUN4. Este reto pone de manifiesto la necesidad de contar con nuevas herramientas más adecuadas para el análisis de los datos de CUT&RUN. SEACR4 representa una de esas herramientas desarrolladas recientemente para permitir la llamada máxima de los datos de CUT&RUN, al tiempo que supera las limitaciones asociadas con las herramientas que normalmente se emplean para el análisis ChIP-seq.
Las interpretaciones biológicas de los datos de secuenciación de CUT&RUN se extraen de las salidas posteriores a la llamada de picos en la canalización de análisis. Se pueden implementar varios programas de anotación funcional para predecir la relevancia biológica potencial de los picos llamados a partir de los datos de CUT&RUN. Por ejemplo, el proyecto Gene Ontology (GO) proporciona una identificación funcional bien establecida de genes de interés 5,6,7. Diversas herramientas y recursos de software facilitan el análisis de GO para revelar genes y conjuntos de genes enriquecidos entre los picos de CUT&RUN 8,9,10,11,12,13,14. Además, el software de visualización como Deeptools15, Integrative genomics viewer (IGV)16 y UCSC Genome Browser17 permiten la visualización de la distribución de señales y patrones en regiones de interés en todo el genoma.
La capacidad de extraer interpretaciones biológicas a partir de los datos de CUT&RUN depende fundamentalmente de la validación de la calidad de los datos. Los componentes críticos a validar incluyen la evaluación de: i) la calidad de la secuenciación de la biblioteca CUT&RUN, ii) la similitud replicada y iii) la distribución de la señal en los centros de picos. Completar la validación de los tres componentes es crucial para garantizar la fiabilidad de las muestras de la biblioteca CUT&RUN y los resultados de los análisis posteriores. Por lo tanto, es esencial establecer guías introductorias de análisis CUT&RUN para permitir que los principiantes en bioinformática y los investigadores de laboratorio húmedo realicen dichos pasos de validación como parte de sus canales de análisis CUT&RUN estándar.
Junto con el desarrollo del experimento CUT&RUN de laboratorio húmedo, se han desarrollado varias tuberías de análisis CUT&RUN in silico, como CUT&RUNTools 2.018,19, nf-core/cutandrun20 y CnRAP21, para respaldar el análisis de datos de CUT&RUN. Estas herramientas proporcionan enfoques potentes para analizar conjuntos de datos CUT&RUN y CUT&Tag de una sola celda y masivos. Sin embargo, la estructura relativamente compleja del programa modular y la familiaridad requerida con múltiples lenguajes de programación para llevar a cabo estas canalizaciones de análisis pueden dificultar la adopción por parte de los principiantes en bioinformática que buscan comprender a fondo los pasos de análisis de CUT&RUN y personalizar sus propias canalizaciones. La elusión de esta barrera requiere una nueva canalización de análisis CUT&RUN introductoria que se proporciona en scripts simples paso a paso codificados con un solo lenguaje de programación simple.
En este artículo, describimos un sencillo protocolo de canalización de análisis CUT&RUN de un solo idioma que proporciona scripts paso a paso compatibles con descripciones detalladas para permitir que los usuarios nuevos y novatos realicen análisis de secuenciación CUT&RUN. Los programas utilizados en esta canalización están disponibles públicamente por los grupos de desarrolladores originales. Los pasos principales descritos en este protocolo incluyen la alineación de lectura, la llamada de picos, el análisis funcional y, lo que es más importante, los pasos de validación para evaluar la calidad de la muestra y determinar la idoneidad y confiabilidad de los datos para la interpretación biológica (Figura 2). Además, esta canalización brinda a los usuarios la oportunidad de hacer referencias cruzadas de los resultados del análisis con los conjuntos de datos CUT&RUN disponibles públicamente. En última instancia, este protocolo de canalización de análisis CUT&RUN sirve como guía introductoria y referencia para los principiantes en análisis bioinformático y los investigadores de laboratorio húmedo.
NOTA: La información sobre los archivos fastq de CUT&RUN en GSE126612 está disponible en la Tabla 1. La información relacionada con las aplicaciones de software utilizadas en este estudio se enumera en la Tabla de Materiales.
1. Descargar el pipeline de Easy-Shells_CUTnRUN desde su página de Github
2. Instalación de los programas necesarios para Easy Shells CUTnRUN
3. Descargar el conjunto de datos CUT&RUN disponible públicamente desde el Archivo de lectura de secuencias (SRA)
4. Control de calidad inicial de los archivos de secuenciación sin procesar
5. Calidad y recorte del adaptador para archivos de secuenciación sin procesar
6. Descarga del índice bowtie2 para los genomas de referencia para muestras de control reales y con picos
7. Mapeo de lecturas de secuenciación CUT&RUN recortadas a los genomas de referencia
8. Ordenar y filtrar los archivos de pares de lectura asignados
9. Convierta pares de lecturas asignadas en fragmentos BEDPE, BED y recuentos de lecturas sin procesar archivos bedGraph
10. Conversión de archivos bedGraph de recuentos de lecturas sin procesar a archivos bedGraph y bigWig normalizados
11. Validación de la distribución del tamaño de los fragmentos
12. Picos de llamadas usando MACS2, MACS3 y SEACR
13. Creación de archivos de lecho de pico llamados
14. Validar la similitud entre réplicas utilizando la correlación de Pearson y el análisis de componentes principales (PC).
15. Validar la similitud entre réplicas, métodos de llamada de picos y opciones usando el diagrama de Venn
16. Analizar mapas de calor y gráficos de promedio para visualizar los picos llamados.
La calidad y el recorte del adaptador conservan las lecturas con alta calidad de secuenciación
Las técnicas de secuenciación de alto rendimiento son propensas a generar errores de secuenciación, como "mutaciones" de secuencia en las lecturas. Además, los dímeros del adaptador de secuenciación se pueden enriquecer en conjuntos de datos de secuenciación debido a una mala extracción del adaptador durante la preparación de la biblioteca. Los errores de secuencia...
La capacidad de mapear la ocupación de proteínas en la cromatina es fundamental para realizar estudios mecanicistas en el campo de la biología de la cromatina. A medida que los laboratorios adoptan nuevas técnicas de laboratorio húmedo para perfilar la cromatina, la capacidad de analizar los datos de secuenciación de esos experimentos de laboratorio húmedo se convierte en un cuello de botella común para los científicos de laboratorio húmedo. Por lo tanto, describimos un protoco...
Los autores declaran no divulgar.
Todas las figuras ilustradas fueron creadas con BioRender.com. CAI reconoce el apoyo brindado a través de un Premio al Investigador de Carrera Temprana de la Alianza para la Investigación del Cáncer de Ovario, una Subvención Aceleradora de la Fundación Forbeck y el Premio Nacional de Investigación de Detección Temprana de la Alianza de Cáncer de Ovario de Minnestoa.
Name | Company | Catalog Number | Comments |
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation - Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados