The genetic reporter assay is a well-established and powerful tool for dissecting the relationship between DNA sequences and their gene regulatory activities. Coupling candidate regulatory elements to reporter genes that carry identifying sequence tags enables massive parallelization of these assays.
The genetic reporter assay is a well-established and powerful tool for dissecting the relationship between DNA sequences and their gene regulatory activities. The potential throughput of this assay has, however, been limited by the need to individually clone and assay the activity of each sequence on interest using protein fluorescence or enzymatic activity as a proxy for regulatory activity. Advances in high-throughput DNA synthesis and sequencing technologies have recently made it possible to overcome these limitations by multiplexing the construction and interrogation of large libraries of reporter constructs. This protocol describes implementation of a Massively Parallel Reporter Assay (MPRA) that allows direct comparison of hundreds of thousands of putative regulatory sequences in a single cell culture dish.
Ensayos Reporteros Massively Parallel (MPRA) permiten medir multiplexado de las actividades reguladoras de la transcripción de miles a cientos de miles de secuencias de ADN 1-7. En su aplicación más común, la multiplexación se logra mediante el acoplamiento de cada secuencia de interés a un gen indicador sintético que contiene una identificación de etiqueta de secuencia aguas abajo de un marco de lectura abierto (ORF; Figura 1). Después de la transfección, el aislamiento de ARN y secuenciación profunda de los extremos 3 'de los transcritos del gen reportero, las actividades relativas de las secuencias unidas se pueden deducir de la abundancia relativa de sus etiquetas de identificación.
Figura 1 Descripción general de MPRA. Una biblioteca de reportero MPRA construcciones se construye acoplando secuencias reguladoras putativas a sintéticogenes indicadores que consisten en un "inerte" ORF (como GFP o luciferasa), seguido de una identificación de marcadores de secuencias. La biblioteca es transfectada en masa en una población de células cultivadas y ARNm transcrito reportero se recupera posteriormente. Secuenciación de profundidad se utiliza para contar el número de ocurrencias de cada etiqueta entre los mRNAs reportero y los plásmidos transfectados. La proporción de mRNA cuenta sobre los recuentos de plásmido puede utilizarse para inferir la actividad de la secuencia reguladora correspondiente. Adaptado con permiso de Melnikov, et al 2.
MPRA se puede adaptar a una amplia variedad de diseños experimentales, incluyendo 1) la mutagénesis integral de elementos reguladores de genes individuales, 2) la exploración de nuevos elementos reguladores a través de un locus de interés, 3) probar el efecto de la variación genética natural en un conjunto de putativo promotores, potenciadores o silenciadores, y 4) ingeniería semi-racional de los elementos reguladores sintéticos. Libraries de variantes de secuencia pueden generarse usando una variedad de métodos, incluyendo la síntesis de la biblioteca de oligonucleótidos (OLS) en microarrays programables 2,3,6,7, conjunto de oligonucleótidos degenerados, 1,4 ligadura 8 combinatoria y la fragmentación de ADN genómico 5.
Este protocolo describe la construcción de una biblioteca de variantes de promotor usando OLS y los vectores de pMPRA1 y pMPRAdonor1 (Addgene IDs 49349 y 49352, respectivamente; http://www.addgene.org), la transfección transitoria de esta biblioteca en células de mamífero cultivadas y la posterior cuantificación de las actividades promotoras de secuenciación profunda de sus etiquetas asociadas (Tag-Seq). Las versiones anteriores de este protocolo se utilizaron en la investigación publicada en Melnikov et al. Nature Biotechnology 30, 271-277 (2012) y en Kheradpour et al. Genome Research 23, 800-811 (2013).
1. Secuencia Diseño y Síntesis
MPRA_SfiI_F | GCTAAGGGCCTAACTGGCCGCTTCACTG |
MPRA_SfiI_R | GTTTAAGGCCTCCGTGGCCGACGCTCTTC |
TAGseq_P1 | AATGATACGGCGACCACCGAGATCTACACT CTTTCCCTACACGACGCTCTTCCGATCT |
TAGseq_P2 | CAAGCAGAAGACGGCATACGAGAT [índice] GT GACTGGAGTTCAGACGTGTGCTCTTCCGATCTCGAGG |
Tabla 1. Primer secuencias. [Indice] denota una secuencia de índice de 6 a 8 nt utilizado para la secuenciación de multiplexado. Obtener al menos 8 cebadores TagSeq-P2 con diferentes índices. Todosde los cebadores debe ser purificado por HPLC o PAGE.
Reactivo | 1x Volumen (l) |
Herculase II Fusión ADN polimerasa | 0,5 |
Reaction Buffer 5x Herculase II | 10 |
dNTP (10 mM cada uno) | 1.25 |
BSA (20 mg / ml) | 1.25 |
MPRA_SfiI_F Primer (25 mM) | 0.25 |
MPRA_SfiI_R Primer (25 mM) | 0.25 |
Plantilla OLS (1-10 attomol) | varía |
Agua libre de nucleasa | a 50 |
Figura 2 Preparación de bibliotecas de síntesis de oligonucleótidos. A) Tres bibliotecas de síntesis de oligonucleótidos primas diferentes (MCO) se ejecutan en la desnaturalización de 10% TBE-urea geles de poliacrilamida. Las bandas correspondientes a los oligonucleótidos de longitud completa (*) se pueden visualizar y extirpados de bibliotecas 1 y 2 Biblioteca 3 contiene contaminantes que interfieren con la purificación PAGE. Si este es el caso, proceder directamente a la PCR de amplificación. B) los productos de amplificación por PCR abierto y emulsión de la misma corrida biblioteca de oligonucleótidos en un gel de agarosa. La amplificación por PCR de las bibliotecas de oligonucleótidos complejos con frecuencia crea productos quiméricos y otros artefactos que pueden aparecer como bandas superiores e inferiores. Emulsión PCR puede minimizar estos artefactos.
2. Construcción de la Biblioteca
3. Transfection, Perturbación, y Aislamiento de ARN
4. Tag-Seq
Reactivo | 1x Volumen (l) |
muestra de ARNm (400-700 ng total) | 8 |
Oligo-0DT (50 M) | 1 |
dNTP (10 mM cada uno) | 1 |
Reactivo | 1x Volumen (l) |
10x superíndice III RT Buffer | 2 |
MgCl2 (25 mM) | 4 |
DTT (0,1 M) | 2 |
RNaseOUT (40 U / l) | 1 |
Superíndice III (200 U / l) | 1 |
Tabla ADNc 4. mezcla de reacción de síntesis.
Reactivo | 1x Volumen (l) |
2x PfuUltra II HotStart PCR Master Mix | 25 |
TagSeq_P1 Primer (25 mM) | 0,5 |
TagSeq_P2 Primer (25 mM) | 0,5 |
Plantilla (ARNm, ADNc o ADN plásmido mix) | varía |
Agua libre de nucleasa | a 50 |
Tabla 5. mezcla de reacción de PCR Tag-Seq.
MPRA facilita de alta resolución, la disección cuantitativa de las relaciones de secuencia de la actividad de elementos reguladores transcripcionales. Un experimento exitoso MPRA típicamente producirá mediciones altamente reproducibles para la mayoría de las secuencias en la biblioteca transfectadas (Figura 3A). Si se observa una mala reproducibilidad (Figura 3B), esto es indicativo de una concentración demasiado baja de mRNAs reportero en las muestras de ARN recuperado, ya sea debido a 1) una baja actividad absoluta entre las secuencias ensayadas, o 2) la baja eficiencia de transfección.
La figura 4 muestra un representante "información de la huella" 1,2 generada por el ensayo de ~ 37.000 variantes aleatorias de una secuencia de 145 pb aguas arriba del gen IFNB humano en células HEK293 con o sin exposición al virus Sendai. El promotor TATA-box y conocido promotor de proximal 10 pueden ser claramente identificados como regi rico en informacióncomplementos de una manera dependiente de virus.
Figura 3.-Tag Sec reproducibilidad diagramas de dispersión que muestran ejemplos de datos de la etiqueta de la Seq dos transfecciones independientes replicadas con alta (A) y baja (B) la reproducibilidad.. Este último gráfico muestra muchas etiquetas de valores atípicos con recuentos de alta mRNA en sólo una de las dos repeticiones. Tales artefactos típicamente indican que las concentraciones de ARNm reportero eran demasiado bajos para la amplificación de PCR cuantitativa, ya sea debido a las actividades absolutas bajas entre los constructos informadores, o bajas eficiencias de transfección.
Figura 4. Información footprinting del sitio de inicio de transcripción IFNB humano y potenciador proximal. Aproximadamente 37.000 variantes aleatorias de un (nt) región de 145 nucleótidos aguas arriba del gen IFNB humano se analizaron utilizando MPRA en células HEK293 con (A) y sin (B) la exposición al virus Sendai. Las barras azules muestran la información mutua entre la salida reportero y el nucleótido en cada posición. El potenciador proximal y la caja TATA se destacan como las regiones de alto contenido de información a la infección viral.
MPRA is a flexible and powerful tool for dissection of sequence-activity relationships in gene regulatory elements. The success of MPRA experiments depend on at least three factors: 1) careful design of the sequence library, 2) minimization of artifacts during amplification and cloning, and 3) high transfection efficiency.
The possible lengths of the variable regions in the reporter constructs are largely determined by the synthesis or cloning technology used. Standard OLS is generally limited to about 200 nt, but this protocol is compatible with inserts up to at least 1,000 nt. Note that variable regions that are highly repetitive or contain strong secondary structures may end up underrepresented due to PCR and cloning biases. The length of the tags that identify each of the variable regions should be 10-20 nt and the collection of tags should ideally be designed such there are at least two nucleotide differences between any pair. Tags that contain the seed sequences of known microRNA or other factors that might influence mRNA stability should also be avoided when possible.
A key parameter in the design of MPRA experiments is the total number of distinct reporter constructs to be included in the library (the design complexity, denoted CD). In practice, CD is limited by the number of cultured cells that can be transfected. As a rule of thumb, the total number of transfected cells should be at least 50-100 times greater than CD. For example, if 20 million cells can be transfected with a transfection efficiency of 50%, then CD should be no more than ~200,000. Note that CD is equal to the number of distinct regulatory sequence variants multiplied by the number of distinct tags per sequence. The more distinct tags are linked to each regulatory sequence, the more accurate the estimate of the activity of that sequence can be made (because measurements from distinct tags can be averaged), but the fewer distinct variants can be assayed in one experiment. The optimal choice depends on the experimental design. In a simple “promoter bashing” experiment, where a mathematical model will be fitted to the aggregated measurements, a single tag per variant is usually sufficient. In a screen for single-nucleotide polymorphisms that cause changes in regulatory activities, it may be necessary to use 20 or more tags per allele to obtain statistically robust results, because comparing each pair of alleles requires a separate hypothesis test.
If the sequences to be assayed are not expected to contain transcription start sites, a constant promoter can also be added in the same fragment. For example, pMPRAdonor2 (Addgene ID 49353) includes a minimal TATA-box promoter that is useful when the upstream variable region is expected to have significant enhancer activity, while pMPRAdonor3 (Addgene ID 49354) includes a modified, strong SV40 viral promoter that is useful when the variable region is expected to contain silencer activity or other negative regulatory elements.
Raw OLS products often contain a significant fraction of truncated oligonucleotides. These may interfere with accurate PCR amplification of the designed sequences, particularly when there is significant homology between them. Using PAGE purification to remove truncated synthesis products and emulsion PCR to minimize amplification artifacts are effective techniques for ensuring high library quality. If either step is impractical, it is imperative to minimize the number of PCR cycles used at each amplification step. Selection and expansion of the cloned library in liquid culture is generally sufficient to maintain the design complexity, but if recombination-prone vectors are to be used or significant representation bias is observed, the recovered cells can instead be plated directly onto large LB agar plates, expanded as individual colonies and then scraped off for DNA isolation. It is also important to consider the potential impact of synthesis errors, which are typically found at a rate of 1:100-500 in OLS. Full-length sequencing of the reporter constructs prior to transfection is recommended to identify and correct for such errors.
It is not necessary to introduce reporter constructs into every cell in the transfected culture, but transfection efficiencies below ~50% may lead to poor signal to noise ratios. It is advisable to optimize transfection conditions prior to performing MPRA experiments in a new cell type. When working with hard-to-transfect cell types, MPRA signals can be boosted by pre-selecting transfected cells. The pMPRA vector series includes variants that constitutively express a truncated cell surface marker that can be used to physically enrich for transfected cells prior to RNA isolation (for example, Addgene IDs 49350 and 49351).
Los autores declaran que no tienen intereses financieros en competencia.
Este trabajo fue apoyado por el Instituto Nacional de Investigación del Genoma Humano de los Institutos Nacionales de la Salud bajo el número Premio R01HG006785.
Name | Company | Catalog Number | Comments |
Oligonucleotide library synthesis | Agilent, CustomArray or other OLS vendors | custom | If using OLS construction method |
pMPRA1 | Addgene | 49349 | MPRA plasmid backbone |
pMPRAdonor1 | Addgene | 49352 | luc2 ORF donor plasmid |
TE 0.1 Buffer (10 mM Tris-HCl, 0.1 mM EDTA, pH 8.0) | Generic | n/a | OLS buffer |
Novex TBE-Urea Gels, 10% | Life Technologies | EC6875BOX | PAGE purification of OLS products |
Novex TBA-Urea Sample Buffer | Life Technologies | LC6876 | PAGE purification of OLS products |
SYBR Gold Nucleic Acid Gel Stain | Life Technologies | S-11494 | PAGE purification of OLS products |
Micellula DNA Emulsion & Purification Kit | EURx/CHIMERx | 3600-01 | Library amplification by emulsion PCR |
Herculase II Fusion DNA Polymerase | Agilent | 600675 | Polymerase for emulsion PCR |
SfiI | New England Biolabs | R0123S | Library cloning with pMPRA vectors |
KpnI-HF | New England Biolabs | R3142S | Library cloning with pMPRA vectors |
XbaI | New England Biolabs | R0145S | Library cloning with pMPRA vectors |
T4 DNA Ligase (2,000,000 units/ml) | New England Biolabs | M0202T | Library cloning with pMPRA vectors |
One Shot TOP10 Electrocomp E. coli | Life Technologies | C4040-50 | Library cloning with pMPRA vectors |
LB agar and liquid media with carbenicllin | Generic | n/a | Growth media for cloning |
E-Gel EX Gels 1% | Life Technologies | G4010-01 | Library verification and purification |
E-Gel EX Gels, 2% | Life Technologies | G4010-02 | Library verification and purification |
MinElute Gel Extraction Kit | Qiagen | 28604 | Library and backbone purification |
EndoFree Plasmid Maxi Kit | Qiagen | 12362 | Library DNA isolation |
Cell culture media | n/a | n/a | Experiment-specific |
Transfection reagents | n/a | n/a | Experiment-specific |
MicroPoly(A)Purist Kit | Life Technologies | AM1919 | mRNA isolation |
TURBO DNA-free Kit | Life Technologies | AM1907 | Plasmid DNA removal |
SuperScript III First-Strand Synthesis System | Life Technologies | 18080-051 | cDNA synthesis |
PfuUltra II Hotstart PCR Master Mix | Agilent | 600850 | Polymerase for Tag-Seq PCR |
Primers (see text) | IDT | custom | PAGE purify Tag-Seq primers |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados