Method Article
La secuenciación del ADN agrupado es una estrategia rápida y rentable para la detección de variantes raras asociadas con fenotipos complejos en grandes cohortes. A continuación se describe el análisis computacional de combinado, secuenciación de próxima generación de los 32 genes relacionados con el cáncer utilizando el paquete de software Splinter. Este método es escalable y aplicable a cualquier fenotipo de interés.
Como la tecnología de secuenciación del ADN ha avanzado notablemente en los últimos años 2, se ha convertido cada vez más evidente que la cantidad de variación genética entre dos individuos es mayor que antes se pensaba 3. En contraste, la serie basada en la genotipificación no ha identificado una importante contribución de variantes de secuencias comunes a la variabilidad fenotípica de la enfermedad de 4,5 común. En conjunto, estas observaciones han llevado a la evolución de la enfermedad común / variante rara hipótesis que sugiere que la mayoría de la "herencia perdida" en los fenotipos comunes y complejas es más bien debido al perfil personal de un individuo de variantes de ADN raras o privadas 6-8 . Sin embargo, la caracterización de cómo la variación afecta rara fenotipos complejos requiere el análisis de muchos individuos afectados en muchos loci del genoma, y está muy bien en comparación con un estudio similar realizado en una cohorte de afectados. A pesar de la secuenciación de alimentación que ofrecen las plataformas de hoy, unencuesta de población de muchos loci del genoma y el posterior análisis computacional requerido sigue siendo prohibitivo para muchos investigadores.
Para satisfacer esta necesidad, hemos desarrollado un enfoque de secuenciación combinado 1,9 y un paquete de software para la detección de una nueva variante de alta precisión poco frecuente de los datos resultantes. La capacidad de los genomas de la piscina de poblaciones enteras de las personas afectadas y de la encuesta el grado de variación genética en varias regiones seleccionadas en una biblioteca de la secuencia única permite un excelente ahorro de costes y tiempo a la metodología tradicional de la secuenciación de una sola muestra. Con una cobertura media por secuenciación del alelo de 25 veces, nuestro algoritmo personalizado, Splinter, utiliza una variante interna de llamar a la estrategia de control para llamar a las inserciones, supresiones y sustituciones hasta cuatro pares de bases de longitud con una alta sensibilidad y especificidad de las piscinas de hasta 1 alelo mutante en 500 individuos. Aquí se describe el método para preparar la s agruparonequencing la biblioteca seguido las instrucciones paso a paso sobre cómo utilizar el paquete para el análisis de la secuenciación SPLINTER combinado ( http://www.ibridgenetwork.org/wustl/splinter ). Se presenta una comparación entre la secuencia combinada de 947 personas, todos los cuales también se sometieron a todo el genoma de matriz, en más de 20kb de la secuenciación por persona. La concordancia entre el genotipado de etiquetado y nuevas variantes de llamadas en el grupo de muestras fueron excelentes. Este método puede ser fácilmente ampliado a cualquier número de loci genómicos y cualquier número de individuos. Mediante la incorporación de los controles internos de amplificación positivas y negativas en proporciones que imitan a la población en estudio, el algoritmo puede ser calibrado para obtener un rendimiento óptimo. Esta estrategia también se puede modificar para su uso con la captura de hibridación o códigos de barras individuales específicos y se puede aplicar a la secuenciación de muestras naturalmente heterogéneos, como el ADN del tumor.
Este método fue utilizado en la investigación publicada en Vallania FML y otros de investigación. Genoma de 2010.
1. Ejemplo de la agrupación y la captura de PCR de las poblaciones destinatarias loci del genoma
2. Fondo Común de PCR y secuenciación Preparación Biblioteca
3. Lecturas de secuenciación y análisis de alineación
4. Detección variante rara uso SPLINTER
5. Los resultados representativos
Se combinaron una población de 947 individuos y dirigido más de 20 kb para la secuenciación. Se aplicaron SPLINTER para la detección de variantes raras siguiendo el protocolo estándar. Cada individuo había tenido previamente genotipificación realizada por todo el genoma genotipo matriz. La concordancia entre el genotipado de etiquetado y nuevas variantes de llamadas en el grupo de muestras fueron excelentes (Figura 6). Tres variantes, dos de ellas (rs3822343 y rs3776110) fueron poco frecuentes en la población, fueron llamados de novo a partir de los resultados de la secuenciación y fueron validadas por pirosecuenciación individual. Las frecuencias de alelos menores (MAF) en el grupo fueron similares a la MAF informó en dbSNP 129 de construcción. La concordancia entre el MAF pirosecuenciación y la secuencia combinada fue excelente (Tabla 3).
Tabla 1. Secuencias de ADN de oligonucleótidos para el control positivo. Cada secuencia se compone de un fragmento de ADN que difiere de la referencia de tipo salvaje ya sea por dos sustituciones o una inserción y supresión uno. Haga clic aquí para ampliar la imagen .
Tabla 2. Ejemplo de salida SPLINTER. Las dos primeras filas representan la salida SPLINTER estándar para una sustitución o una deleción (encabezado azul). La última fila es la salida del SPLINTER estándar para una inserción (encabezamiento de color morado).rget = "_blank"> Haga clic aquí para ampliar la imagen.
Tabla 3. Cinco conocidos y tres nuevas variantes se identificaron a partir de poblaciones grandes y validado por genotipo individual. La validación individual fue realizada por pirosecuenciación (filas 1-3), TaqMan ensayo (filas 4-6) o secuenciación de Sanger (filas 7,8). Para una amplia gama de frecuencias de los alelos y que incluye cinco posiciones con MAF <1%, la concordancia entre la estimación conjunta de secuenciación y genotipado frecuencia de los alelos individuo era fuerte. Posiciones marcados con un asterisco (*) son una adaptación de los datos se informó anteriormente 9.
Figura 1. Agrupado-secuenciación de ADN y análisis de SPLINTER visión. ADN del paciente se agruparony amplificada en loci seleccionados. Los productos finales de la PCR se agruparon junto con un control positivo y negativo en proporciones equimolares. La mezcla se reunieron a continuación, la secuencia y las lecturas resultante se asignan de nuevo a su referencia. Asignado Lecturas control negativo se utilizan para generar un modelo de error de ejecución específico. SPLINTER entonces se puede utilizar para detectar SNP rara y indeles mediante la incorporación de información desde el modelo de error y el control positivo. [Adaptado de Vallania MFF y otros, de Investigación del Genoma 2010] Haga clic aquí para ampliar la imagen .
Figura 2. Agrupado PCR ligadura amplicón y sonicación. Como una demostración de la ligadura y pasos aleatorios de fragmentación en el protocolo de preparación de biblioteca, el vector pUC19 fue digerido enzimáticamente a los fragmentos se muestran en el carril 2. Estos fragmentos fueron Normalizado por el número molécula, se combinaron y se ligó al azar según el paso 1,7 arriba. Los concatémeros grandes resultantes se muestran en la calle 3. Los concatémeros ligados se dividen por igual y se sometió a sonicación, como se describe en el paso anterior 1,8. El frotis resultante de fragmentos de ADN para cada repetición técnica se muestran en los carriles 4 y 5. El soporte se destaca la gama del tamaño utilizado para la extracción de gel y la creación de bibliotecas de secuenciación.
Figura 3. Precisión como una función de la cobertura de un único alelo en una muestra conjunta. La precisión se calcula como el área bajo la curva (AUC) de una curva operador receptor (ROC), que oscila entre 0,5 (al azar) a 1,0 (con una precisión perfecta). AUC se representa como una función de la cobertura por alelo para la detección de alelos mutantes individuales en piscinas de alelos 200, 500 y 1000 (A). AUC se representa como una función de la cobertura total de sustituciones, inserciones y deletions (B). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].
4 Figura. Trama error muestra la probabilidad de incorporación de una base errónea en una posición dada. El perfil de error de muestra bajos índices de error con una tendencia creciente hacia el extremo 3 'de la secuencia de lectura. Notablemente, los nucleótidos de referencia diferentes mostrar diferentes probabilidades de error (véase, por ejemplo probabilidad de incorporación de un C dada una G como referencia). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].
Figura 5. Precisión de la astilla en la estimación de frecuencia de los alelos para las posiciones que tenían una cobertura superior a 25 veces por cada alelo. Basándose en los resultados del Panel A, Figura 3 muestra una sensibilidad óptima para la detección de la variante individual con ≥ 25 veces la cobertura, uncomparación entre las frecuencias de alelos combinado de ADN estimada por SPLINTER con los recuentos de los alelos medidos por los resultados de GWAS en muy alta correlación (r = 0,999). [Adaptado de Vallania MFF y otros, de Investigación del Genoma de 2010].
Figura 6. Comparación entre las frecuencias de alelos medidos por GWAS en comparación con las estimaciones de astilla de la secuencia combinada de 974 personas. Había 19 posiciones comunes entre los loci genotipo y las regiones de secuencias para la comparación. La correlación resultante es muy alta (r = 0,99538). Haga clic aquí para ver más grande la figura .
Hay evidencia creciente de que la incidencia y la respuesta terapéutica de los fenotipos comunes, complejos y enfermedades como la obesidad 8, 4 hipercolesterolemia, la hipertensión 7 y otros pueden ser moderadas por perfiles personales de variación poco frecuente. La identificación de los genes y vías donde estos agregados variantes en las poblaciones afectadas tendrán profundas implicaciones diagnósticas y terapéuticas, pero el análisis de las personas afectadas por separado puede llevar mucho tiempo y el costo prohibitivo. Población basada en el análisis ofrece un método más eficiente para investigar la variación genética en múltiples loci.
Se presenta un nuevo combinado de ADN protocolo de secuenciación se combina con el paquete de software diseñado para identificar SPLINTER este tipo de variación genética entre las poblaciones. Se demuestra la exactitud de este método en la identificación y cuantificación de los alelos de menor importancia dentro de una gran población combinada de 947 personas, incluyendo las variantes raras que eranllamado de novo a partir de la secuenciación agruparon y validado por pirosecuenciación individuo. Nuestra estrategia principalmente difiere de otros protocolos por la incorporación de un positivo y un control negativo en cada experimento. Esto permite SPLINTER para lograr una precisión mucho mayor y la potencia en comparación con otros enfoques 1. La cobertura óptima de 25-veces por alelo se fija con independencia del tamaño de la piscina, haciendo que el análisis de grandes piscinas practicable que este requisito sólo escalas linealmente con el tamaño de la piscina. Nuestra aproximación es muy flexible y se puede aplicar a cualquier fenotipo de interés, sino también a las muestras que son naturalmente heterogénea, tales como las poblaciones de células mixtas y biopsias tumorales. Dado el interés cada vez mayor en la secuencia combinada de las regiones de destino de gran tamaño como el exoma o genoma, nuestra preparación para la biblioteca y el análisis de SPLINTER es compatible con la costumbre de captura y la secuenciación de todo el exoma, pero la utilidad de alineación en el paquete de SPLINTER no fue diseñado para grandehace referencia a las secuencias. Por lo tanto, hemos utilizado con éxito el alineador de programación dinámica, Novoalign, por todo el genoma alineaciones seguidas por la variante llamada de la muestra conjunta (Ramos et al., Presentado). Por lo tanto, nuestra estrategia combinada de secuenciación se puede ampliar con éxito a las piscinas más grandes con cantidades crecientes de secuencia de destino.
No hay conflictos de interés declarado.
Este trabajo fue apoyado por la concesión de los Niños del Discovery Institute MC-II-2006-1 (RDM y TED), el NIH Epigenética Hoja de Ruta de subvención [1R01DA025744-01 y 3R01DA025744 02S1-] (RDM y FLMV), U01AG023746 (SC), el Saigh Fundación (FLMV y TED), 1K08CA140720-01A1 y la limonada de Alex Stand "A" apoyo Premio (TED). Damos las gracias a la Tecnología del Genoma Centro de Acceso en el Departamento de Genética de la Universidad de Washington Escuela de Medicina de la ayuda para el análisis genómico. El Centro está parcialmente financiado por el NCI Cancer Support Center Grant # P30 CA91842 al Centro de Cáncer Siteman y TIC / CTSA Grant # UL1RR024992 de la NationalCenter Recursos para la Investigación (CNRR), un componente de los Institutos Nacionales de Salud (NIH), y NIH Roadmap para la Investigación Médica. Esta publicación es responsabilidad exclusiva de sus autores y no representan necesariamente la opinión oficial de la CNRR o NIH.
Name | Company | Catalog Number | Comments |
Reactivo Nombre | Empresa | Número de catálogo | Sección |
PfuUltra de alta fidelidad | Agilent | 600384 | 1.4 |
La betaína | SIGMA | B2629 | 1.4 |
M13mp18 vector de ADN de cadena simple | NEB | N4040S | 1.5 |
pGEM-T Easy | Promega | A1360 | 1.5 |
Polinucleótido quinasa de T4 | NEB | M0201S | 2.2 |
Ligase T4 | NEB | M0202S | 2.2 |
Polietilenglicol 8000 MW | SIGMA | P5413 | 2.2 |
Bioruptor sonicador | Diagenode | UCD-200-TS | 2.3 |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados