Method Article
Seqüenciamento de DNA pool é uma estratégia rápida e de custo eficaz para detectar variantes raras associadas com fenótipos complexos em grandes grupos. Aqui descrevemos a análise computacional de pool, o seqüenciamento da próxima geração de 32 genes relacionados ao câncer, utilizando o pacote de software SPLINTER. Este método é escalável, e aplicável a qualquer fenótipo de interesse.
Como tecnologia de seqüenciamento de DNA foi marcadamente avançou nos últimos anos 2, tornou-se cada vez mais evidente que a quantidade de variação genética entre dois indivíduos é maior do que se pensava anteriormente 3. Em contraste, uma matriz baseada em genotipagem falhou para identificar uma contribuição significativa de variantes da sequência de comuns para a variabilidade fenotípica de doença comum 4,5. Tomados em conjunto, essas observações levaram à evolução da doença comum / variante rara hipótese sugerindo que a maioria da "herdabilidade perdido" em fenótipos comuns e complexas, em vez disso, devido ao perfil pessoal de um indivíduo de variantes raras de DNA ou privada 6-8 . No entanto, caracterizando como rara variação impacta fenótipos complexos requer a análise de muitos indivíduos afetados em muitos loci genômicos, e está idealmente comparado a uma pesquisa similar em uma coorte afetados. Apesar do poder de sequenciação oferecida pelas plataformas de hoje, umainquérito de base populacional de loci genômicos muitos e posterior análise computacional requerido continua proibitivo para muitos investigadores.
Para atender a essa necessidade, desenvolvemos uma abordagem conjunta seqüenciamento 1,9 e um pacote de software para a detecção de um romance variante de alta precisão rara a partir dos dados resultantes. A capacidade de genomas piscina de populações inteiras de indivíduos afetados e levantamento do grau de variação genética em várias regiões-alvo em uma biblioteca de sequenciamento único proporciona excelentes economias em custo e tempo com a metodologia tradicional seqüenciamento amostra única. Com uma cobertura média por sequenciação do alelo de 25 vezes, o algoritmo personalizado, lasca, utiliza uma variante interna estratégia de controlo de chamada para chamar inserções, deleções e substituições até quatro pares de bases de comprimento, com elevada sensibilidade e especificidade de pools de até 1 alelo mutante em 500 indivíduos. Descrevemos aqui o método para a preparação do s reunidasequencing biblioteca seguido passo-a-passo sobre como usar o pacote SPLINTER para análise da sequenciação agrupada ( http://www.ibridgenetwork.org/wustl/splinter ). Nós mostramos uma comparação entre sequenciamento combinada de 947 indivíduos, os quais também foram submetidos genome-wide array, em mais de 20kb de seqüenciamento por pessoa. Concordância entre genotipagem de marcado e novas variantes chamadas na amostra composta foram excelentes. Este método pode ser facilmente dimensionada para qualquer número de loci genómicas e qualquer número de indivíduos. Ao incorporar os controles internos amplicon positivos e negativos em proporções que imitam a população em estudo, o algoritmo pode ser calibrado para um ótimo desempenho. Esta estratégia pode também ser modificados para utilização com captura de hibridação ou indivíduo específicos códigos de barras e pode ser aplicado para a sequenciação de amostras naturalmente heterogéneos, tais como o DNA do tumor.
Este método foi utilizado em investigação relatada em Vallania FML et al. Genome Research 2010.
1. Exemplo de Pooling e PCR Captura de Alvo Loci genômicos
2. Preparação Biblioteca Pooled PCR e Sequenciamento
3. Seqüenciamento Lê Alinhamento e Análise
4. Detecção de variante rara Usando SPLINTER
5. Os resultados representativos
Nós reunidas uma população de 947 indivíduos e orientados ao longo de 20 kb para sequenciação. Foram aplicados SPLINTER para a detecção de variantes raras seguindo nosso protocolo padrão. Cada indivíduo tinha anteriormente tinha genotipagem realizada por genome-wide genotipagem matriz. A concordância entre genotipagem de marcados e novas variantes chamados na amostra combinada foram excelentes (Figura 6). Três variantes, dois dos quais (rs3822343 e rs3776110) eram raros na população, foram chamados de novo a partir dos resultados de sequenciamento e foram validados por pyrosequencing individual. Freqüências alélicas Menores (FAM) no pool foram semelhantes aos do MAF relatado em dbSNP compilação 129. A concordância entre MAF pyrosequencing e seqüenciamento pool foi excelente (Tabela 3).
A Tabela 1. Sequências de oligonucleótidos de DNA para o controlo positivo. Cada seqüência consiste em um fragmento de DNA diferente da referência de tipo selvagem tanto por duas substituições ou uma inserção e outra de eliminação. Clique aqui para ver a imagem ampliada .
Tabela 2. Exemplo de saída SPLINTER. As duas primeiras linhas representam a saída SPLINTER padrão para uma substituição ou uma eliminação (cabeçalho azul). A última linha representa a saída SPLINTER padrão para uma inserção (cabeçalho roxo).rPegue = "_blank"> Clique aqui para ver a imagem ampliada.
Tabela 3. Cinco conhecido e três novas variantes foram identificadas a partir de grandes populações e validado por genotipagem individual. Validação individual foi realizada por pyrosequencing (linhas 1-3), ensaio de TaqMan (linhas 4-6), ou sequenciação de Sanger (linhas 7,8). Para uma ampla gama de freqüências alélicas e incluindo cinco posições com MAF <1%, a concordância entre a estimativa combinada seqüenciamento freqüência de alelos e genotipagem individual era forte. Posições marcados com um asterisco (*) estão adaptadas a partir dos dados previamente relatados 9.
Figura 1. Pooled DNA de seqüenciamento e análise panorâmica SPLINTER. DNA do paciente é agrupadae amplificado em loci seleccionados. Os produtos finais de PCR são reunidas em conjunto com um controlo positivo e negativo em proporções equimolares. A mistura é então combinada seqüenciados e as leituras resultante são mapeados de volta para sua referência. Mapeado controlo negativo leituras são usados para gerar um modelo de erro de execução específica. SPLINTER pode então ser usado para detectar SNPs rara e indels através da incorporação de informações a partir do modelo de erro eo controlo positivo. [Adaptado de Vallania FLM et al, Genome Research 2010] Clique aqui para ver a imagem ampliada .
Figura 2. Ligadura amplicon Pooled PCR e sonicação. Como uma demonstração da ligadura e passos de fragmentação aleatórias no protocolo de preparação da biblioteca, vector pUC19 foi digerido enzimaticamente para os fragmentos mostrados na pista 2. Estes fragmentos foram normazados em número molécula, combinadas e aleatoriamente ligado acordo com o passo 1.7 acima. Os concatamers resultantes grandes são mostrados na pista 3. Os concatamers ligadura foram igualmente divididas e submetido a sonicação como descrito no passo 1,8 acima. O esfregaço resultante de fragmentos de DNA para cada repetição técnica são mostrados nas pistas 4 e 5. O suporte de destaca o intervalo de tamanho utilizado para a extracção de gel e de criação de biblioteca sequenciação.
Figura 3. Precisão como uma função de cobertura para um único alelo numa amostra combinada. A precisão é estimada como a área sob a curva (AUC) de uma curva Receiver Operator (ROC), que varia de 0,5 (aleatório) para 1,0 (perfeita exatidão). AUC é traçado como uma função da cobertura por alelo para a detecção de alelos mutantes individuais em piscinas de 200, 500 e 1000 alelos (A). AUC é traçado como uma função para a cobertura total substituições, inserções e deletions (B). [Adaptado de Vallania FLM et al, Genome Research 2010].
4 Figura. Lote de erro mostra a probabilidade de incorporar uma base de errónea em uma determinada posição. O perfil de erro mostra as taxas de erro baixas com uma tendência crescente em direção a extremidade 3 'do seqüenciamento ler. Notavelmente, os nucleótidos de referência diferentes exibir probabilidades de erro diferentes (ver, por exemplo probabilidade de um determinado C incorporando um G como referência). [Adaptado de Vallania FLM et al, Genome Research 2010].
Figura 5. Precisão de SPLINTER na estimativa de freqüência do alelo para as posições que tinham cobertura superior a 25 vezes por alelo. Com base nos resultados no Painel A, Figura 3 mostrando a sensibilidade óptima para a detecção única variante com ≥ cobertura 25 vezes, umacomparação entre as freqüências alélicas pool de DNA-estimados pelo SPLINTER com contagens de alelos medidos pelos resultados GWAS em correlação muito alta (r = 0,999). [Adaptado de Vallania FLM et al, Genome Research 2010].
Figura 6. Comparação entre as freqüências alélicas medidos por GWAS em comparação com estimativas lasca de sequenciamento combinada de 974 indivíduos. Havia 19 posições comuns entre os loci genotipados e as regiões de seqüência para comparação. A correlação resultante é muito alta (r = 0,99538). Clique aqui para ver maior figura .
Existe uma evidência crescente que a incidência e resposta terapêutica de comuns, fenótipos complexos e doenças tais como a obesidade 8, hipercolesterolemia 4, hipertensão 7 e outros podem ser moderadas por perfis pessoais de variação rara. Identificar os genes e as vias onde essas variantes agregadas em populações afetadas terão profundas implicações diagnósticas e terapêuticas, mas analisando separadamente os indivíduos afetados pode ser o tempo e custo proibitivo. De base populacional análise oferece um método mais eficiente para o levantamento da variação genética em locos múltiplos.
Apresentamos um novo reunidas DNA-protocolo sequenciação emparelhado com o pacote de software SPLINTER desenhados para identificar este tipo de variação genética através de populações. Demonstramos a precisão deste método na identificação e quantificação alelos menores dentro de uma grande população combinada de 947 indivíduos, incluindo as variantes raras que eramchamado de novo a partir da sequência reunidas e validado por pyrosequencing individual. A nossa estratégia principalmente difere de outros protocolos pela incorporação de um positivo e um controlo negativo dentro de cada experiência. Isso permite que SPLINTER para conseguir uma precisão muito maior e de energia em comparação com outras abordagens 1. A cobertura óptima de 25 vezes por alelo é fixado de forma independente do tamanho da piscina, tornando a análise de agrupamentos de grandes viável como este requisito apenas as escalas linearmente com o tamanho da piscina. A nossa abordagem é muito flexível e pode ser aplicado a qualquer fenótipo de interesse, mas também para amostras que são naturalmente heterogénea, tais como as populações de células mistas e biópsias de tumores. Dado o interesse cada vez maior na seqüência combinada de regiões-alvo de grande porte como o exome ou genoma, a nossa biblioteca de preparação e análise SPLINTER é compatível com o costume de captura e de todo o exome seqüenciamento, mas o utilitário de alinhamento no pacote SPLINTER não foi projetado para grandesequências de referências. Portanto, temos utilizado com sucesso o alinhador de programação dinâmica, Novoalign, para genome-wide alinhamentos seguido de variante ligando a amostra conjunta (Ramos et al., Submetido). Assim, nossa estratégia de seqüenciamento de pool pode escalar com sucesso para piscinas maiores, com quantidades crescentes de sequência alvo.
Não há conflitos de interesse declarados.
Este trabalho foi financiado pelo Discovery das Crianças Instituto concessão MC-II-2006-1 (RDM e TED), o NIH Epigenetics Roteiro concessão [1R01DA025744-01 e 3R01DA025744-02S1] (RDM e FLMV), U01AG023746 (SC), o Saigh Foundation (FLMV e TED), 1K08CA140720-01A1 e Alex Lemonade Stand "A" apoio Award (TED). Agradecemos ao Centro do Genoma Acesso à Tecnologia do Departamento de Genética da Washington University School of Medicine de ajuda com a análise genômica. O Centro é parcialmente financiado pelo NCI Cancer Support Center Grant P30 CA91842 # para o Centro de Câncer Siteman e pela ICTS / CTSA Grant # UL1RR024992 do National Center for Research Resources (NCRR), um componente do National Institutes of Health (NIH), e NIH Roadmap for Medical Research. Esta publicação é da exclusiva responsabilidade dos autores e não representam necessariamente a posição oficial do NCRR ou NIH.
Name | Company | Catalog Number | Comments |
Nome do reagente | Companhia | Número de Catálogo | Seção |
PfuUltra Alta Fidelidade | Agilent | 600384 | 1,4 |
Betaína | SIGMA | B2629 | 1,4 |
M13mp18 ssDNA vector | NEB | N4040S | 1,5 |
pGEM-T Easy | Promega | A1360 | 1,5 |
Quinase de polinucleótido T4 | NEB | M0201S | 2,2 |
Ligase de T4 | NEB | M0202S | 2,2 |
Polietileno Glicol 8000 MW | SIGMA | P5413 | 2,2 |
Sonicador Bioruptor | Diagenode | UCD-200-TS | 2,3 |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados