Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
El propósito de este protocolo es utilizar una combinación de computacional y de investigación del Banco para buscar nuevas secuencias que no se puede separar fácilmente de una secuencia Co purificador, que puede ser conocida sólo parcialmente.
Sustractivo genómica puede utilizarse en cualquier investigación donde el objetivo es identificar la secuencia de un gen, la proteína o región general que está incrustado en un contexto más amplio de la genómico. Sustractivo genómica permite a un investigador aislar una secuencia Diana de interés (T) por la secuencia completa y restando elementos genéticos conocidos (referencia R). El método puede utilizarse para identificar secuencias novedosas tales como mitocondrias, cloroplastos, virus, o línea germinal restringido los cromosomas y es particularmente útil cuando T no puede ser fácilmente aislado de R. a partir de los datos genomic integrales (R + T), el método utiliza básico Local herramienta alineación de la búsqueda (BLAST) contra una secuencia de referencia, o secuencias, para quitar las secuencias conocidas correspondientes (R), dejando detrás del objetivo (T). Resta trabajar mejor, R debe ser un proyecto relativamente completo que falta T. Desde secuencias queda después de restar se prueban a través cuantitativo reacción en cadena polimerasa (qPCR), R no necesita ser completa para el método de trabajo. Aquí enlazamos pasos computacionales con medidas experimentales en un ciclo que puede ser iterado según sea necesario, secuencialmente eliminando múltiples secuencias de referencia y refinar la búsqueda para T. La ventaja de la genómica sustractivo es que puede identificarse una secuencia de destino completamente novedoso incluso en los casos en que la purificación física es difícil, imposible o costoso. Un inconveniente del método es encontrar una referencia adecuada para la resta y la obtención de T-positivos y negativos de las muestras para ensayos de qPCR. Se describe la implementación del método en la identificación el primer gen del cromosoma del germline-restricta del pinzón de la cebra. En ese caso filtrado computacional involucrados tres referencias (R), eliminados secuencialmente en tres ciclos: un incompleto conjunto genómico datos genómicos y transcriptómicos datos.
El propósito de este método es identificar un nuevo destino (T) secuencia genomic, ya sea ADN o ARN, de un contexto genómico o de referencia (R) (figura 1). El método es más útil si el objetivo no se puede separar físicamente, o que sería costoso hacerlo. Solamente unos pocos organismos han terminado perfectamente genomas para sustracción, una innovación clave de nuestro método es la combinación de computacional y métodos del Banco en un ciclo, permitiendo a los investigadores aislar secuencias diana cuando la referencia es imperfecta, o un proyecto genoma de un organismo no modelo. Al final de un ciclo, ensayo qPCR se utiliza para determinar si es necesario restar más. Una secuencia del candidato validada T mostrará estadísticamente mayor detección en muestras de T-positivo conocidas por qPCR.
Encarnaciones del método han sido implementadas en el descubrimiento de nuevas dianas bacterianas drogas que no tienen host homólogos1,2,3,4 y la identificación de nuevos virus desde equipos infectados 5,6. Además de la identificación de T, el método puede mejorar R: recientemente utilizamos el método para identificar los genes que faltan 936 desde el genoma de referencia de Pinzón de la cebra y un nuevo gen de un cromosoma sólo del germline (T)7. Sustractivo genómica es particularmente valioso cuando T es probable que sea extremadamente divergentes de secuencias conocidas, o cuando la identidad de T es ampliamente definida, como en el pinzón cebra restringido del germline del cromosoma7.
Al no requerir previamente la identificación positiva de T, una ventaja clave de la genómica sustractivo es que es imparcial. En un estudio reciente, Readhead et al examinaron la relación entre la enfermedad de Alzheimer y abundancia viral en cuatro regiones del cerebro. Para la identificación viral, Readhead et al crearon una base de datos de 515 virus8, limitando seriamente los agentes virales que su estudio podría identificar. Sustractivo genómica podría se han utilizado para comparar los sanos y genomas de Alzheimer para aislar de posibles virus nuevos asociados a la enfermedad, independientemente de su semejanza a los agentes infecciosos conocidos. Si bien hay 263 virus dirigidos a humanos, se ha estimado que existen aproximadamente 1,67 millones por descubrir especies virales, con 631.000 827.000 de ellos con un potencial para infectar a los seres humanos9.
Aislamiento de virus nuevos es un área en la cual resta genómica es muy eficaz, pero algunos estudios pueden que no necesite un método riguroso. Por ejemplo, estudios de identificables nuevos virus han utilizado imparcial secuenciación de alto rendimiento seguido por transcripción reversa y BLASTx de secuencias virales5 o enriquecimiento de ácidos nucleicos virales para extraer e invertir transcriben secuencias virales 6. mientras estos estudios secuenciación de novo y Asamblea, resta no fue utilizada porque las secuencias blanco se identificaron positivamente a través de la explosión. Si los virus eran completamente nuevos y no relacionados con (o muy relacionados) a otros virus, genómica sustractivo habría sido una técnica útil. El beneficio de la genómica sustractivo es que se pueden obtener secuencias que son completamente nuevas. Si se conoce el genoma del organismo, puede restarse a dejar cualquier secuencia viral. Por ejemplo, en nuestro estudio publicado se aislaron una secuencia viral novela del pinzón de la cebra a través de la genómica sustractivo, aunque no era nuestra intención original7.
Sustractivo genómica también ha demostrado ser útil en la identificación de los objetivos de la vacuna bacteriana, motivados por el aumento dramático en la resistencia a los antibióticos1,2,3,4. Para minimizar el riesgo de reacción autoinmune, investigadores limitado los objetivos potenciales de la vacuna restando cualquier proteínas que tienen homólogos en el anfitrión humano. Un estudio particular, mirando la pseudotuberculosis del Corynebacterium, realiza sustracción de genoma hospedador vertebrado de varios genomas bacterianos para que objetivos de medicamentos posible no afectaría a las proteínas en los anfitriones llevando a efectos secundarios 1. el flujo de trabajo básico de estos estudios es para descargar el proteoma bacteriano, determinar proteínas vitales, quitar proteínas redundantes, usar BLASTp para aislar las proteínas esenciales y BLASTp contra host proteoma para quitar cualquier proteínas con homólogos de host 1 , 2 , 3 , 4. en este caso, genómica resta asegurar que las vacunas desarrolladas no tendrá efectos off-target en el host1,2,3,4.
Utilizamos sustractivo genómica para identificar el primer gen codificante de la proteína en un restringido del germline cromosoma (GRC) (en este caso, T), que se encuentra en germlines pero no somática tejido de ambos sexos de10. Antes de este estudio, la información solamente genomic que se sabía acerca de lo GRC fue una región repetitiva11. Asamblea de novo fue realizada en RNA secuenciado de tejidos de ovario y teste (T + R) de pinzones cebra adulto. La eliminación computacional de secuencias se realizó usando publicado somático (muscular) genoma secuencia (R1)12, su materia prima (Sanger) lee datos (R2) y somático (cerebro) transcriptoma (R3)13. El uso secuencial de tres referencias fue impulsado por qPCR en paso 5 de cada ciclo (figura 2A), mostrando que el filtrado adicional se requiere. El gen de la α-SNAP descubierto fue confirmado mediante qPCR de DNA y RNA, clonación y secuenciación. Mostramos en el ejemplo que este método es flexible: no es dependiente en las coincidencias con los ácidos nucleicos (ADN vs RNA) y que resta se puede realizar con referencias (R) que están compuestos por conjuntos o lee crudo.
1. de novo montar a partir de secuencia
Nota: Los datos de la secuencia de la próxima generación (NGS) pueden utilizarse, como un conjunto puede obtenerse de esos datos. Datos de entrada adecuados incluyen Illumina, PacBio, o Oxford Nanopore Lee montado en un archivo fasta. De concreción, esta sección describe un conjunto transcriptómicos Illumina-base específica para el estudio de Pinzón cebra realizamos7; sin embargo ten en cuenta que los detalles variarán según el proyecto. Para nuestro proyecto de ejemplo, datos en bruto se derivaron de un MiSeq y Lee pares aproximadamente 10 millones fueron Obtenido de cada muestra.
2. explosión de la Asamblea contra la secuencia de referencia
Nota: Uso este paso cuando la referencia es un conjunto o largo lee como Sanger; Si se compone de Illumina raw Lee, consulte el paso 3 a continuación para el mapeo de lecturas en la consulta. Todos los pasos de explosión se completaron con versión 2.2.29+ aunque los comandos deberían funcionar en cualquier versión reciente de la explosión.
3. mapa lee en la Asamblea
Nota: Este método puede ser utilizado si el conjunto de datos de referencia consiste en raw Lee genómica, en lugar de secuencias ensambladas o secuencias de Sanger, en que caso uso BLAST (paso 2.1).
4. Utilice el Script en Python para quitar cualquier secuencia que empareja
Nota: Siempre trabajo de secuencias de comandos con Python 2.7.
5. diseño de cebadores para la secuencia que sigue siendo
Nota: en este punto hay un archivo fasta que contiene secuencias de candidato T. Esta sección describe qPCR para probar experimentalmente si vienen de T o de las regiones desconocidas del R. Si la resta en el paso 4 quita todas las secuencias, el montaje inicial no son T, o la sustracción puede haber sido demasiado estricta.
6. qPCR validación de la secuencia restante
Nota: Este paso requiere iniciadores validados y PCR condiciones establecidas en el paso 5.
7. repetir con una nueva referencia a Pare abajo de los datos.
Nota: Si paso 6 valida las secuencias identificadas de T, finalizar el ciclo aquí (figura 2A). Sin embargo, una variedad de consideraciones puede motivar la continuación del ciclo, por ejemplo, si muchas secuencias R permanecen en el archivo o si ninguna de las secuencias del candidato T fueron validada por qPCR en el paso 6.
Después de ejecutar el BLAST, el archivo de salida tendrá una lista de las secuencias de la consulta que coincida con la base de datos. Después resta de Python, un número de secuencias nonmatching obtenido y probado por qPCR. Los resultados de este y próximos pasos, se discuten a continuación.
Negativo resultado. Hay dos posibles resultados negativos que se observan después de la explosión a la secuencia...
Aunque genómica sustractivo es potente, no es un enfoque de cortador de la galleta, que requieren personalización en varios pasos y una cuidadosa selección de secuencias de referencia y las muestras de prueba. Si la Asamblea de consulta es de mala calidad, filtrado de pasos podría aislar sólo artefactos de Asamblea. Por lo tanto, es importante validar completamente el conjunto de novo utilizando un protocolo de validación adecuado para el proyecto específico. Para RNA-seq, directrices se proporcionan en e...
Los autores no tienen nada que revelar.
Los autores reconocen Michelle Biederman, Alyssa Pedersen y Colin J. Saldanha por su ayuda con el proyecto de genómica del pinzón cebra en diversas etapas. También reconocemos Evgeny Biisk informática administración de sistemas de cluster y NIH grant 1K22CA184297 (a J.R.B.) y NIH NS 042767 (a C.J.S).
Name | Company | Catalog Number | Comments |
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados