Method Article
OpenProt es una base de datos de libre acceso que aplica un modelo policistrónico de genomas eucariotas. Aquí, presentamos un protocolo para el uso de bases de datos de OpenProt al interrogar a conjuntos de datos de espectrometría de masas. OpenProt base de datos para el análisis de experimentos de la proteómica permite para el descubrimiento de la novela y proteínas previamente indetectables.
Anotación del genoma es fundamental para la investigación de Proteómica de hoy como dibuja los contornos del paisaje proteómicos. Los modelos tradicionales de libre lectura anotación de marco (ORF) imponer dos criterios arbitrarios: una longitud mínima de 100 codones y una sola ORF por transcripción. Sin embargo, un número creciente de estudios Informe expresión de proteínas de supuestamente no codificantes regiones, desafiar la exactitud de las anotaciones de genoma actual. Estas novela se encontraron proteínas codificadas dentro no-codificación RNAs 5' y 3' regiones sin traducir (UTRs) de mRNAs o superposición de una secuencia de codificación conocida (CDS) en una alternativa ORF. OpenProt es la primera base de datos que aplica un modelo policistrónico de genomas eucarióticos, permitiendo la anotación de ORFs múltiples por transcripción. OpenProt es libremente accesible y ofrece descargas personalizadas de secuencias de la proteína a través de 10 especies. Con OpenProt la base de datos para los experimentos de la proteómica permite el descubrimiento de nuevas proteínas y pone de relieve la naturaleza policistrónico de genes eucarióticos. El tamaño de la base de datos OpenProt (todos predicen proteínas) es importante y necesita ser tomado en cuenta para el análisis. Sin embargo, con ajustes de tasa (FDR) apropiadas descubrimiento falsas o el uso de una base de datos de OpenProt restringida, los usuarios beneficiarán de una visión más realista del paisaje de proteómica. En general, OpenProt es una herramienta disponible gratuitamente que fomentará la proteómica descubrimientos.
En las últimas décadas, espectrometría de masas (MS-) basado en proteómica se ha convertido en la técnica oro descifrar proteomas de las células eucariotas1,2,3,4,5. Este método se basa en las anotaciones de genoma actual para generar una base de secuencia de proteínas de referencia que describe el alcance de posibilidades6,7,8. Sin embargo, las anotaciones del genoma sostener criterios arbitrarios para la anotación de ORF, como una longitud mínima de 100 codones y una sola ORF por transcripción9,10. Un número creciente de estudios cuestionar el actual modelo de anotación e informe de descubrimientos de ORFs unannotated funcionales de genomas eucariotas8,11,12,13, 14. Estas nuevas proteínas se encuentran codificados en supuestamente no-codificación RNAs, en 5' o 3' no traducidas (UTR) de regiones de mRNAs o superposición de la secuencia de codificación canónica (cCDS) en un marco alternativo. Aunque la mayoría de estos descubrimientos ha sido fortuita, demuestran las reservas de anotaciones de genoma actual y la naturaleza policistrónico de genes eucarióticos8.
Aquí, destacamos el uso de bases de datos OpenProt para proteómica basada en la MS. OpenProt es la primera base de datos para mantener un modelo de anotación policistrónico de transcriptomas eucariotas. Está disponible en www.openprot.org15. Una proporción de estos predijo que ORFS sería aleatoria y funcional, razón por la cual OpenProt acumula evidencia experimental y funcional para aumentar la confianza. La evidencia experimental son expresión de la proteína (de MS) y traducción en evidencia (por ribosome profiling)15. Pruebas funcionales incluyen homología de proteínas (con un en-paranoico como enfoque) y de predicción funcional dominio15.
OpenProt ofrece la posibilidad de descargar varias bases de datos, que contienen sólo proteínas bien soportadas a bases de datos a medida. Aquí, presentamos una tubería para el uso de bases de datos de OpenProt y ofrecerá información sobre la base de datos para elegir teniendo en cuenta el objetivo experimental. La tubería de proteomics análisis presentada aquí es apoyada por el marco de la galaxia libre acceso y fácil de usar, pero las bases de datos pueden funcionar con cualquier flujo de trabajo de17,16,18. También presentaremos cómo utilizar el sitio web OpenProt para reunir más información sobre nuevas proteínas detectadas por las bases de datos MS. Using OpenProt proporcionará una visión más exhaustiva del paisaje proteómicos y fomentará los descubrimientos proteómica y biomarcadores en una manera más sistemática que los métodos actuales.
Este protocolo destaca el uso de bases de datos de OpenProt15 cuando interrogando a conjuntos de datos de MS; no revisará el diseño del experimento sí mismo, que ha sido completamente revisado en otra parte20,21,22. En un esfuerzo por permanecer completamente de código abierto, el protocolo es libremente disponible (Suplementario S1 Material–S4). Para facilitar la lectura, todos los términos utilizados en OpenProt y por este medio a lo largo de este protocolo se definen en la tabla 1.
1. descargar base de datos de OpenProt
Nota: Las bases de datos personalizadas en base a datos de RNA-seq por ejemplo también se pueden obtener y el procedimiento se detalla en la sección segunda del presente Protocolo. Si se necesita una base de datos personalizada, por favor vaya a la sección siguiente.
2. encargo descargar base de datos de OpenProt
Nota: Esta sección detalla cómo obtener una base de datos personalizada. Si no hay base de datos personalizada es necesario, vaya a la sección siguiente.
3. manejo de base de datos
Nota: de ahora en adelante, se utilizará la plataforma de la galaxia, pero los mismos principios pueden aplicarse a otros software de proteómica.
4. preparación de archivo espectrometría de masas
Nota: La mayoría de las herramientas de la proteómica en instancias de galaxia utiliza el formato mzML, y motores de búsqueda de péptido prefieren datos en modo de centroide.
5. péptido y proteína identificación/cuantificación
Nota: Esta parte de la tubería utiliza herramientas de la suite de OpenMS, un marco versátil y fácil de usar18.
6. control de calidad
Nota: Porque proteómica basada en MS es el resultado de un proceso complejo donde cada paso tiene que ser optimizado para producir resultados reproducibles, control de calidad es un procedimiento necesario en el flujo de trabajo33.
7. OpenProt minería de base de datos
Nota: Una vez que se ha hecho una identificación segura de una nueva proteína predicha por OpenProt (números comenzando con IP_ para AltProts y II_ para novela isoformas), más información biológica se desprende de la Página Web de OpenProt15.
El flujo de trabajo descrito se aplicó a un conjunto de datos de MS disponible en el repositorio de orgullo38,39. El estudio original desarrolló un método (iMixPro), uso de isótopos estables de etiquetado de aminoácidos en cultura de célula (SILAC), para eliminar los falsos positivos de afinidad-purificación MS (AP-MS) experimentos de38. En Resumen, un experimento AP-MS consiste en utilizar anticuerpos enlazado a los granos para obtener una proteína de interés (cebo) y sus interactianos (presas). Las proteínas recogidas luego son digeridas y preparadas para MS. El método de preparación de la muestra y las opciones están descritas en el estudio original y en el repositorio de orgullo (PXD004246). Un desafío en tales experimentos es la abundancia de falsos positivos, en particular de proteínas vinculantes para los granos pero no el anzuelo. Aquí, utilizamos SILAC generar cocientes del isótopo diferente entre presas verdaderos y falsos positivos: 3 muestras de control (sin cebo) cultivadas en medio ligero, 1 muestra expresando el cebo cultivado en medio luz y 1 muestra expresando el cebo cultivado en medio pesado procesado con las cuentas y posterior análisis de espectrometría de masas. Con tal diseño, proteínas no específicas de enlace a las cuentas tendrá una proporción de pesados a ligeros de 1:4; Cuando verdaderas presas tendrá una relación de 1:138.
Nuevamente analizamos sus datos MS AP usando la base de datos de OpenProt; los cebos incluyeron tres proteínas endógenas (PTPN14, JIP3 y IQGAP1), y dos sobre-expresan proteínas (RAF1 RNF41). Puesto que los experimentos utilizan estándar, se utilizó el flujo de trabajo del Galaxy para la cuantificación de la proteína (Complementario de Material de S3, figura 2). El flujo de trabajo se ejecute usando la base de datos entera de OpenProt (OpenProt_all) o una base de datos restringida de OpenProt (OpenProt_2pep, incluyendo sólo las proteínas detectadas previamente con un mínimo de dos péptidos únicos).
Cuantificación e identificación de proteínas fueron buenos y reproducible a través de las diferentes bases de datos utilizados. Como se muestra en la figura 3, la mayoría proteínas identificadas en el documento original también se identificaron utilizando base de datos OpenProt_2pep o OpenProt_all (una lista detallada está disponible en S5 de Material complementario). Este resultado muestra que la tubería aquí descritos y lo OpenProt son capaces de producir identificación de proteínas y cuantificación comparable a la de los procedimientos actuales basados en el de bases de datos de UniProtKB40bases de datos. Sin embargo, el uso de bases de datos de OpenProt tiene la ventaja de que permiten la detección de novela y proteínas previamente indetectables, como se demuestra en este caso de estudio.
11 bien soportadas proteínas (1 isoforma 10 AltProts), sin embargo, actualmente no está anotados en las bases de datos, se identificaron en todo bases de datos, con péptidos de confianza, utilizando la base de datos de OpenProt_2pep (todos adhesiones de proteína, junto con el número de apoyo péptidos, están disponibles en S5 de Material complementario). Esta base de datos permite el uso del tradicional 1% FDR como el aumento del espacio de búsqueda sigue siendo moderada. Estas 11 proteínas no fueron identificadas en el estudio original como estaban ausentes de la base de datos.
29 nuevas proteínas (16 isoformas y 13 AltProts) fueron descubiertas a través de los conjuntos de datos, con péptidos de confianza, utilizando la base de datos de OpenProt_all (todos adhesiones de proteína, junto con el número de péptidos de apoyo, son S6 de Material suplementario disponible en ). Como se muestra en la figura 3, el FDR estricta recomendada no afectó a las identificaciones más seguros de la proteína, aunque él disminuir el número de proteínas identificadas. Comparativamente a la base de datos de OpenProt_2pep, un mayor número de nuevas proteínas puede ser identificado con toda confianza. Todas estas nuevas proteínas están ausentes de la base de datos de OpenProt_2pep. Esto pone de relieve el papel crucial de la base de datos elegido para proteómica basada en la MS.
Una nueva proteína fue descubierta como un interactor de la proteína de RAF1 (IP_637643). Utilizar el sitio de OpenProt, uno puede ver esta proteína no había sido detectada por MS ni por ribosoma perfilado hasta ahora (OpenProt v1.3). La proteína es de 46 aminoácidos de largo y sólo puede dar dos péptidos únicos sobre la digestión tríptica. El péptido detectado en RAF1 AP-MS dataset (fracción 18) tenía un espectro de buena calidad, como se muestra en la figura 4y muestran una proporción de pesados a ligeros de 1.09. La proteína está codificada en el gen NANOGNBP1 , que es un pseudogene de NANOGNB. La transcripción (ENST00000448444), actualmente anotada como no-codificación, fue detectada en varios tejidos según el portal GTEx40. La proteína contiene un dominio funcional previsto asociado con ADN vinculante (Gene Ontology GO: 0003677)41.
Figura 1 : Elección de tabla de análisis de Proteómica de la base de datos. Análisis de datos de MS, en particular la elección de la base de datos, dependen de los objetivos de la investigación. Tres objetivos comunes están señaladas en azul (proteómico clásico pipeline), verde (búsqueda exhaustiva de Proteómica) y naranja (descubrimiento de Proteómica). Cada objetivo depende de una base de datos adecuado y tubería. Una herramienta de identificación solo puede usarse para un proteómica clásica y exhaustiva las tuberías. Para la tubería de descubrimiento proteómicos, recomendamos encarecidamente utilizar múltiples motores de identificación. FDRs recomendadas se indican en rojo, y tamaños de base de datos de proteínas están indicados en cuadros de gris. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2 : Representación gráfica del flujo de trabajo galaxia usada. Representación paso a paso del flujo de trabajo de análisis proteómicos utilizado para re-análisis de datos de Eyckerman et al38. Archivos de entrada, péptido búsqueda y cuantificación de proteínas están indicados por las cajas de naranja. Cajas azules corresponden a las herramientas utilizadas y cajas grises corresponden a los archivos de salida generados. Los motores de búsqueda (MS-GF + y X! Tándem) se indican mediante colores diferentes (rojos y morados respectivamente) así como las flechas que indican sus necesarias entradas y salidas. La caja verde destaca la herramienta de generación de una lista de identificaciones de la proteína. Cuando se generan varias salidas, la que se utiliza para los pasos posteriores se indica como la más cercana a la flecha. Este flujo de trabajo está disponible en S2 Material complementario. ¡La X! Archivo de configuración de parámetros de tándem predeterminado está disponible en S4 de Material complementario. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3 : Comparación de identificación interactor por cebo utilizando diferentes bases de datos. Diagramas de Venn de identificación de proteínas utilizando la OpenProt más seguro de base de datos (en naranja, evidencias de 2 péptidos únicos mínimos, OpenProt_2pep) con un 1% FDR o el OpenProt toda la base de datos (en azul, OpenProt_all) con un 0,001% FDR, o según en el original del documento (en gris)38. Cada diagrama corresponde a interactianos identificados para el cebo mencionado: RAF1, RNF41, JIP3 y PTPN14, IQGAP1. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4 : Espectro MS/MS de identificado MDNLWAK(6 de 13) péptido de proteína novel IP_637643. La intensidad es relativa (0 a 100%). Las cumbres están indicados en rojo, y anotaciones de los iones están en oscuro rojo y b iones las anotaciones en color verde. Extraído del software de TOPPview34. Precursor Error = 2,70 ppm, cuenta PEP = 0,12. Haga clic aquí para ver una versión más grande de esta figura.
Plazo | Definición | Referencia |
Alternativa ORF (AltORF) | ORF no canónico actualmente no está anotado en las anotaciones del genoma, pero anotado en OpenProt. | 15 |
Referencia ORF (RefORF) | ORF canónico anotado en las anotaciones del genoma y OpenProt. | 15 |
Proteínas alternativas (AltProt) | nueva proteína codificada por un AltORF, con ninguna semejanza significativa con un RefProt. Prefijo de número de adhesión: IP_. | 15 |
Proteína de referencia (RefProt) | proteína anotada actualmente en bases de datos de secuencia proteína como UniProtKB, Ensembl o NCBI RefSeq y también en OpenProt. | 15 |
Isoforma novela | nueva proteína codificada por un AltORF, con una similitud importante con un RefProt. Prefijo de número de adhesión: II_. | 15 |
OpenProt_2pep la base de datos | contiene la secuencia de todos los RefProts y nuevas proteínas predichas por OpenProt, ya detectado con un mínimo de 2 péptidos únicos. | 15 |
OpenProt_1pep la base de datos | contiene la secuencia de todos los RefProts y nuevas proteínas predichas por OpenProt, ya detectado con un mínimo de 1 único péptido. | 15 |
OpenProt_all la base de datos | contiene la secuencia de todas las nuevas proteínas predichas por OpenProt y RefProts. | 15 |
Tabla 1: Definición de términos utilizados en OpenProt y en el protocolo
S1 de Material complementario: flujo de trabajo de galaxia para manejo de base de datos. Esto agregará las secuencias CRAPome y señuelo (inversas) a la base de datos de entrada. Salida es un archivo Fasta. Haga clic aquí para descargar.
S2 Material complementario: flujo de trabajo de galaxia para identificación de proteínas. Esto permitirá identificar proteínas a partir de un fichero de datos de espectrometría de masas con dos motores de búsqueda (MS-GF + y X! Tándem). Cada parámetro se puede ajustar como desee antes de ejecutar el flujo de trabajo. Haga clic aquí para descargar.
S3 Material complementario: flujo de trabajo de galaxia para cuantificación de proteína utilizando isótopos estables etiquetado (SIL). Esto será identificar y cuantificar proteínas a partir de un fichero de datos de espectrometría de masas con dos motores de búsqueda (MS-GF + y X! Tándem). Cada parámetro se puede ajustar como desee antes de ejecutar el flujo de trabajo. Haga clic aquí para descargar.
S4 Material complementario : X! Archivo de configuración de parámetros de defecto de tándem. Este archivo es necesario para el funcionamiento de la X! TandemAdapter herramienta en la plataforma de la galaxia. Haga clic aquí para descargar.
S5 de Material complementario: cuantifican proteínas a partir de conjuntos de datos de iMixPro. Archivos de datos de Eyckerman et al 201638 se procesaron utilizando bases de datos de OpenProt y proteínas cuantificadas se enumeran para cada condición. Los cebos son PTPN14, JIP3, IQGAP1, RAF1 y RNF41. Nombres de gen indicados en verde corresponden a proteínas identificadas también en el papel original38. Nombres de gene indicados en color naranja corresponden a interactianos conocidos según BioGrid que no fueron reportados en el documento original. Nombres de gene indicados en azul claro corresponden a nuevas proteínas identificadas como interactianos (el número correspondiente de la adhesión de proteínas se indica entre corchetes). Nombres de genes indicaron en gris claro y cursiva corresponde a probables contaminantes (proteínas de la queratina). Haga clic aquí para descargar.
S6 de Material complementario: identificar nuevas proteínas de conjuntos de datos de iMixPro. Archivos de datos de Eyckerman et al 201638 se procesaron utilizando bases de datos de OpenProt y nuevas proteínas identificadas se indican para cada condición. Los cebos son PTPN14, JIP3, IQGAP1, RAF1 y RNF41. Proteína de adhesión números aparecen, a partir de II_ para nuevas isoformas de una proteína conocida y con IP_ para nuevas proteínas de un ORF alternativo (AltProt). El número de péptidos de apoyo se indican entre corchetes. Haga clic aquí para descargar.
Al analizar los datos de los espectrómetros de masa, la calidad de la identificación de proteínas se basa en parte en la exactitud de la base de datos usado6,20. Enfoques actuales utilizan tradicionalmente UniProtKB las bases de datos, sin embargo, éstos apoyan el modelo de anotación del genoma de una sola ORF por transcripción y una longitud mínima de 100 codones (a excepción de ejemplos previamente demostrados)40. Múltiples estudios relacionan las deficiencias de estas bases de datos con el descubrimiento de ORFs funcionales de supuestamente no codificantes regiones8,11,12,13. Ahora, OpenProt permite más exhaustiva identificación de proteínas como extrae proteínas múltiples anotaciones de transcriptoma. OpenProt recupera NCBI RefSeq (GRCh38.p7) y transcriptomas de Ensembl (GRCh38.83) y anotaciones de UniProtKB (UniProtKB-SwissProt, 2017-09-27)40,42,43. Como anotaciones actuales presentan poco traslapo, OpenProt muestra así una visión más exhaustiva del paisaje proteómicos potencial que cuando limitada a una anotación15.
Además, como OpenProt impone un modelo policistrónico, permite múltiples anotaciones de proteína por transcripción. Por motivos estadísticos y computacionales, OpenProt todavía tiene un umbral mínimo de 30 codones15. Sin embargo, augura miles de secuencias de la nueva proteína, ampliando así el alcance de posibilidades para la identificación de proteínas. Con este enfoque, OpenProt apoya proteómicos descubrimientos de una manera más sistemática.
La calidad de la identificación de proteínas también puede verse afectada por los parámetros que se utilizan. Análisis de proteómica basada en MS tienen típicamente un 1% de proteína FDR. Sin embargo, la base de datos de OpenProt entero contiene aproximadamente 6 veces más entradas (figura 1). Para tener en cuenta este aumento sustancial en el espacio de búsqueda, le recomendamos usar un FDR más estricta de 0.001%. Este parámetro se optimizó mediante estudios de benchmark y manual evaluación de espectros seleccionados al azar15. Falsos positivos siguen siendo una posibilidad, sin embargo, y animamos a inspección y validación de evidencias de una nueva proteína. Un estándar recomendado podría ser la identificación de una proteína de dos pruebas diferentes de EM, como datos de base y falsos positivos varían entre los conjuntos de datos15.
La tubería aquí y utilizado para el estudio de caso puede ser modificada como placer para adaptarse a los parámetros y diseño experimental. Le recomendamos utilizar múltiples motores de búsqueda como aumenta la sensibilidad y la sensibilidad del péptido identificación32. Además, animamos a la base de datos correspondiente mejor para el objetivo experimental (figura 1). Como usar el OpenProt toda la base de datos viene con un FDR estricta, verdaderas identificaciones pueden perderse. Así, la base de datos toda debe ser destinado a descubrimiento de nuevas proteínas, mientras que perfiles de proteómica clásica deberían utilizar las bases de datos de OpenProt más pequeños (como el OpenProt_2pep utilizado en el estudio de caso anterior).
OpenProt en la actualidad predice secuencias a partir de un codón ATG, mientras que varios estudios destacan la iniciación de la traducción en otros codones44,45. Cuando se identifica una nueva proteína por uno o varios péptidos únicos, es posible que el codón de iniciación verdadera no es el presunto ATG. Los usuarios pueden buscar evidencia de traducción en la página web OpenProt. Actualmente, OpenProt informa sólo eventos de traducción si se trata de la proteína prevista toda secuencia (100% de solapamiento)15. Por lo tanto, ausencia de pruebas de traducción no significaría la proteína no está traducida, pero que el codón de inicio no puede ser el supuesta ATG.
A pesar de sus limitaciones actuales, OpenProt ofrece una visión más exhaustiva del potencial de codificación de eukaryotic genomas. Bases de datos de OpenProt fomentan la proteómica descubrimientos y la comprensión de interacciones y funciones de la proteómica. Evolución futura de la base de datos de OpenProt incluye anotaciones de otras especies, pruebas de traducción de ATG no comienzo codon y el desarrollo de un gasoducto para incluir nuevas proteínas en todo el genoma y estudios de secuenciación del exoma.
Los autores no declaran conflicto de intereses.
Agradecemos a Vivian Delcourt por su ayuda, debates y asesoramiento en obra. X.R. es miembro del Fonds de Recherche du Québec Santé FRQS apoyado Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Esta investigación fue apoyada por una Cátedra de investigación de Canadá en proteómica funcional y descubrimiento de las proteínas de la novela a la subvención de CIHR, X.R. 137056 fregona. Agradecemos al equipo Calcul Québec y cálculo de Canadá por su apoyo con el uso de la supercomputadora mp2 por la Université de Sheerbrooke. Funcionamiento del superordenador mp2 está financiado por la Fundación Canadá de la innovación (CFI), le ministère de l'Économie, de la science et de l ' Innovation du Québec (MESI) y les Fonds de Recherche du Québec - naturaleza et tecnologías (FRQ-NT). El servidor galaxia que fue utilizado para algunos cálculos de proteómica está financiado en parte por colaboración investigación 992 centro médico epigenética (grant DFG SFB 2012 992/1) y el Ministerio Federal alemán de educación e investigación (BMBF otorga 031 RBC A538A/A538C, 031L0101B De /031L0101C. NBI-epi, 031L 0106 de. ESCALERA (de. NBI)).
Name | Company | Catalog Number | Comments |
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados