Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
La metaproteómica clínica ofrece información sobre el microbioma humano y sus contribuciones a la enfermedad. Aprovechamos el poder computacional de la plataforma Galaxy para desarrollar un flujo de trabajo bioinformático modular que facilita el análisis metaproteómico complejo basado en espectrometría de masas y la caracterización de diversos tipos de muestras clínicas relevantes para estudios de enfermedades.
La metaproteómica clínica revela las interacciones huésped-microbioma que subyacen a las enfermedades. Sin embargo, existen desafíos para este enfoque. En particular, la caracterización de las proteínas microbianas presentes en baja abundancia en relación con las proteínas del huésped es difícil. Otros desafíos importantes se atribuyen al uso de bases de datos de secuencias de proteínas muy grandes, lo que impide la sensibilidad y la precisión durante la identificación de péptidos y proteínas a partir de datos de espectrometría de masas, además de recuperar anotaciones taxonómicas y funcionales y realizar análisis estadísticos. Para abordar estos problemas, presentamos un flujo de trabajo bioinformático integrado para la metaproteómica basada en espectrometría de masas que combina la generación de bases de datos de secuencias de proteínas personalizadas, la generación y verificación de coincidencias de espectro de péptidos, cuantificación, anotaciones taxonómicas y funcionales y análisis estadístico. Este flujo de trabajo también ofrece la caracterización de proteínas humanas (al tiempo que prioriza las proteínas microbianas), lo que ofrece información sobre la dinámica huésped-microbio en la enfermedad. Las herramientas y el flujo de trabajo se despliegan en el ecosistema Galaxy, lo que permite el desarrollo, la optimización y la difusión de estos recursos computacionales. Hemos aplicado este flujo de trabajo para el análisis metaproteómico de numerosos tipos de muestras clínicas, como hisopos nasofaríngeos y líquido de lavado broncoalveolar. Aquí, demostramos su utilidad a través del análisis del líquido residual de los hisopos cervicales. El flujo de trabajo completo y los recursos de capacitación que lo acompañan están disponibles en Galaxy Training Network para equipar a los investigadores no expertos y experimentados con el conocimiento y las herramientas necesarias para analizar sus datos.
La metaproteómica basada en espectrometría de masas (MS) identifica y cuantifica proteínas microbianas y humanas a partir de muestras clínicas. Este enfoque proporciona una nueva comprensión de las respuestas del microbioma a las enfermedades y descubre posibles mediadores de las interacciones entre el huésped y el microbioma 1,2. Aunque el análisis metaproteómico de muestras clínicas puede descubrir las interacciones del microbioma con su entorno huésped, el campo aún enfrenta muchos desafíos. Uno de los principales desafíos es la abundancia relativamente alta de proteínas del huésped (humanas), lo que dificulta la identificación de proteínas microbianas de menor abundancia. Además, la metaproteómica basada en MS depende del uso de bases de datos de secuencias de proteínas muy grandes. Estas bases de datos comprenden proteomas microbianos que están presentes en la muestra, lo que puede dar lugar a una gran base de datos que contiene millones de secuencias. Tras la generación de espectros de espectrometría de masas en tándem (MS/MS) a partir de proteínas digeridas trípticamente, los espectros MS/MS se buscan en grandes bases de datos de secuencias de proteínas, haciendo coincidir una secuencia peptídica con cada espectro (coincidencia de espectro peptídico o PSM). Sin embargo, la sensibilidad disminuye y el potencial de falsos positivos aumenta con las grandes bases de datos utilizadas para la metaproteómica3. Además, las secuencias de proteínas conservadas en todos los taxones y la anotación insuficiente de las proteínas codificadas limitan las anotaciones taxonómicas y funcionales de los péptidos y proteínas detectados 4,5. Presentamos un flujo de trabajo bioinformático para el análisis metaproteómico eficaz de muestras clínicas que aborda muchos de estos desafíos y proporciona recursos de software accesibles para que los investigadores investiguen la dinámica del microbioma huésped subyacente a las enfermedades humanas.
La metaproteómica clínica se ha utilizado para investigar diversos tipos de muestras, incluyendo heces e hisopos vaginales, entre otros, para descifrar los mecanismos patogénicos en enfermedades y afecciones 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Aquí, utilizamos un flujo de trabajo de bioinformática metaproteómica para analizar un subconjunto de datos de MS/MS de muestras de líquido de prueba de Papanicolaou (PTF) de pacientes con cáncer de ovario (OVCA) y no OVCA21. Las herramientas de software y el flujo de trabajo son accesibles a través de la plataforma Galaxy, que agiliza el desarrollo y la ejecución de flujos de trabajo metaproteómicos clínicos complejos 22,23,24,25. Galaxy es una plataforma de código abierto diseñada para la bioinformática y la biología computacional. Proporciona un entorno basado en la web para el uso de herramientas y flujos de trabajo de código abierto donde los investigadores académicos pueden realizar y compartir análisis de datos complejos. Una próspera comunidad global de desarrolladores de software, científicos de datos y usuarios finales mantiene el ecosistema Galaxy, incluida la Galaxy Training Network (GTN; https://training.galaxyproject.org/), que ofrece recursos de capacitación en línea y bajo demanda 22,23,24,25,26,27 . Nuestro flujo de trabajo tiene como objetivo revelar una nueva comprensión de la dinámica huésped-microbio en muestras clínicas, así como generar nuevos objetivos peptídicos bien caracterizados de interés para el desarrollo de ensayos clínicos específicos basados en MS para estudios posteriores de muestras clínicas 6,20,28. Además, este manuscrito pretende destacar la metodología de flujo de trabajo de la metaproteómica clínica. En el GTN (https://training.galaxyproject.org/) se proporcionan guías más detalladas y fáciles de usar para principiantes, ya que es un recurso valioso que se puede utilizar en paralelo con este manuscrito para los usuarios que buscan explicaciones adicionales no cubiertas. La comunidad Galaxy ha escrito numerosos manuscritos para ayudar a los usuarios principiantes de la plataforma Galaxy 20,21,22,23,24,25,26,27.
Todas las tablas suplementarias (p. ej., parámetros de herramientas) y figuras (p. ej., gráficos de ejemplo) para este manuscrito se han proporcionado como archivos separados y se referencian en consecuencia. Para este manuscrito se utilizaron las versiones actuales de la herramienta Galaxy versión 2.3.0. Por lo tanto, los resultados pueden diferir ligeramente según las actualizaciones de Galaxy y de la versión de la herramienta. La plataforma Galaxy y sus herramientas son de código abierto y se pueden utilizar con fines de investigación académica.
Access restricted. Please log in or start a trial to view this content.
Los datos espectrales de MS/MS se obtuvieron a partir de muestras residuales de PTF no identificadas que se recolectaron utilizando procedimientos que siguieron las pautas y regulaciones aprobadas por la junta institucional, como se describió anteriormente 21,29,30.
NOTA: En la figura 1 se proporciona una descripción general del flujo de trabajo completo, que consta de cinco módulos. Todas las entradas, salidas y herramientas de software se resumen en la Tabla Suplementaria 1.
Figura 1: Resumen de los módulos de flujo de trabajo de metaproteómica clínica dentro de Galaxy. El flujo de trabajo completo de metaproteómica clínica consta de cinco módulos: Generación de bases de datos, Descubrimiento, Verificación, Cuantificación e Interpretación de datos. (A) La gran base de datos completa incluye secuencias de proteínas de especies microbianas que se cree que están presentes en la muestra, humanos y contaminantes comunes. La herramienta de software MetaNovo hizo coincidir directamente los datos espectrales de MS/MS con los péptidos e infiere las proteínas y su organismo de origen a partir de los datos brutos de MS y la gran base de datos de secuencias de proteínas de entrada, creando una base de datos reducida33. A continuación, la base de datos reducida de MetaNovo se fusiona con proteínas humanas y contaminantes para crear la base de datos para el descubrimiento de péptidos. (B)Dos algoritmos de identificación de péptidos, SearchGUI/PeptideShaker y MaxQuant, hacen coincidir las secuencias de péptidos con los espectros MS/MS y la base de datos de proteínas señuelo49. (C)Los péptidos identificados por SearchGUI/PeptideShaker y MaxQuant se verifican a continuación mediante PepQuery2. PepQuery2 reexamina rigurosamente las secuencias de péptidos microbianos supuestamente identificadas y sus espectros MS/MS coincidentes con otras posibles coincidencias con el proteoma del huésped humano y/o contaminantes, verificando así coincidencias microbianas de alta confianza40,41. Los péptidos verificados se utilizan para generar una base de datos de secuencias de proteínas verificadas que se utilizará para la cuantificación de péptidos y proteínas. (D) MaxQuant42 busca datos de MS/MS en la secuencia de proteínas verificada y cuantifica los péptidos microbianos y las proteínas inferidas junto con las proteínas humanas. (E) Unipept45 y MSstatsTMT46 se utilizan en el paso final para anotar proteínas con taxonomía e información funcional (accesiones de comisiones enzimáticas), así como para generar volcanes y gráficos de comparación. Haga clic aquí para ver una versión más grande de esta figura.
1. Etiquetado TMT y generación de espectros MS/MS
2. Configuración del módulo
NOTA: Las selecciones de botones/menús están en negrita. Se puede acceder a los archivos de ejemplo, los flujos de trabajo y los parámetros de la herramienta a través de tablas complementarias. Puede encontrar más información sobre cómo usar Galaxy en la página de preguntas frecuentes de GTN (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Módulo 1: Generación de bases de datos de secuencias de proteínas
NOTA: Si un usuario desea utilizar las entradas de ejemplo y el flujo de trabajo de la Tabla complementaria 2, asegúrese de seguir las instrucciones de la sección 2. Para el Módulo 1, importe la entrada y el flujo de trabajo para GENERACIÓN DE BASE DE DATOS. La columna de salida de la Tabla complementaria 2 incluye ejemplos de historiales de salida completados como referencia. Para todos los módulos, el tutorial GTN correspondiente se puede encontrar en la Tabla Complementaria 3.
4. Módulo 2: Descubrimiento de péptidos a través de la búsqueda en bases de datos
NOTA: Si un usuario desea utilizar las entradas de ejemplo y el flujo de trabajo de la Tabla complementaria 2, asegúrese de seguir las instrucciones de la Sección 2. Para el Módulo 2, importe la entrada y el flujo de trabajo para DISCOVERY. Para todos los módulos, el tutorial GTN correspondiente se puede encontrar en la Tabla Complementaria 3. SearchGUI 34,35,36 y PeptideShaker 37 son software separados, pero se considerarán como un programa de identificación y procesamiento de péptidos, ya que se utilizan en conjunto. Por compatibilidad de software, los conjuntos de datos MS/MS se convertirán de RAW a MGF para SearchGUI/PeptideShaker utilizando la herramienta msconvert (en el flujo de trabajo proporcionado). MaxQuant38 puede procesar archivos RAW.
5. Módulo 3: Verificación de péptidos microbianos
NOTA: Si un usuario desea utilizar las entradas de ejemplo y el flujo de trabajo de la Tabla complementaria 2, asegúrese de seguir las instrucciones de la Sección 2. Para el Módulo 2, importe la entrada y el flujo de trabajo para VERIFICACIÓN. Para todos los módulos, el tutorial GTN correspondiente se puede encontrar en la Tabla Complementaria 3.
6. Módulo 4: Cuantificación MaxQuant
NOTA: Si un usuario desea utilizar las entradas de ejemplo y el flujo de trabajo de la Tabla complementaria 2, asegúrese de seguir las instrucciones de la Sección 2. Para el Módulo 2, importe la entrada y el flujo de trabajo para CUANTIFICACIÓN. Para todos los módulos, el tutorial GTN correspondiente se puede encontrar en la Tabla Complementaria 3.
7. Módulo 5: Interpretación de datos
NOTA: Si un usuario desea utilizar las entradas de ejemplo y el flujo de trabajo de la Tabla complementaria 2, asegúrese de seguir las instrucciones de la Sección 2. Para el Módulo 2, importe la entrada y el flujo de trabajo para INTERPRETACIÓN DE DATOS. Para todos los módulos, el tutorial GTN correspondiente se puede encontrar en la Tabla Complementaria 3. Los resultados de la cuantificación de MaxQuant en el módulo anterior se utilizarán aquí para anotaciones taxonómicas y funcionales utilizando Unipept y análisis estadístico usando MSstatsTMT. Unipept permite a los investigadores identificar y cuantificar microorganismos en diversos entornos y se integra con bases de datos públicas (como UniProt) para recuperar anotaciones actualizadas. MSstatsTMT fue diseñado para un análisis estadístico robusto de datos proteómicos cuantitativos basados en espectrometría de masas utilizando el etiquetado TMT.
Access restricted. Please log in or start a trial to view this content.
El protocolo general descrito aquí se demostró en archivos MS/MS obtenidos de un subconjunto de muestras de PTF21. Do et al.21 analizaron cuatro archivos MS/MS de muestras de PTF que se recogieron siguiendo los procedimientos descritos por Boylan et al.29y Afiuni-Zadel et al.30. Este flujo de trabajo prioriza las proteínas microbianas, pero ofrece la flexibilidad para la caracterización de...
Access restricted. Please log in or start a trial to view this content.
La investigación clínica en metaproteómica ofrece avances potenciales para los estudios clínicos, pero persisten desafíos en su implementación. La menor abundancia de proteínas microbianas en relación con las proteínas del huésped en la mayoría de las muestras dificulta la detección y caracterización de proteínas no huésped 6,10. La dependencia de grandes bases de datos de secuencias de proteínas para la identific...
Access restricted. Please log in or start a trial to view this content.
Los autores declaran no tener ningún conflicto de intereses.
Agradecemos a la Dra. Amy Skubitz y a la Dra. Kristin Boylan (Universidad de Minnesota) por los conjuntos de datos piloto y al Dr. Paul Piehowski, el Dr. Tao Liu y la Dra. Karin Rodland (Laboratorios Nacionales del Noroeste del Pacífico (PNNL)) por su experiencia en la recolección de muestras, el procesamiento de las muestras de PTF y la generación de los datos de EM marcados con TMT utilizados en este estudio. Este proyecto fue financiado en parte por la Alianza de Cáncer de Ovario de Minnesota (MOCA), los Institutos Nacionales de Salud/Instituto Nacional del Cáncer Número de subvención: 5R01CA262153 (A.P.N.S.), 1R21CA267707 (P.D.J y T.J.G.), y los Institutos Nacionales de Salud/Instituto Nacional del Cáncer Número de subvención: P30CA077598 (P.D.J. y T.J.G.).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados