Nuestra investigación se ha centrado en la detección y cuantificación de proteínas microbianas y en la comprensión de su papel en la enfermedad clínica. Este campo de investigación se denomina metaproteómica clínica. En este estudio, hemos desarrollado un flujo de trabajo bioinformático que permitirá a los investigadores comprender cómo la actividad bacteriana puede influir en la progresión de la enfermedad.
El análisis metaproteómico de muestras clínicas presenta numerosos desafíos, incluido el manejo de bases de datos de secuencias de proteínas muy grandes para la identificación sensible y precisa de péptidos y proteínas microbianas a partir de datos de espectrometría de masas, además de realizar anotaciones taxonómicas y funcionales de péptidos y proteínas cuantificados para permitir la interpretación biológica de los resultados. El flujo de trabajo ofrece múltiples ventajas, incluida la reducción de la base de datos mediante nuestro flujo de trabajo de reducción de bases de datos, la capacidad de buscar péptidos microbianos mediante múltiples algoritmos de búsqueda, la capacidad de verificar los péptidos microbianos detectados en los datos de espectrometría de masas, la capacidad de cuantificar las proteínas microbianas junto con las proteínas huésped y la interpretación biológica de los datos mediante análisis estadístico y visual. Hemos utilizado el flujo de trabajo de metaproteómica clínica para identificar el panel de péptidos microbianos para estudios de progresión de la enfermedad de fibrosis quística para estudiar el estado de coinfección durante las olas pandémicas de COVID-19.
Estos estudios han sido publicados en revistas académicas revisadas por pares. Actualmente estamos utilizando este flujo de trabajo para un estudio en curso para desarrollar un panel predictivo de péptidos diana para el cáncer de ovario. El equipo de Galaxy P está involucrado en la investigación multiómica y estamos desarrollando varios flujos de trabajo avanzados para el análisis de proteogenómica y metaproteómica.
Actualmente también estamos trabajando en el desarrollo de flujos de trabajo para inmunopeptidómica, que permitirán a los investigadores detectar y caracterizar péptidos presentados al sistema inmune, algunos durante la progresión del cáncer que se denominan neoantígenos, y también con otras enfermedades en las que también podrían ser péptidos microbianos. Para comenzar, obtenga una lista de especies que están relacionadas con la enfermedad o la condición de interés. Utilice el archivo de lista de especies titulado Especies.
tabular"como entrada para UniProt. Descargue el proteoma en formato FASTA para generar una base de datos de secuencias de proteínas. Ejecute el descargador de bases de datos de proteínas para generar dos bases de datos de secuencias de proteínas adicionales, una base de datos humana Swiss-Prot que contiene solo entradas revisadas y una base de datos de proteínas contaminantes que contiene un repositorio común de proteínas adventicias, o cRAP.
Utilice las tres bases de datos de proteínas como entradas para los archivos de combinación de FASTA y filtre las secuencias únicas para excluir los duplicados. Utilizando la gran base de datos generada y el conjunto de datos de espectrometría de masas como entradas, ejecute MetaNovo para generar una base de datos de secuencias de proteínas reducidas, luego ejecute archivos de combinación FASTA y filtre secuencias únicas en la base de datos generada por MetaNovo, bases de datos humanas Swiss-Prot y cRAP para crear una base de datos objetivo reducida que contenga secuencias de proteínas microbianas, humanas y contaminantes para la detección de péptidos. Ejecute Search GUI" para generar un archivo de almacenamiento que contenga coincidencias de espectro peptídico o PSM.
Utilice el archivo de archivo "Search GUI" como entrada para Peptide-Shaker" para generar los informes de PSM, péptidos y proteínas. Ejecute MaxQuant "para producir grupos de proteínas y archivos de péptidos. Usando herramientas de manipulación de texto, organice las salidas obtenidas de Search GUI, Peptide-Shaker y MaxQuant.
Concatene las dos listas de péptidos en un único conjunto de datos etiquetado como SGPS-MQ-Peptides.tabular. Agrupe la lista de péptidos concatenados para eliminar las secuencias de péptidos duplicadas y obtener la lista final de péptidos microbianos únicos. Para la verificación de PepQuery2, introduzca la lista de péptidos microbianos distintos, los conjuntos de datos espectrales de MS, la base de datos de referencia UniProt humana con isoformas y la base de datos de secuencias de proteínas contaminantes.
Ejecute Cut" en los informes de péptidos de Search GUI, Peptide-Shaker y MaxQuant "para extraer las secuencias de péptidos y las entradas de proteínas asociadas. Concatene las secuencias de péptidos y las entradas de proteínas de ambos programas para crear un nuevo conjunto de datos de proteínas peptídicas combinadas, luego ejecute la consulta "Tabular" en el conjunto de datos de proteínas peptídicas combinadas y los péptidos verificados para asignar cada péptido verificado a su entrada de proteína asociada. Group para conservar péptidos únicos verificados y sus ID de UniProt asociados.
A continuación, ejecute Query Tabular" para extraer los ID de UniProt, generando una lista etiquetada como Uniprot-ID a partir de Peptides.tabular verificado. Cargue los ID de UniProt en UniProt para recuperar las secuencias de proteínas asociadas y guardarlas como un nuevo archivo UniProt FASTA. Ejecute archivos de combinación FASTA y filtre secuencias únicas en el UniProt FASTA recién generado, la base de datos UniProt humana con isoformas y la base de datos de contaminantes cRAP para crear una base de datos verificada para la cuantificación de péptidos.
Utilice la base de datos de secuencias de proteínas verificadas y el conjunto de datos de MS como entradas para MaxQuant. En el archivo de péptidos MaxQuant, seleccione solo péptidos microbianos y ejecute Cortar"para extraer solo secuencias de péptidos microbianos del archivo de selección. Agrupe el archivo "Cut" para compilar una lista de péptidos microbianos cuantificados.
Utilice el archivo de lista de péptidos microbianos cuantificados como entrada para que Unipept realice anotaciones taxonómicas y funcionales. Extraiga los resultados de Unipept, específicamente el árbol de taxonomía microbiana y el árbol de proteínas de comisión de enzimas microbianas. Para ver la taxonomía microbiana y los árboles de proteínas EC, seleccione el conjunto de datos y abra las opciones.
Haga clic en Visualizar, seguido de Visor de taxonomía de Uniept. Para las anotaciones taxonómicas y funcionales en formato de tabla, haga clic en el icono de ojo del conjunto de datos tabular denominado Unipept_peptinfo. Desplácese para revisar cada péptido en su propia fila y sus columnas de información correspondientes.
Antes de realizar un análisis estadístico con MSstatsTMT, ejecute Select"en el archivo de grupos de proteínas MaxQuant" para crear conjuntos de datos separados para proteínas microbianas y humanas. Estas proteínas contienen etiquetas taxonómicas que indican su origen. Excluya cualquier proteína contaminante etiquetada con la etiqueta con_.
Retengan solo las proteínas microbianas con marcas como _9laco" y las proteínas humanas con la etiqueta _human" en el Microbial_Proteins "tabular y Human_Proteins" tabular respectivamente. Por último, utilizando MSstatsTMT, realice un análisis estadístico con el archivo de evidencia MaxQuant y las proteínas microbianas o humanas seleccionadas. Haga clic en el icono del ojo para ver los gráficos resultantes.
Se compilaron un total de 2.595.745 secuencias de proteínas en una base de datos completa, que luego se redujo a una base de datos más específica que contenía 21.289 secuencias de proteínas para una identificación eficaz de péptidos. Utilizando Search GUI, Peptide-Shaker y MaxQuant, se identificaron 196 péptidos microbianos distintos. PepQuery2 confirmó 134 péptidos microbianos vinculados a 73 secuencias de proteínas, formando una base de datos verificada para su cuantificación.
El análisis de MaxQuant proporcionó un archivo de péptidos que contenía 3.203 péptidos, con 155 péptidos microbianos cuantificados. El análisis de Unipept reveló que lactobacillus es el género más abundante, y que las transferasas de clase 2 son la categoría de enzimas más prevalente entre los 155 péptidos microbianos cuantificados. El análisis de MSstatsTMT produjo volcanes y gráficos de comparación que ilustran las proteínas expresadas diferencialmente, mostrando que tres proteínas de lactobacilos estaban reguladas a la baja en los casos de cáncer de ovario en comparación con los casos benignos.