Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.
Method Article
Клиническая метапротеомика дает представление о микробиоме человека и его влиянии на заболевание. Мы использовали вычислительную мощь платформы Galaxy для разработки модульного рабочего процесса в области биоинформатики, который облегчает сложный метапротеомный анализ на основе масс-спектрометрии и характеристику различных типов клинических образцов, имеющих отношение к исследованиям заболеваний.
Клиническая метапротеомика выявляет взаимодействие хозяина и микробиома, лежащие в основе заболеваний. Тем не менее, существуют проблемы, связанные с этим подходом. В частности, трудно охарактеризовать микробные белки, присутствующие в малом изобилии по сравнению с белками хозяина. Другие значительные проблемы связаны с использованием очень больших баз данных белковых последовательностей, что снижает чувствительность и точность при идентификации пептидов и белков по данным масс-спектрометрии в дополнение к получению таксономии и функциональных аннотаций и выполнению статистического анализа. Для решения этих проблем мы представляем интегрированный биоинформатический рабочий процесс для метапротеомики на основе масс-спектрометрии, который сочетает в себе генерацию пользовательской базы данных белковых последовательностей, генерацию и верификацию соответствия пептид-спектра, количественную оценку, таксономические и функциональные аннотации и статистический анализ. Этот рабочий процесс также позволяет охарактеризовать человеческие белки (при этом приоритет отдается микробным белкам), что дает представление о динамике микроба хозяина при заболевании. Инструменты и рабочий процесс развертываются в экосистеме Galaxy, что позволяет разрабатывать, оптимизировать и распространять эти вычислительные ресурсы. Мы применили этот рабочий процесс для метапротеомного анализа многочисленных типов клинических образцов, таких как мазки из носоглотки и жидкость бронхоальвеолярного лаважа. Здесь мы демонстрируем его полезность с помощью анализа остаточной жидкости из мазков из шейки матки. Полный рабочий процесс и сопутствующие учебные ресурсы доступны в сети Galaxy Training Network, чтобы предоставить неспециалистам и опытным исследователям необходимые знания и инструменты для анализа своих данных.
Метапротеомика на основе масс-спектрометрии (МС) идентифицирует и количественно оценивает микробные и человеческие белки из клинических образцов. Этот подход обеспечивает новое понимание реакций микробиома на болезнь и раскрывает потенциальные медиаторы взаимодействия хозяина и микробиома 1,2. Несмотря на то, что метапротеомный анализ клинических образцов может выявить взаимодействие микробиома с окружающей средой, эта область по-прежнему сталкивается со многими проблемами. Одной из основных проблем является относительно высокая распространенность белков хозяина (человека), что затрудняет идентификацию менее распространенных микробных белков. Более того, метапротеомика на основе РС зависит от использования очень больших баз данных белковых последовательностей. Эти базы данных содержат микробные протеомы, присутствующие в образце, что может привести к созданию большой базы данных, содержащей миллионы последовательностей. После создания спектров тандемной масс-спектрометрии (МС/МС) из триптически расщепленных белков спектры МС/МС ищут по большим базам данных белковых последовательностей, сопоставляя пептидную последовательность для каждого спектра (пептид-спектральное соответствие, или ПСМ). Тем не менее, чувствительность снижается, а вероятность ложных срабатываний увеличивается при использовании больших баз данных для метапротеомики3. Кроме того, консервативные белковые последовательности у разных таксонов и недостаточная аннотация кодируемых белков ограничивают таксономические и функциональные аннотации для обнаруженных пептидов и белков 4,5. Мы представляем рабочий процесс биоинформатики для эффективного метапротеомного анализа клинических образцов, который решает многие из этих проблем и предоставляет доступные программные ресурсы для исследователей для изучения динамики микробиома хозяина, лежащей в основе заболевания человека.
Клиническая метапротеомика использовалась для исследования различных типов образцов, включая кал и вагинальные мазки, среди прочего, для расшифровки патогенных механизмов при заболеваниях и состояниях 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Здесь мы используем метапротеомный рабочий процесс биоинформатики для анализа подмножества данных о МС/МС из образцов тестовой жидкости Папаниколау (PTF) от пациентов с раком яичников (OVCA) и пациентов без OVCA21. Программные инструменты и рабочий процесс доступны через платформу Galaxy, которая оптимизирует разработку и выполнение сложных клинических метапротеомных рабочих процессов 22,23,24,25. Galaxy — это платформа с открытым исходным кодом, предназначенная для биоинформатики и вычислительной биологии. Он предоставляет веб-среду для использования инструментов и рабочих процессов с открытым исходным кодом, где академические исследователи могут выполнять и обмениваться сложными анализами данных. Процветающее глобальное сообщество разработчиков программного обеспечения, специалистов по обработке и анализу данных и конечных пользователей поддерживает экосистему Galaxy, включая Galaxy Training Network (GTN; https://training.galaxyproject.org/), которая предлагает онлайн-ресурсы и ресурсы для обучения по запросу 22,23,24,25,26,27. Наш рабочий процесс направлен на то, чтобы выявить новое понимание динамики микроба хозяина в клинических образцах, а также создать новые, хорошо охарактеризованные пептидные мишени, представляющие интерес для разработки целевых клинических анализов на основе РС для дальнейшего изучения клинических образцов 6,20,28. Кроме того, данная рукопись призвана осветить методологию рабочего процесса в области клинической метапротеомики. Более подробные и удобные для начинающих руководства представлены в GTN (https://training.galaxyproject.org/), поскольку это ценный ресурс, который может быть использован параллельно с этой рукописью для пользователей, ищущих дополнительные объяснения, которые не охвачены. Сообщество Galaxy является автором многочисленных рукописей в помощь начинающим пользователям платформы Galaxy 20,21,22,23,24,25,26,27.
Все дополнительные таблицы (например, параметры инструмента) и рисунки (например, примеры графиков) для этой рукописи предоставлены в виде отдельных файлов и снабжены соответствующими ссылками. Для этой рукописи использовались текущие версии инструментов в рамках Galaxy версии 2.3.0. Поэтому результаты могут немного отличаться в зависимости от Galaxy и обновлений версии инструмента. Платформа Galaxy и ее инструменты имеют открытый исходный код и могут использоваться в академических исследовательских целях.
Access restricted. Please log in or start a trial to view this content.
Спектральные данные МС/МС были получены из обезличенных образцов остаточных ПТФ, которые были собраны с использованием процедур, соответствующих утвержденным советом директоров и правилам, как описано ранее 21,29,30.
ПРИМЕЧАНИЕ: На рисунке 1 представлен обзор полного рабочего процесса, состоящего из пяти модулей. Все входы, выходы и программные инструменты обобщены в дополнительной таблице 1.
Рисунок 1: Краткое описание модулей рабочего процесса клинической метапротеомики в Galaxy. Полный рабочий процесс клинической метапротеомики состоит из пяти модулей: создание базы данных, обнаружение, верификация, количественная оценка и интерпретация данных. (A) Обширная всеобъемлющая база данных включает последовательности белков микробных видов, которые, как считается, присутствуют в образце, человека и распространенных загрязнителей. Программный инструмент MetaNovo напрямую сопоставлял спектральные данные МС/МС с пептидами и делал выводы о белках и их исходном организме на основе необработанных данных МС и большой входной базы данных последовательностей белков, создавая сокращенную базу данных33. Затем сокращенная база данных MetaNovo объединяется с человеческими и загрязняющими белками для создания базы данных для обнаружения пептидов. (В)Два алгоритма идентификации пептидов, SearchGUI/PeptideShaker и MaxQuant, сопоставляют пептидные последовательности со спектрами MS/MS и базой данных белков-мишеней-приманок49. (с)Пептиды, идентифицированные с помощью SearchGUI/PeptideShaker и MaxQuant, затем проверяются с помощью PepQuery2. PepQuery2 тщательно повторно исследует предположительно идентифицированные последовательности микробных пептидов и их согласованные спектры МС/МС с другими потенциальными совпадениями с протеомом и/или загрязнителями человека-хозяина, тем самым проверяя высоконадежные микробные совпадения40,41. Верифицированные пептиды используются для создания верифицированной базы данных белковых последовательностей, которая будет использоваться для количественного определения пептидов и белков. (D) MaxQuant42 осуществляет поиск данных МС/МС по верифицированной последовательности белков и количественное определение микробных пептидов и предполагаемых белков наряду с человеческими белками. (E) Unipept45 и MSstatsTMT46 используются на заключительном этапе для аннотирования белков с таксономией и функциональной информацией (образцы ферментной комиссии), а также для построения вулканических диаграмм и графиков сравнения. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
1. Мечение ТМТ и генерация спектров МС/МС
2. Настройка модуля
ПРИМЕЧАНИЕ: Выбор кнопок и меню выделен жирным шрифтом. Примеры файлов, расчетных процессов и параметров инструментов доступны в разделе Дополнительные таблицы. Более подробную информацию о том, как использовать Galaxy, можно найти на странице часто задаваемых вопросов о GTN (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Модуль 1: Создание базы данных белковых последовательностей
ПРИМЕЧАНИЕ: Если пользователь хочет использовать примеры входных данных и рабочего процесса из дополнительной таблицы 2, обязательно следуйте инструкциям в разделе 2. Для модуля 1 импортируйте входные данные и рабочий процесс для DATABASE GENERATION. Столбец вывода Дополнительной таблицы 2 содержит примеры завершенных выходных журналов для справки. Для всех модулей соответствующее учебное пособие по GTN можно найти в дополнительной таблице 3.
4. Модуль 2: Обнаружение пептидов с помощью поиска в базе данных
ПРИМЕЧАНИЕ: Если пользователь хочет использовать примеры входных данных и рабочего процесса из дополнительной таблицы 2, обязательно следуйте инструкциям в разделе 2. Для модуля 2 импортируйте входные данные и рабочий процесс для DISCOVERY. Для всех модулей соответствующее учебное пособие по GTN можно найти в дополнительной таблице 3. SearchGUI 34,35,36 и PeptideShaker 37 являются отдельными программами, но будут рассматриваться как одна программа идентификации и обработки пептидов, поскольку они используются в тандеме. Для обеспечения совместимости программного обеспечения наборы данных MS/MS будут преобразованы из RAW в MGF для SearchGUI/PeptideShaker с помощью инструмента msconvert (в предоставленном рабочем процессе). MaxQuant38 может обрабатывать RAW-файлы.
5. Модуль 3: Верификация микробных пептидов
ПРИМЕЧАНИЕ: Если пользователь хочет использовать примеры входных данных и рабочего процесса из дополнительной таблицы 2, обязательно следуйте инструкциям в разделе 2. Для модуля 2 импортируйте входные данные и рабочий процесс для ВЕРИФИКАЦИИ. Для всех модулей соответствующее учебное пособие по GTN можно найти в дополнительной таблице 3.
6. Модуль 4: Количественная оценка MaxQuant
ПРИМЕЧАНИЕ: Если пользователь хочет использовать примеры входных данных и рабочего процесса из дополнительной таблицы 2, обязательно следуйте инструкциям в разделе 2. Для модуля 2 импортируйте входные данные и рабочий процесс для QUANTIFICATION. Для всех модулей соответствующее учебное пособие по GTN можно найти в дополнительной таблице 3.
7. Модуль 5: Интерпретация данных
ПРИМЕЧАНИЕ: Если пользователь хочет использовать примеры входных данных и рабочего процесса из дополнительной таблицы 2, обязательно следуйте инструкциям в разделе 2. Для модуля 2 импортируйте входные данные и рабочий процесс для ИНТЕРПРЕТАЦИИ ДАННЫХ. Для всех модулей соответствующее учебное пособие по GTN можно найти в дополнительной таблице 3. Результаты количественной оценки MaxQuant в предыдущем модуле будут использоваться здесь для таксономических и функциональных аннотаций с помощью Unipept и статистического анализа с помощью MSstatsTMT. Unipept позволяет исследователям идентифицировать и количественно оценивать микроорганизмы в различных средах и интегрируется с общедоступными базами данных (например, UniProt) для получения обновленных аннотаций. MSstatsTMT был разработан для надежного статистического анализа данных количественной протеомики на основе масс-спектрометрии с использованием маркировки TMT.
Access restricted. Please log in or start a trial to view this content.
Описанный здесь общий протокол был продемонстрирован на файлах MS/MS, полученных из подмножества образцовPTF 21. Do et al.21 проанализировали четыре файла MS/MS из образцов PTF, которые были собраны в соответствии с процедурами, описанными Boylan et
Access restricted. Please log in or start a trial to view this content.
Клинические исследования в области метапротеомики открывают возможности для прорыва в клинических исследованиях, но проблемы в их реализации сохраняются. Более низкое содержание микробных белков по отношению к белкам-хозяевам в большинстве образцов затрудняет обн...
Access restricted. Please log in or start a trial to view this content.
Авторы заявляют об отсутствии конфликта интересов.
Мы благодарим д-ра Эми Скубиц и д-ра Кристин Бойлан (Университет Миннесоты) за пилотные наборы данных, а также д-ра Пола Пьеховски, д-ра Тао Лю и д-ра Карин Родланд (Тихоокеанские северо-западные национальные лаборатории (PNNL)) за их опыт в сборе и обработке образцов PTF и создании данных РС, меченных TMT, используемых в этом исследовании. Этот проект был частично профинансирован Альянсом по борьбе с раком яичников штата Миннесота (MOCA), Национальным институтом здравоохранения/Национальным институтом рака, номер гранта: 5R01CA262153 (A.P.N.S.), 1R21CA267707 (P.D.J и T.J.G.), а также Национальными институтами здравоохранения/Национальным институтом рака, номер гранта: P30CA077598 (P.D.J. и T.J.G.).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены