Method Article
OpenProt является свободно доступной базы данных, обеспечивающая полицистронная модель эукариотических геномах. Здесь мы представляем протокол для использования OpenProt баз данных, когда допрос наборов данных масс-спектрометрии. Использование OpenProt база данных для анализа proteomic экспериментов позволяет для обнаружения новых и ранее обнаружить белков.
Аннотация геномов имеет центральное значение для сегодняшней протеомических исследований как он рисует контуры proteomic ландшафта. Традиционные модели открытого чтение фрейма (ORF) Аннотация навязать два произвольных критериев: Минимальная длина 100 кодонов и один ORF на стенограмму. Однако, растущее количество исследований доклад экспрессию белков от якобы-кодирования регионов, сложные точность текущей аннотации генома. Эти роман, которые были найдены белки закодированы либо в пределах некодирующих РНК, 5' и 3' непереведенные регионов (необычных) мРНК, или перекрывающихся известный кодирующая последовательность (CD) в качестве альтернативы ORF. OpenProt-это первая база данных, обеспечивающая полицистронная модель для эукариотических геномах, позволяя Аннотация несколько ORFs на стенограмму. OpenProt свободно доступным и предлагает пользовательской загрузки последовательностей белков через 10 видов. С помощью OpenProt базы данных для протеомных экспериментов позволяет обнаружить роман белков и подчеркивает характер полицистронная генов эукариот. Размер базы данных OpenProt (все предсказал белков) является существенным и должны быть приняты в учетной записи для анализа. Однако соответствующие накладные обнаружения (ФДР) настройки или использования ограниченных OpenProt базы данных, пользователи получат более реалистичное представление о proteomic ландшафта. В целом OpenProt является свободно доступные средства, которые будут способствовать proteomic открытий.
За последние десятилетия масс-спектрометрия (МС-) на основе протеомики стал золотой способ расшифровать протеомов эукариотических клеток в1,2,3,4,5. Этот метод основывается на текущей аннотации генома для создания базы данных последовательности белка ссылку, которая излагается сфера возможностей6,,78. Однако геном аннотации проводить произвольные критерии для аннотации ORF, например, минимальная длина 100 кодонов и один ORF на стенограмму9,10. Все большее количество исследований вызов текущую модель аннотации и отчет открытий unannotated функциональных ORFs в эукариотических геномах8,11,12,13, 14. Эти новые белки находятся закодированные в РНК, якобы-кодирования, в 5' и 3' untranslated регионов (утр) мРНК, или перекрывающихся канонические последовательности кодирования (ПЗС) в кадре альтернативного. Хотя большинство из этих открытий были счастливое, они демонстрируют предостережения текущей аннотации генома и полицистронная характер Гены эукариот8.
Здесь мы подчеркиваем использование OpenProt баз данных для основанных на MS протеомики. OpenProt — первая база данных провести полицистронная аннотации модель для eukaryotic transcriptomes. Она свободно доступна на www.openprot.org15. Доля этих предсказал бы ORFs случайных и нефункциональные, который является, почему OpenProt кумулирует экспериментальных и функциональных доказательств для повышения доверия. Экспериментальные доказательства включают в себя выражения протеина (в мс) и перевод свидетельства (рибосома профилирования)15. Функциональные доказательства включают Гомология белка (с In-параноик, как подход) и функционального домена предсказание15.
OpenProt предлагает возможность скачать несколько баз данных, содержащего только хорошо поддерживается белки для индивидуальных баз данных. Здесь, мы будем представлять трубопровода для использования баз данных OpenProt и будет предлагать идеи в какой базе данных выбрать, учитывая в экспериментальных целях. Конвейер анализа протеомики, представленные здесь поддерживается Галактика рамки как это открытого доступа и easy-to-use, но баз данных можно работать с любого рабочего процесса по16,17,18. Мы также представим как использовать веб-сайт OpenProt для сбора дополнительной информации о новых белков, обнаруженных г-жа OpenProt использование баз данных будет более исчерпывающего представления proteomic ландшафта и будет способствовать протеомики и биомаркеров открытий в более систематическим образом чем текущие методы.
Этот протокол выделяет использование OpenProt баз данных15 при допросе MS наборов данных; Он не будет рассматривать дизайн эксперимента самого, который был тщательно рассмотрен других20,21,22. В попытке оставаться полностью открытым исходным кодом протокол является свободно доступны (Дополнительный материал S1–S4). Для упрощения чтения, все термины, используемые в OpenProt и настоящим этот протокол определены в таблице 1.
1. OpenProt Загрузка базы данных
Примечание: Пользовательские базы данных, на основе данных РНК seq например также может быть получен и процедура подробно описана во втором разделе настоящего Протокола. Если пользовательские базы данных требуется, перейдите к следующему разделу.
2. пользовательская загрузка базы данных OpenProt
Примечание: В этом разделе подробно описано, как получить в пользовательской базе данных. Если пользовательские база данных не требуется, перейдите к следующему разделу.
3. база данных обработка
Примечание: Теперь Галактики платформа будет использоваться, но те же принципы могут применяться к другим proteomic программного обеспечения.
4. Подготовка файла масс-спектрометрии
Примечание: Большинство инструментов протеомики доступна на галактику экземпляров использовать формат mzML, и пептида поисковых систем предпочитают данные в режиме центроид.
5. пептидов и белков идентификации/количественная оценка
Примечание: Эта часть конвейера использует средства от OpenMS люкс, универсальный и простой в использовании рамок18.
6. контроль качества
Примечание: Потому, что на основе MS протеомики является результатом сложного процесса, где каждый шаг должен быть оптимизированы для получения воспроизводимых результатов, контроль качества – необходимая процедура в рабочего процесса33.
7. OpenProt базы данных добычи
Примечание: После того, как был достигнут уверенно идентификации романный протеин предсказано OpenProt (присоединение чисел, начиная с IP_ для AltProts и II_ для Роман изоформ), больше биологических информация может быть собрана из сайта OpenProt15.
Рабочий процесс, описанный выше был применен к набору данных MS на гордость репозитория38,39. Оригинальные исследования разработан метод (iMixPro), с использованием стабильных изотопов маркировки аминокислот в культуре клеток (SILAC), чтобы исключить ложные срабатывания от очищение сродства мс (AP-МС) эксперименты38. Короче говоря эксперимент AP-MS состоит в использовании бусы прыгните антитела для извлечения протеина интереса (байт) и ее посредники (жертв). Собранные белки затем переваривается и подготовлен для MS. Метод подготовки и настройки инструмента описаны в первоначальном исследовании и на хранилище гордость (PXD004246). Вызов в таких экспериментов является обилие ложных срабатываний, особенно от белков, привязка к бисер, но не приманку. Здесь, мы использовали SILAC для создания различных изотопов соотношения между истинной preys и ложных срабатываний: 3 управления образцы (нет приманки) культивировали в легкий средний, 1 образец, выражая приманки, культивируемых в легких средних и 1 образец, выражая приманки, культивируемых в тяжелых средах обработаны с бисером и дальнейшего анализа масс-спектрометрии. С такой дизайн неспецифических белков, привязка к бисеру будет иметь тяжелые свет соотношение 1:4; Когда true preys будет иметь отношение 1:138.
Мы повторно проанализировали их данных AP-MS, используя базу данных OpenProt; приманки включены три эндогенного белков (PTPN14, JIP3 и IQGAP1), и два чрезмерно выразил белков (RAF1 и RNF41). Поскольку эксперименты используется SILAC, Галактика рабочего процесса для количественного определения белка была использована (Дополнительный материал S3, рис. 2). Рабочий процесс был запущен с использованием ограниченного базы данных OpenProt (OpenProt_2pep, включая только белки, ранее обнаруженных с минимум два уникальных пептиды) или вся база данных OpenProt (OpenProt_all).
Белка идентификации и количественной оценки были хорошие и воспроизводимых через различных используемых баз данных. Как показано на рисунке 3, большинство белков, указанных в первоначальном документе были также определены с использованием OpenProt_2pep или OpenProt_all базы данных (подробный список доступен в Дополнительных материалов S5). Этот результат показывает, что трубопровод, описанные здесь и баз данных в состоянии производить белок идентификации и количественной оценки, сопоставимой с эффективностью работы нынешних процедур, основанных на базах данных UniProtKB40OpenProt. Однако использование баз данных OpenProt имеет уникальное преимущество позволяет обнаружение Роман и ранее обнаружить белков, как показано в этом случае исследование.
11 хорошо поддерживается белков (1 изоформы и 10 AltProts), но в настоящее время не аннотированных в базах данных, были выявлены во всех наборов данных, с уверенно пептиды, используя базу данных OpenProt_2pep (все белка присоединения, а также количество поддержки пептиды, доступны в Дополнительный материал S5). Эта база данных позволяет использовать традиционные 1% ФДР как увеличение пространства поиска остается умеренной. Эти 11 белки не были выявлены в ходе первоначального исследования, как они отсутствовали из базы данных.
29 новых белков (16 изоформ и 13 AltProts) были обнаружены во всех наборов данных, с уверенно пептиды, используя базу данных OpenProt_all (всех присоединений белка, наряду с числом вспомогательных пептиды, находятся в дополнительного материала S6 ). Как показано на рисунке 3, рекомендуется строгий Рузвельта не затрагивает наиболее уверенно идентификации белков, хотя он уменьшить общее количество выявленных белков. Сравнительно в базу данных OpenProt_2pep, большее количество новых белков может быть уверенно определены. Все эти новые белки отсутствуют из базы данных OpenProt_2pep. Это подчеркивает решающую роль выбранной базы данных на основе MS протеомики.
Один новый белок был обнаружен в качестве интерактивных RAF1 белка (IP_637643). Использование веб-сайта OpenProt, можно увидеть этот белок не было обнаружено ни MS, ни рибосома профилирования до сих пор (OpenProt v1.3). Белок является 46 аминокислот длиной и может дать только два уникальных пептидов при tryptic пищеварение. Пептид обнаружены в RAF1 AP-MS dataset (фракция 18) имел хорошее качество спектра, как показано на рисунке 4и отображается соотношение тяжелых свет 1,09. Белок кодируется в гене NANOGNBP1 , который является Псевдогены NANOGNB. Стенограммы (ENST00000448444), в настоящее время помечен как не кодирования, был обнаружен через несколько тканей по данным портала GTEx40. Белок содержит предсказал функционального домена, связанные с ДНК привязки (онтология гена GO: 0003677)41.
Рисунок 1 : База данных выбор для протеомики анализов диаграммы. Анализ данных MS, особенности выбора базы данных, зависит от целей исследования. Три общие цели изложены в голубой (классический proteomic трубопровода), зеленый (исчерпывающий proteomic Поиск) и оранжевый (proteomic обнаружения). Каждой цели зависит от соответствующей базы данных и трубопровода. Один идентификации инструмент может использоваться для исчерпывающего и классической протеомики трубопроводов. Для протеомных обнаружения трубопровода мы настоятельно рекомендуем использовать несколько двигателей идентификации. Рекомендуемые потребоваться указаны в красном, и белка размеры базы данных указаны в серые коробки. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 2 : Графическое представление Галактика рабочего процесса используется. Шаг за шагом представление протеомного анализа рабочего процесса, для повторного анализа данных Eyckerman et al.38. Оранжевые прямоугольники обозначаются входных файлов, Поиск пептида и белка количественной оценки. Синие ящики соответствуют инструменты, используемые, и серые участки соответствуют выходные файлы создаются. Различные поисковые системы (MS-GF + и X! Тандем) обозначаются разными цветами (соответственно, красный и фиолетовый), а также стрелки, указывающие их необходимые входы и выходы. Зеленом поле подчеркивает средство генерации списка идентификации белков. Когда создаются несколько выходов, используется для вниз по течению шагов указывается как ближайший к стрелку. Этот рабочий процесс свободно доступен в Дополнительный материал S2. X! Тандем по умолчанию параметры конфигурации файл доступен в Дополнительный материал S4. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 3 : Сравнение interactor идентификации на приманку, с использованием различных баз. Венна идентификации белков, используя наиболее уверенно OpenProt база данных (в оранжевый, подтверждающих доказательств минимум 2 уникальных пептидов, OpenProt_2pep) с 1% ФДР, или весь OpenProt база данных (в синем, OpenProt_all) с 0,001% ФДР, или как сообщалось в оригинальной бумаге (в серый)38. Каждая диаграмма соответствует выявленных посредники для упомянутых приманки: RAF1, RNF41, PTPN14, JIP3 и IQGAP1. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 4 : МС/МС спектр выявленных MDNLWAK(13C 6) пептид из романа белка IP_637643. Интенсивность относительное (0-100%). Отдельных пиков указаны в красном, y аннотации ионы находятся в темно красный и b ионов аннотации в зеленый. Извлеченные из программного обеспечения TOPPview34. Прекурсоров ошибка = 2,70 млн, PEP оценка = 0,12. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Срок | Определение | Ссылка |
Альтернативные ORF (AltORF) | нестандартные ORF в настоящее время не в геном аннотации, но в OpenProt. | 15 |
Ссылка ORF (RefORF) | канонические ORF, аннотированных в геном аннотации и OpenProt. | 15 |
Альтернативные белка (AltProt) | Роман белков, закодированных на AltORF, с никакого значительного сходства с RefProt. Присоединение префикс: IP_. | 15 |
Ссылка белка (RefProt) | белка в настоящее время аннотированный в базах данных последовательности белка UniProtKB, Ensembl или NCBI RefSeq, а также в OpenProt. | 15 |
Роман изоформы | Роман белков закодированы AltORF, с значительного сходства с RefProt. Присоединение префикс: II_. | 15 |
OpenProt_2pep база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt, уже обнаружено с минимум 2 уникальных пептиды. | 15 |
OpenProt_1pep база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt, уже обнаружено с минимум 1 уникальный пептид. | 15 |
OpenProt_all база данных | содержит последовательность всех RefProts и Роман белков, предсказано OpenProt. | 15 |
Таблица 1: Определение терминов, используемых в OpenProt и протокол
Дополнительный материал S1: Галактика рабочий процесс для обработки базы данных. Это добавит (обратный) к базе данных входной последовательности CRAPome и манок. Вывод представляет собой файл Fasta. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S2: Галактика рабочий процесс для идентификации белков. Это будет идентифицировать белки из файла данных масс-спектрометрии с помощью двух поисковых систем (MS-GF + и X! Тандем). Каждый параметр может быть настроен как пожелано перед запуском рабочего процесса. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S3: Галактика рабочий процесс для количественного определения белка с помощью стабильных изотопов, маркировки (SIL). Это будет выявлять и количественно белки из файла данных масс-спектрометрии с помощью двух поисковых систем (MS-GF + и X! Тандем). Каждый параметр может быть настроен как пожелано перед запуском рабочего процесса. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительного материала S4: X! Тандем по умолчанию параметров файла конфигурации. Этот XML-файл необходим для запуска X! TandemAdapter инструмент на платформе галактики. Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S5: количественно белки из наборов iMixPro. Файлы данных из Eyckerman et al. 201638 были обработаны с использованием баз данных OpenProt и количественных белки, перечислены для каждого условия. Приманки, PTPN14, JIP3, IQGAP1, RAF1 и RNF41. Джин имена, указанные в зеленый соответствуют белки, также указаны в оригинальный документ38. Джин имена, указанные в оранжевый соответствуют известным посредники согласно BioGrid, которые не были указаны в первоначальном документе. Джин имена, указанные в светло-голубой соответствуют Роман белки, определены как посредники (соответствующий белок присоединения номер указывается в скобках). Джин имена указанных в светло-серый и курсивом соответствуют вероятно загрязняющих веществ (белки кератин). Пожалуйста, нажмите здесь, чтобы скачать.
Дополнительный материал S6: определены Роман белки из наборов iMixPro. Файлы данных из Eyckerman et al. 201638 были обработаны с использованием баз данных OpenProt и Роман определенных белков, перечислены для каждого условия. Приманки, PTPN14, JIP3, IQGAP1, RAF1 и RNF41. Белка присоединения номера перечислены, начиная с II_ для Роман изоформ известный белка и с IP_ Роман белков из альтернативных ORF (AltProt). Число вспомогательных пептиды, указаны в скобках. Пожалуйста, нажмите здесь, чтобы скачать.
При анализе данных от масс-спектрометры, качество белка идентификации частично зависит от точности используемых баз данных6,20. Нынешние подходы традиционно используют UniProtKB баз данных, однако эти поддерживают минимальную длину 100 кодонов (за исключением ранее продемонстрировал примеры)40и геном аннотации модель одного ORF на стенограмму. Многочисленные исследования касаются недостатков таких баз данных с открытием функциональных ORFs от якобы некодирующих регионов8,11,12,13. Теперь OpenProt позволяет для более тщательной идентификации белков как она рисует белковых последовательностей из нескольких транскриптом аннотации. OpenProt извлекает NCBI RefSeq (GRCh38.p7) и transcriptomes Ensembl (GRCh38.83) и UniProtKB аннотации (UniProtKB-SwissProt, 2017-09-27)40,42,43. Как текущей аннотации представляют мало перекрытия, OpenProt таким образом отображает представление более исчерпывающий потенциальных proteomic пейзаж чем когда ограничивается одной аннотации15.
Кроме того как OpenProt задает строгую модель полицистронная, он позволяет несколько белков аннотации на стенограмму. Для вычислительных и статистических причин OpenProt по-прежнему имеет минимальную длину порога 30 кодонов15. Тем не менее она предсказывает тысячи новых белковых последовательностей, тем самым расширение возможностей для идентификации белков. С этим подходом OpenProt поддерживает proteomic открытий на более систематической основе.
Качество белка идентификации также может зависеть от параметров, которые используются. На основе MS протеомики анализов обычно занимают 1% белка ФДР. Однако вся база данных OpenProt содержит примерно в 6 раз больше записей (рис. 1). Для учета этого существенного увеличения пространства поиска, рекомендуется использовать более строгие ФДР 0,001%. Этот параметр был оптимизирован с помощью базового исследования и ручной оценки случайно выбранных спектры15. Ложный положительный результат по-прежнему являются возможность, хотя, и мы призываем тщательный осмотр и проверка доказательств для новый белок. Рекомендуемый стандарт может быть определение белка от двух разных MS бежит, как справочные данные и ложных срабатываний различаются между15наборов данных.
Конвейера здесь и используется для представления тематических исследований может быть изменен как приятно экспериментальный дизайн и параметры. Мы рекомендуем использовать несколько поисковых систем, как он увеличивает чувствительность и чувствительность пептид идентификации32. Кроме того мы призываем, используя базу данных лучше всего соответствует в экспериментальных целях (рис. 1). Как с помощью весь OpenProt, база данных поставляется с строгий Рузвельта истинной идентификации могут быть потеряны. Таким образом вся база данных должен быть предназначен для обнаружения новых белков, в то время как классическая протеомики профилирования следует использовать меньшие OpenProt баз данных (например, OpenProt_2pep, используемых в тематическом исследовании выше).
OpenProt в настоящее время предсказывает последовательности, начиная с кодоном ГПТ, тогда как несколько исследований выделены инициации перевода на другие кодонов44,45. Когда новый белок определяется один или несколько уникальных пептиды, вполне возможно кодон истинное посвящение не предполагаемой ГПТ. Пользователи могут искать перевод свидетельства на веб-сайте OpenProt. В настоящее время OpenProt сообщает только перевод события, если они касаются всю прогнозируемым белка последовательности (100% совпадения)15. Таким образом отсутствие доказательств перевод не будет означать что белок не переведены, но что кодон начала не может быть предполагаемым ГПТ.
Несмотря на свои текущие ограничения OpenProt предлагает более исчерпывающее представление эукариотических геномах кодирования потенциал. OpenProt баз данных способствуют proteomic открытий и понимание proteomic функций и взаимодействия. Будущие события OpenProt базы данных будет включать аннотацию других видов, перевод свидетельств от не ГПТ начать кодон и развития трубопровода включить Роман белков в весь геном и exome последовательность исследования.
Авторы заявляют никакого конфликта интересов.
Мы благодарим Вивиан Delcourt за его помощь, обсуждения и консультации по этой работе. X.R. является членом Fonds de Recherche дю du Québec Santé FRQS-поддерживает центр исследований больничного университетский центр де Шербрук. Это исследование было поддержано Канада исследований кафедры в функциональной протеомики и обнаружения Роман белки Грант СС-137056 X.R. и КНИИЗ. Мы благодарим команда Calcul Квебека и Канады Compute для их поддержки с использованием суперкомпьютеров mp2 из Université de Шербрук. Операция mp2 суперкомпьютер финансируется по Канаде фонд из инноваций (CFI), le ministère де л ' экономики, науки-де-ла et de l'innovation du Квебека (МЭСИ) и les Fonds de Recherche Квебека - природа et технологии (FRQ-NT). Галактика сервер, который был использован для некоторых расчетов протеомики частично финансируется за счет совместных исследований центр 992 медицинской эпигенетики (DFG Грант SFB 2012 992/1) и немецкого федерального министерства образования и научных исследований (BMBF предоставляет 031 РБК A538A/A538C, 031L0101B Де /031L0101C. NBI-epi, 031L 0106 де. ЛЕСТНИЦЫ (de. NBI)).
Name | Company | Catalog Number | Comments |
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены