JUMPn: оптимизированное приложение для кластеризации коэкспрессии белка и сетевого анализа в протеомике

David Vanderwall; Poudel Suresh; Yingxue Fu; Ji-Hoon Cho; Timothy I. Shaw; Ashutosh Mishra; Anthony A. High; Junmin Peng; Yuxin Li

doi:10.3791/62796

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

Резюме
Аннотация
Введение
протокол
Результаты
Обсуждение
Раскрытие информации
Благодарности
Материалы
Ссылки
Перепечатки и разрешения

Резюме

Мы представляем инструмент системной биологии JUMPn для выполнения и визуализации сетевого анализа количественных данных протеомики с подробным протоколом, включающим предварительную обработку данных, кластеризацию коэкспрессии, обогащение путей и сетевой анализ белково-белкового взаимодействия.

Аннотация

С недавними достижениями в технологиях протеомики на основе масс-спектрометрии глубокое профилирование сотен протеомов становится все более осуществимым. Однако получение биологической информации из таких ценных наборов данных является сложной задачей. Здесь мы представляем программное обеспечение JUMPn на основе системной биологии и связанный с ним протокол для организации протеома в кластеры экспрессии белка в образцах и сетях белково-белкового взаимодействия (PPI), соединенных модулями (например, белковыми комплексами). Используя платформу R/Shiny, программное обеспечение JUMPn упрощает анализ кластеризации коэкспрессии, обогащения путей и обнаружения модуля PPI с интегрированной визуализацией данных и удобным интерфейсом. Основные этапы протокола включают установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, определение значимых кластеров коэкспрессии и модулей PPI, а также визуализацию результатов. Хотя протокол демонстрируется с использованием профиля протеома на основе изобарической маркировки, JUMPn обычно применим к широкому спектру количественных наборов данных (например, протеомика без меток). Таким образом, программное обеспечение и протокол JUMPn обеспечивают мощный инструмент для облегчения биологической интерпретации в количественной протеомике.

Введение

Протоомика дробовика на основе масс-спектрометрии стала ключевым подходом к анализу разнообразия протеомов сложных образцов¹. С последними достижениями в области масс-спектрометрических приборов ^2,3, хроматографии ^4,5, обнаружения подвижности ионов⁶, методов сбора (независимый от данных⁷ и зависящий от данных сбор⁸), подходов к количественной оценке (метод многоплексной маркировки изобарических пептидов, например, TMT ^9,10 и количественной оценки без маркировки^11,12) и стратегий анализа данных/ Разработка программного обеспечения 13,14,15,16,17,18, количественная оценка всего протеома (например, более 10 000 белков) теперь является рутинной 19,20,21. Тем не менее, как получить механистическое понимание из таких глубоких количественных наборов данных, все еще сложно²². Первоначальные попытки исследования этих наборов данных основывались преимущественно на аннотации отдельных элементов данных, рассматривая каждый компонент (белок) независимо. Однако биологические системы и их поведение не могут быть объяснены исключительно путем изучения отдельных компонентов²³. Поэтому системный подход, который помещает количественные биомолекулы в контекст сетей взаимодействия, имеет важное значение для понимания сложных систем и связанных с ними процессов, таких как эмбриогенез, иммунный ответ и патогенез заболеваний человека²⁴.

Сетевая системная биология стала мощной парадигмой для анализа крупномасштабных количественных данных протеомики 25,26,27,28,29,30,31,32,33. Концептуально сложные системы, такие как клетки млекопитающих, могут быть смоделированы как иерархическая сеть^34,35, в которой вся система представлена в уровнях: сначала рядом крупных компонентов, каждый из которых затем итеративно моделируется более мелкими подсистемами. Технически структура динамики протеомов может быть представлена взаимосвязанными сетями коэкспрессированных белковых кластеров (поскольку коэкспрессированные гены/белки часто имеют сходные биологические функции или механизмы регуляции³⁶) и физически взаимодействующими модулями^{PPI 37}. В качестве недавнего примера²⁵ мы сгенерировали временные профили всего протеома и фосфопротеома во время активации Т-клеток и использовали интегративные сети коэкспрессии с ИПП для идентификации функциональных модулей, которые опосредуют выход Т-клеток из покоя. Было выделено и экспериментально проверено несколько модулей, связанных с биоэнергетикой (например, миторибосомы и комплексные модули^{IV 25} и одноуглеродный модуль³⁸). В другом примере²⁶ мы еще больше расширили наш подход к изучению патогенеза болезни Альцгеймера и успешно определили приоритеты прогрессирования заболевания, связанных с белковыми модулями и молекулами. Важно отметить, что многие из наших непредвзятых открытий были подтверждены независимыми когортами пациентов^26,29 и / или моделями мышей с заболеваниями²⁶. Эти примеры проиллюстрировали силу подхода системной биологии для препарирования молекулярных механизмов с помощью количественной протеомики и других омических интеграций.

Здесь мы представляем JUMPn, оптимизированное программное обеспечение, которое исследует количественные данные протеомики с использованием сетевых системных подходов к биологии. JUMPn служит последующим компонентом установленного пакета программного обеспечения протеомики JUMP ^13,14,39 и направлен на заполнение пробела от отдельных количественных оценок белка до биологически значимых путей и белковых модулей с использованием подхода системной биологии. Принимая матрицу количественной оценки дифференциально экспрессированных (или наиболее изменчивых) белков в качестве входных данных, JUMPn стремится организовать протеом в многоуровневую иерархию белковых кластеров, совместно экспрессируемых в образцах и плотно связанных модулях PPI (например, белковых комплексах), которые дополнительно аннотируются в общедоступных базах данных путей путем анализа чрезмерного представления (или обогащения) (рисунок 1). JUMPn разработан с использованием платформы R/Shiny⁴⁰ для удобного интерфейса и объединяет три основных функциональных модуля: кластерный анализ коэкспрессии, анализ обогащения путей и сетевой анализ PPI (рисунок 1). После каждого анализа результаты автоматически визуализируются и настраиваются с помощью функций виджетов R/shiny и легко загружаются в виде таблиц публикации в формате Microsoft Excel. В следующем протоколе мы используем количественные данные всего протеома в качестве примера и описываем основные этапы использования JUMPn, включая установку программного обеспечения JUMPn, определение дифференциально экспрессированных белков или (дис)регулируемого протеома, анализ сети коэкспрессии и анализ модуля PPI, визуализацию и интерпретацию результатов, а также устранение неполадок. Программное обеспечение JUMPn находится в свободном доступе на GitHub⁴¹.

Access restricted. Please log in or start a trial to view this content.

протокол

ПРИМЕЧАНИЕ: В этом протоколе использование JUMPn иллюстрируется использованием опубликованного набора данных о профилировании всего протеома во время дифференцировки В-клеток, количественно определяемого изобарическим реагентом^{метки TMT 27}.

1. Настройка программного обеспечения JUMPn

ПРИМЕЧАНИЕ: Для настройки программного обеспечения JUMPn предусмотрены два варианта: (i) установка на локальный компьютер для личного использования; и ii) развертывание JUMPn на удаленном блестящем сервере для нескольких пользователей. Для локальной установки достаточно персонального компьютера с выходом в Интернет и ≥4 Гб оперативной памяти для выполнения анализа JUMPn для набора данных с небольшим размером выборки (n < 30); для анализа больших когорт (например, 16 Гб) требуется большая оперативная память (например, n = 200 выборок).

Установите программное обеспечение на локальный компьютер. После установки разрешите веб-браузеру запустить JUMPn и позвольте анализу выполниться на локальном компьютере.
1. Установите anaconda⁴² или miniconda⁴³ , следуя онлайн-инструкциям.
2. Загрузите исходный код JUMPn⁴¹. Дважды щелкните, чтобы распаковать загруженный файл JUMPn_v_1.0.0.zip; будет создана новая папка с именем JUMPn_v_1.0.0.
3. Откройте терминал командной строки. В Windows используйте приглашение Anaconda. В MacOS используйте встроенное приложение «Терминал».
4. Создайте среду JUMPn Conda: получите абсолютный путь к папке JUMPn_v_1.0.0 (например, /path/to/JUMPn_v_1.0.0). Чтобы создать и активировать пустую среду Conda, введите в терминале следующие команды
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda активировать /path/to/JUMPn_v_1.0.0/JUMPn
5. Установите зависимости JUMPn: установите R (на терминале введите conda install -c conda-forge r=4.0.0 -y), измените текущий каталог на папку JUMPn_v_1.0.0 (в терминале введите cd path/to/JUMPn_v_1.0.0) и установите пакеты зависимостей (на терминале введите Rscript bootstrap. R)
6. Запустите JUMPn в веб-браузере: измените текущий каталог на папку выполнения (на терминале введите выполнение cd) и запустите JUMPn (на терминале введите R -e "shiny::runApp()")
7. Как только вышесказанное будет выполнено, на экране терминала появится окно Прослушивания на http://127.0.0.1:XXXX (здесь XXXX указывает 4 случайных числа). Скопируйте и вставьте http://127.0.0.1:XXXX в веб-браузер, в котором появится страница приветствия JUMPn (рисунок 2).
Развертывание на Shiny Server. Примеры Shiny Server включают коммерческий сервер shinyapps.io или любые институционально поддерживаемые Shiny Servers.
1. Скачайте и установите RStudio, следуя инструкции⁴⁴.
2. Получите разрешение на развертывание для Shiny Server. Для сервера shinyapps.io настройте учетную запись пользователя, следуя инструкции⁴⁵. Для институционального сервера Shiny обратитесь к администратору сервера для запроса разрешений.
3. Загрузите исходный код JUMPn⁴¹ на локальный компьютер; Установка не требуется. Откройте любой из серверов. R или ui. R файлов в RStudio и щелкните раскрывающееся меню Опубликовать на сервере в правом верхнем углу среды разработки RStudio.
4. На панели Опубликовать в учетной записи введите адрес сервера. Нажмите кнопку Опубликовать . Успешное развертывание проверяется при автоматическом перенаправлении с RStudio на сервер RShiny, на котором было развернуто приложение.

2. Демонстрационный запуск с использованием примера набора данных

ПРИМЕЧАНИЕ: JUMPn предлагает демонстрационный запуск с использованием опубликованного набора данных протеомики В-клеток. Демонстрационный запуск иллюстрирует оптимизированный рабочий процесс, который принимает матрицу количественной оценки дифференциально экспрессированных белков в качестве входных данных и последовательно выполняет кластеризацию коэкспрессии, обогащение путей и сетевой анализ PPI.

На домашней странице JUMPn (рисунок 2) нажмите кнопку Начать анализ , чтобы начать анализ JUMPn.
В левом нижнем углу страницы Начать анализ (рисунок 3) нажмите на кнопку Загрузить демонстрационные протеомные данные B-клеток ; появится диалоговое окно с уведомлением об успешной загрузке данных.
В правом нижнем углу страницы нажмите на кнопку Отправить анализ JUMPn , чтобы начать демонстрационный запуск с использованием параметров по умолчанию; появится индикатор выполнения, обозначающий ход анализа. Подождите, пока индикатор выполнения не будет выполнен (ожидается 3 мин).
После завершения демонстрационного запуска появится диалоговое окно с сообщением об успешном запуске и абсолютным путем к папке результатов. Нажмите «Продолжить к результатам», чтобы продолжить.
Веб-страница сначала направит пользователя к результатам кластера со-выражений WGCNA. Нажмите «Просмотреть результаты» в диалоговом окне, чтобы продолжить.
Найдите шаблоны коэкспрессии белка слева на странице результатов 1: Вывод WGCNA . Щелкните раскрывающийся список Выбрать формат выражения , чтобы перейти между двумя форматами рисунков:
1. Выберите Тенденции , чтобы отобразить график тенденций, где каждая строка представляет индивидуальное содержание белка в выборках. Цвет каждой линии показывает, насколько близок шаблон выражения к консенсусу кластера со-выражений (т. Е. «eigengene», как определено алгоритмом WGCNA).
2. Выберите Boxplot , чтобы отобразить шаблоны совместного выражения в формате boxplot для каждого примера.
Просмотрите тепловую карту обогащения пути/онтологии справа от выходной страницы WGCNA. Наиболее высокообогащенные пути для каждого кластера отображаются вместе на тепловой карте, причем интенсивность цвета отражает скорректированное Бенджамини-Хохбергом p-значение.
Прокрутите веб-страницу вниз, чтобы просмотреть шаблон выражения для отдельных белков.
1. В раскрывающемся списке Выберите кластер совместного выражения для просмотра белков из каждого кластера (по умолчанию используется кластер 1). Выберите конкретный белок в таблице, на котором график бара под таблицей будет автоматически обновлен, чтобы отразить его содержание белка.
2. Поиск конкретных названий белков с помощью поля Поиск в правой части таблицы для определенного белка.
Чтобы просмотреть результаты PPI, нажмите на страницу результатов 2: Вывод PPI вверху.
Щелкните Выбрать кластер совместного выражения, чтобы просмотреть результаты для определенного кластера совместного выражения (по умолчанию — кластер 1). Отображение всех фигурных панелей на этой странице будет обновлено для вновь выбранного кластера.
Просмотрите сети PPI для выбранного кластера с выражением мнений на панели рисунков слева:
1. Щелкните раскрывающийся список Выбрать по группе , чтобы выделить отдельные модули PPI в сети. Щелкните раскрывающийся список Выбрать формат сетевого макета , чтобы изменить сетевую компоновку (по умолчанию — Fruchterman Reingold).
2. Используйте мышь и трекпад для выполнения шагов 2.11.3-2.11.5.
3. При необходимости увеличьте или уменьшите масштаб сети PPI. Имена генов каждого узла в сети будут показаны при достаточном увеличении.
4. При увеличении масштаба выберите и щелкните определенный белок, чтобы выделить этот белок и его сетевых соседей.
5. Перетащите определенный узел (белок) в сеть, чтобы изменить его положение в макете; таким образом, макет сети может быть реорганизован пользователем.
На правой панели страницы результатов PPI просмотрите информацию на уровне кластера со-выражения, которая помогает интерпретировать результаты PPI:
1. По умолчанию шаблон совместного выражения выбранного кластера рассматривается как прямоугольный фрагмент.
2. Щелкните раскрывающийся список Выберите формат выражения для получения дополнительной информации или отображения, как указано в шагах 2.12.3-2.12.5.
3. Выберите Тенденции , чтобы отобразить график трендов для шаблона совместного выражения.
4. Выберите Pathway Barplot , чтобы показать значительно обогащенные пути для кластера коэкспрессии.
5. Выберите «Контур контура пути», чтобы отобразить значительно обогащенные пути для кластера совместного выражения в формате кругового графика.
Прокрутите вниз страницу Результаты 2: Вывод PPI , чтобы просмотреть результаты на уровне отдельного модуля PPI. Щелкните раскрывающийся список Выбрать модуль , чтобы выбрать конкретный модуль PPI для отображения (Кластер1: Модуль 1 отображается по умолчанию).
Просмотрите модуль PPI на левой панели. Чтобы управлять сетевым дисплеем, выполните действия 2.11.2-2.11.5.
Просмотрите результаты обогащения пути/онтологии на правой панели. Щелкните раскрывающийся список Выберите стиль аннотации Pathway для получения дополнительной информации и отображения:
1. Выберите Barplot , чтобы отобразить значительно обогащенные пути для выбранного модуля PPI.
2. Выберите Circle Plot , чтобы отобразить значительно обогащенные пути для выбранного модуля PPI в формате кругового графика.
3. Выберите Тепловая карта , чтобы показать значительно обогащенные пути и связанные с ними имена генов из выбранного модуля PPI.
4. Выберите Таблица , чтобы показать подробные результаты обогащения путей, включая названия путей / онтологических терминов, имена генов и значение P по точному тесту Фишера.
Просмотрите таблицу публикаций в формате электронной таблицы: следуйте абсолютному пути (напечатанному в верхней части обеих страниц результатов) и найдите таблицу электронной таблицы публикации с именем ComprehensiveSummaryTables.xlsx.

3. Подготовка входного файла и загрузка в JUMPn

ПРИМЕЧАНИЕ: JUMPn принимает в качестве входных данных матрицу количественной оценки либо дифференциально экспрессированных белков (контролируемый метод), либо наиболее переменных белков (неконтролируемый метод). Если целью проекта является понимание белков, измененных в нескольких условиях (например, различные группы заболеваний или анализ биологических процессов временных рядов), предпочтительным является контролируемый метод выполнения анализа DE; в противном случае для исследовательской цели может быть использован неконтролируемый подход к выбору наиболее изменчивых белков.

Создайте таблицу количественной оценки белка, в которой каждый белок будет представлять собой строки, а каждый образец — столбцами. Достигните этого с помощью современного программного обеспечения протеомики на основе масс-спектрометрии (например, JUMP suite 13,14,39, Proteome Discoverer, Maxquant^15,46).
Определите переменную протеом.
1. Используйте результаты статистического анализа, предоставляемые программным пакетом протеомики, для определения дифференциально экспрессированных (DE) белков (например, с скорректированным p-значением < 0,05).
2. Альтернативно, пользователи могут следовать примеру R-кода⁴⁷ , чтобы определить либо DE, либо большинство переменных белков.
Отформатируйте входной файл, используя определенную переменную протеома.
ПРИМЕЧАНИЕ: Требуемый формат входного файла (рисунок 4) включает строку заголовка; столбцы включают присоединение белка (или любые уникальные идентификаторы), GN (официальные символы генов), описание белка (или любую информацию, предоставленную пользователем), с последующей количественной оценкой белка отдельных образцов.
1. Следуйте порядку столбцов, указанному на шаге 3.1, но имена столбцов заголовка являются гибкими для пользователя.
2. Для ТМТ (или аналогичного) количественного протеома используйте суммированную интенсивность репортера ТМТ в качестве входных количественных значений. Для данных без меток используйте либо нормализованные спектральные показатели (например, NSAF⁴⁸), либо метод, основанный на интенсивности (например, интенсивность LFQ или интенсивность белка iBAQ, о которой сообщает Maxquant⁴⁶).
3. Отсутствующие значения разрешены для анализа JUMPn. Убедитесь, что они помечены как NA в матрице количественной оценки. Тем не менее, рекомендуется использовать только белки с количественной оценкой в более чем 50% образцов.
4. Сохраните полученный входной файл в формате .txt, .xlsx или .csv (все три поддерживаются JUMPn).
Загрузите входной файл:
1. Нажмите кнопку Browser и выберите входной файл (рисунок 3, левая панель); формат файла (поддерживаются xlsx, csv и txt ) будет определен автоматически.
2. Если входной файл содержит значения количественной оценки, подобные интенсивности (например, сгенерированные JUMP suite³⁹) или коэффициентоподобные (например, из Proteome Discoverer), выберите Да для опции Выполнить Log2-Преобразование данных; в противном случае данные, возможно, уже преобразованы в журнал, поэтому выберите Нет для этого параметра.

4. Кластерный анализ коэкспрессии

ПРИМЕЧАНИЕ: Наша группа 25,26,27 и другие ^28,29,31 доказали, что WGCNA⁴⁹ является эффективным методом кластерного анализа коэкспрессии количественной протеомики. JUMPn следует 3-этапной процедуре для анализа WGCNA^25,50: (i) первоначальное определение кластеров генов/белков коэкспрессии путем динамического разрезания дерева⁵¹ на основе топологической матрицы перекрытия (TOM; определяется количественным сходством между генами/белками); ii) слияние аналогичных кластеров для уменьшения избыточности (на основе дендрограммы сходства эйгенгена); и (iii) окончательное присвоение генов/белков каждому кластеру, которые превышают минимальный порог корреляции Пирсона.

Настройка параметров WGCNA (рисунок 3, средняя панель). Следующие три параметра управляют тремя шагами соответственно:
1. Установите минимальный размер кластера равным 30. Этот параметр определяет минимальное количество белков, необходимое для каждого кластера коэкспрессии на начальном этапе (i) гибридной динамической резки дерева на основе TOM. Чем больше значение, тем меньше количество кластеров, возвращаемых алгоритмом.
2. Установите минимальное расстояние между кластерами равным 0,2. Увеличение этого значения (например, с 0,2-0,3) может привести к большему слиянию кластеров на этапе (ii), что приведет к меньшему числу кластеров.
3. Установите минимальный kME равным 0,7. Белки будут отнесены к наиболее коррелированному кластеру, определенному на этапе (ii), но будут сохранены только белки с корреляцией Пирсона, проходящей этот порог. Белки, которые выходят из строя на этом этапе, не будут назначены ни одному кластеру (кластер «NA» для неудачных белков в окончательном отчете).
Инициируйте анализ. Существует два способа представления анализа кластеризации соэкспрессий:
1. Нажмите кнопку «Отправить анализ JUMPn » в правом нижнем углу, чтобы автоматически начать комплексный анализ WGCNA, за которым следует сетевой анализ PPI.
2. В качестве альтернативы выберите выполнение только шага WGCNA (особенно для целей настройки параметров; см. шаги 4.2.3-4.2.4):
3. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. В нижнем виджете Выберите режим анализа, выберите Только WGCNA, затем нажмите «Закрыть», чтобы продолжить.
4. На странице Начать анализ нажмите кнопку Отправить анализ JUMPn .
5. В любом случае при отправке анализа появится индикатор выполнения.
  ПРИМЕЧАНИЕ: После завершения анализа (обычно < 1 мин для анализа WGCNA Only и <3 мин для всестороннего анализа) появится диалоговое окно с сообщением об успешном запуске и абсолютным путем к папке результатов.
Изучите результаты WGCNA, как показано на шагах 2.4-2.8 (рисунок 5). Обратите внимание, что абсолютный путь к файлу co_exp_clusters_3colums.txt выделен в верхней части страницы результатов: вывод WGCNA для записи кластерной принадлежности каждого белка и использования его в качестве входных данных для анализа только PPI .
Устранение неполадок. Обсуждаются следующие три распространенных случая. После обновления параметров, как описано ниже, выполните шаги 4.2.2-4.2.4 для получения новых результатов WGCNA.
1. Если один важный шаблон совместного выражения ожидается от данных, но пропущен алгоритмом, выполните шаги 4.4.2-4.4.4
2. Отсутствующий кластер особенно вероятен для небольших кластеров коэкспрессии, то есть только ограниченного количества (например, <30) белков, проявляющих этот паттерн. Перед повторным анализом повторно изучите входной файл матрицы количественной оценки белка и найдите несколько положительных контрольных белков, которые придерживаются этого важного паттерна коэкспрессии.
3. Чтобы спасти небольшие кластеры, уменьшите минимальный размер кластера (например, 10; размер кластера менее 10 может быть ненадежным, поэтому не рекомендуется) и уменьшите минимальное расстояние кластера (например, 0,1; здесь также допускается установка 0, что означает, что автоматическое слияние кластеров будет пропущено).
4. После выполнения шага кластеризации коэкспрессии с обновленными параметрами сначала проверьте, спасен ли кластер из графиков шаблонов коэкспрессии, затем проверьте положительные элементы управления, выполнив поиск их белковых присоединения из Подробной количественной оценки белка (обязательно выберите соответствующий кластер коэкспрессии из раскрывающегося виджета левой стороны перед поиском).
  ПРИМЕЧАНИЕ: Для спасения может потребоваться несколько итераций настройки параметров и повторного запуска.
5. Если существует слишком много белков, которые не могут быть назначены ни одному кластеру, выполните шаги 4.4.6-4.4.7.
  ПРИМЕЧАНИЕ: Обычно небольшой процент (обычно <10%) белков не может быть отнесен к какому-либо кластеру, поскольку они могут быть исключением белков, которые не следовали ни одному из общих паттернов экспрессии набора данных. Однако, если такой процент является значительным (например, >30%), это говорит о том, что существуют дополнительные шаблоны совместного выражения, которые нельзя игнорировать.
6. Уменьшите параметры Минимального размера кластера и Минимального расстояния до кластера, чтобы облегчить эту ситуацию, обнаружив «новые» кластеры совместного выражения.
7. Кроме того, уменьшите параметр минимальной корреляции Пирсона (kME), чтобы уменьшить эти белки кластера NA.
  ПРИМЕЧАНИЕ: Настройка этого параметра не будет генерировать новые кластеры, а вместо этого увеличит размер «существующих» кластеров, принимая больше ранее вышедших из строя белков с более низким порогом; однако это также увеличит гетерогенность каждого кластера, так как теперь разрешено больше шумных белков.
8. Два кластера имеют очень незначительную разницу в паттернах; объедините их в один кластер, выполнив шаги 4.4.9-4.4.11.
9. Увеличьте параметр Минимальное расстояние кластера, чтобы решить проблему.
10. Однако в некоторых ситуациях алгоритм может никогда не вернуть нужный паттерн; в такой момент вручную настроить или отредактировать членство в кластере в файле co_exp_clusters_3colums.txt (файл из шага 4.3) для слияния.
11. Принимайте файл после редактирования в качестве входных данных для последующего сетевого анализа PPI. В случае ручного редактирования обосновать критерии присвоения кластера, а также запишите процедуру ручного редактирования.

5. Анализ сети белково-белкового взаимодействия

ПРИМЕЧАНИЕ: При наложении кластеров коэкспрессии на сеть PPI каждый кластер совместного выражения дополнительно стратифицируется на более мелкие модули PPI. Анализ выполняется для каждого кластера коэкспрессии и включает в себя два этапа: на первом этапе JUMPn накладывает белки из кластера коэкспрессии на сеть PPI и находит все связанные компоненты (т.е. множественные кластеры связанных узлов/белков; в качестве примера см. рисунок 6A); затем сообщества или модули (плотно связанных узлов) будут обнаружены для каждого подключенного компонента итеративно с использованием метода⁵² топологической матрицы перекрытия (TOM).

Настройка параметров сетевого анализа PPI (рисунок 3, правая панель).
1. Установите минимальный размер модуля PPI равным 2. Этот параметр определяет минимальный размер разъединенных компонентов с первого этапа анализа. Любой компонент, меньший, чем указанный параметр, будет удален из конечных результатов.
2. Установите максимальный размер модуля PPI равным 40. Большие, разрозненные компоненты, которые проходят этот порог, будут подвергаться второму этапу анализа на основе TOM. Анализ второго этапа будет далее разделять каждый большой компонент на более мелкие модули: каждый модуль, по-видимому, содержит белки, более плотно связанные, чем исходный компонент в целом.
Инициируйте анализ. Существует два способа представления сетевого анализа PPI:
1. Нажмите кнопку Submit JUMPn Analysis (Отправить анализ JUMPn), чтобы автоматически выполнить анализ PPI после анализа WGCNA по умолчанию.
2. Кроме того, можно загрузить настраиваемые результаты кластера совместного выражения и выполнить анализ только PPI , выполнив шаги 5.2.3-5.2.5.
3. Подготовьте входной файл, следуя формату файла co_exp_clusters_3colums.txt (см. подраздел 4.4).
4. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. В верхнем сеансе Загрузить результат кластера совместного выражения для анализа 'PPI Only' нажмите на Браузер , чтобы загрузить входной файл, подготовленный на шаге 5.2.3.
5. В нижнем виджете выберите режим анализа, выберите только PPI, затем нажмите «Закрыть», чтобы продолжить. На странице Начать анализ нажмите кнопку Отправить анализ JUMPn .
После завершения анализа (обычно <3 мин) изучите результаты PPI, как показано на шагах 2.10-2.15 (рисунок 6).
Дополнительный расширенный шаг) Настройте модульность PPI, настроив параметры:
1. Увеличьте параметр Максимальный размер модуля , чтобы включить больше белков в результаты PPI. Загрузите настроенную сеть PPI для покрытия недокументированных взаимодействий, выполнив шаги 5.4.2-5.4.3.
2. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. Подготовьте настроенный PPI-файл, содержащий три столбца в формате , C onnection и ; здесь представлены официальными названиями генов каждого белка.
3. В разделе Загрузка базы данных PPI нажмите кнопку Обзор , чтобы загрузить настроенный файл PPI.

6. Анализ обогащения путей

ПРИМЕЧАНИЕ: Производные от JUMPn иерархические структуры как кластеров коэкспрессий, так и модулей PPI внутри автоматически аннотируются чрезмерно представленными путями с использованием точного теста Фишера. Используемые базы данных путей/топологий включают Gene Ontology (GO), KEGG, Hallmark и Reactome. Пользователи могут использовать расширенные опции для загрузки пользовательских баз данных для анализа (например, в случае анализа данных от нечеловеческих видов).

По умолчанию анализ обогащения пути инициируется автоматически с помощью кластеризации коэкспрессий и сетевого анализа PPI.
Просмотрите результаты обогащения пути:
1. Выполните шаги 2.7, 2.12 и 2.15, чтобы визуализировать различные форматы на страницах результатов. Просмотр подробных результатов в таблице публикации электронной таблицы в файле ComprehensiveSummaryTables.xlsx (шаг 2.16).
(Необязательный дополнительный шаг) Загрузите настраиваемую базу данных для анализа обогащения пути:
1. Подготовьте фоновый файл гена, который обычно содержит официальные названия генов всех генов вида.
2. Подготовьте файл библиотеки онтологии, выполнив шаги 6.3.3-6.3.4.
3. Загрузите файлы библиотеки онтологии с общедоступных веб-сайтов, включая EnrichR⁵³ и MSigDB⁵⁴. Например, скачайте онтологию от Drosophila с сайта EnrichR⁵⁵.
4. Отредактируйте загруженный файл для требуемого формата с двумя столбцами: имя пути в качестве первого столбца, а затем официальные символы гена (разделенные «/») в качестве второго столбца. Подробный формат файла описан на странице справки блестящего программного обеспечения JUMPn R.
  ПРИМЕЧАНИЕ: Найдите примеры файлов генного фона и библиотеки онтологии (используя Drosophila в качестве примера) на сайте JUMPn GitHub⁵⁶.
5. Нажмите кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ»; появится новое окно параметров.
6. Найдите пункт «Загрузить фоновый файл для анализа обогащения пути» и нажмите «Браузер», чтобы загрузить фоновый файл, подготовленный на шаге 6.3.1. Затем в сеансе выберите фон, который будет использоваться для анализа обогащения пути, нажмите « Фон, предоставленный пользователем».
7. Найдите загрузить файл библиотеки онтологии для элемента анализа обогащения Пути и нажмите на браузер, чтобы загрузить файл библиотеки онтологии, подготовленный на шагах 6.3.2-6.3.4. Затем в сеансе выберите базы данных для анализа обогащения пути, нажмите на предоставленную пользователем базу данных в формате .xlsx.
Нажмите кнопку Отправить анализ JUMPn в правом нижнем углу, чтобы начать анализ с использованием настроенной базы данных.

7. Анализ набора данных с большим размером выборки

ПРИМЕЧАНИЕ: JUMPn поддерживает анализ набора данных с большим размером выборки (до 200 протестированных образцов). Чтобы упростить визуализацию большого размера выборки, необходим дополнительный файл (называемый «метафайл»), в котором указана группа образцов, чтобы облегчить отображение результатов кластеризации совместных выражений.

Подготовьте и загрузите метафайл.
1. Подготовьте метафайл, в котором указана информация о группе (например, контрольные группы и группы заболеваний) для каждого образца, выполнив шаги 7.1.2-7.1.3.
2. Убедитесь, что метафайл содержит по крайней мере два столбца: столбец 1 должен содержать имена образцов, идентичные именам столбцов и порядку из файла матрицы количественной оценки белка (как подготовлено на шаге 3.3); Столбец 2 и далее будет использоваться для назначения групп для любого количества объектов, определенных пользователем. Количество столбцов является гибким.
3. Убедитесь, что первая строка метафайла содержит имена столбцов для каждого столбца; начиная со второй строки, должна быть указана индивидуальная выборочная информация о группах или других признаках (например, пол, возраст, лечение и т.д.).
4. Загрузите метафайл, нажав на кнопку «Дополнительные параметры» в нижней части страницы «Начать анализ »; появится новое окно параметров. Перейдите к шагу 7.1.5
5. Найдите пункт «Загрузить метафайл » и нажмите «Браузер», чтобы загрузить фоновый файл. Если JUMPn обнаружит неожиданный формат или несопоставимые имена образцов, появится сообщение об ошибке для дальнейшего форматирования метафайла (шаги 7.1.1-7.1.3).
Настройте параметры кластерного анализа коэкспрессии: установите минимальную корреляцию Пирсона как 0,2. Этот параметр необходимо ослабить из-за большего размера выборки.
Нажмите кнопку «Отправить анализ JUMPn » в правом нижнем углу, чтобы отправить анализ.
Просмотр результатов анализа: все выходные данные одинаковы, за исключением отображения шаблонов кластера совместных выражений.
1. На странице результатов 1: выходные данные WGCNA визуализируйте кластеры совместных выражений в виде коробочных графиков с образцами, стратифицированными по определяемым пользователем группам выборок или функциям. Каждая точка на графике представляет эйгенген (т.е. шаблон консенсуса кластера), рассчитанный алгоритмом WGCNA.
2. Если пользователь предоставил несколько функций (например, возраст, пол, лечение и т. д.) для группировки образцов, щелкните раскрывающийся список Выберите формат выражения , чтобы выбрать другую функцию для группировки образцов.

Access restricted. Please log in or start a trial to view this content.

Результаты

Мы использовали наши опубликованные наборы данных глубокой протеомики 25,26,27,30 (рисунки 5 и 6), а также моделирование данных ⁵⁷ (таблица 1) для оптимизации и оценки пр?...

Access restricted. Please log in or start a trial to view this content.

Обсуждение

Здесь мы представили наше программное обеспечение JUMPn и его протокол, которые были применены в нескольких проектах для препарирования молекулярных механизмов с использованием глубоких количественных данных протеомики ^{25,26,27,30,64}<...

Access restricted. Please log in or start a trial to view this content.

Раскрытие информации

Авторам нечего раскрывать.

Благодарности

Финансовая поддержка была предоставлена Национальными институтами здравоохранения (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 и U54NS110435) и ALSAC (Американские ливанские сирийские ассоциированные благотворительные организации). Анализ РС был проведен в Центре протеомики и метаболомики детской исследовательской больницы Святого Иуды, который был частично поддержан грантом поддержки Онкологического центра NIH (P30CA021765). Содержание является исключительной ответственностью авторов и не обязательно отражает официальную точку зрения Национальных институтов здравоохранения.

Access restricted. Please log in or start a trial to view this content.

Материалы

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html