Этот вычислительный протокол важен, потому что он позволяет исследовать связи между клеточными компонентами, например, белками митохондрий, и их связь с заболеваниями, как сообщается в биомедицинских публикациях. CaseOLAP LIFT позволяет исследователям извлекать и интегрировать информацию из биомедицинских отчетов и баз знаний. Эти результаты, организованные в виде графа знаний, могут быть использованы для прогнозирования новых взаимосвязей.
Результаты этих исследований поддерживают генерацию гипотез, выделяя приоритетный список идентифицированных и прогнозируемых ассоциаций белковых заболеваний, что полезно для раскрытия новых идей о патологии заболевания и терапии. Этот настраиваемый рабочий процесс может быть применен к любому клеточному компоненту с помощью термина GO к любому списку заболеваний с помощью термина MeSH в любом диапазоне дат публикации. Этот удобный протокол сводит к минимуму вычислительный опыт, необходимый для анализа.
Программное обеспечение выпускается в виде контейнера Docker, для выполнения которого требуется только достаточное количество вычислительного хранилища и ресурсов. Для начала откройте окно терминала, чтобы скачать контейнер Docker CaseOLAP LIFT, и введите docker pull CaseOLAP slash CaseOLAP_LIFT latest. Создайте каталог, в котором будут храниться все данные программы и выходные данные.
Запустите контейнер docker с помощью команды, показанной на экране, заменив PATH_TO_FOLDER в качестве полного пути к файлу для папки. Чтобы запустить Elasticsearch в контейнере, откройте новое окно терминала и введите команду, показанную на экране. Перейдите в папку CaseOLAP_LIFT.
Убедитесь, что ссылки для скачивания и конфигурация имеют косую черту knowledge_base_links. JSON является актуальным и точным для последней версии каждого ресурса базы знаний. Чтобы определить онтологию гена или термин GO, перейдите на сайт генеонтология.
org и найдите идентификаторы для всех терминов GO. Точно так же найдите категории заболеваний с помощью заголовка Medical Subject Header или идентификаторов MeSH на веб-сайте, показанном на экране. Для выполнения модуля предварительной обработки укажите пользовательские изучаемые термины GO с помощью флага C тире, номера деревьев MeSH болезней с помощью флага D и укажите аббревиатуры с помощью флага A тире.
Чтобы выполнить модуль интеллектуального анализа текста, введите Python, пробел CaseOLAP_LIFT. py, пробел text_mining и добавьте флаг тире L, чтобы вставить темы некатегоризированных документов, и тире-флаг T, чтобы загрузить полный текст документов, имеющих отношение к заболеванию. Убедитесь, что результаты интеллектуального анализа текста находятся в папке результатов.
Укажите результаты интеллектуального анализа текста, которые будут использоваться для анализа, указав либо анализировать все белки, чтобы включить все функционально связанные белки, либо анализировать основные белки, чтобы включить только белки, связанные с термином GO. Чтобы определить основные белки и пути для каждого заболевания, баллы CaseOLAP преобразуются в Z-критерий в пределах каждой категории заболеваний. Укажите флаг тире Z, чтобы указать определенный пороговый балл, выше которого белки будут считаться значимыми.
Просмотрите результаты анализа и при необходимости внесите коррективы. Откройте файл z_score_cutoff_table. csv для просмотра сгенерированной таблицы Z-score, содержащей количество белков, значимых для каждой категории заболеваний.
Это помогает проинформировать пользователя о необходимости выбора соответствующего порогового значения Z-оценки. Откройте папку results и убедитесь, что в ней находятся необходимые файлы, включая папку, сгенерированную в результате предварительной обработки. Проверьте наличие всех белков в папках основных белков.
Чтобы спроектировать граф знаний, включите дерево заболеваний MeSH с флагом include MeSH. Белок-белковые взаимодействия из строки с флагом include PPI, общие пути реактома с флагом include PW и зависимость транскрипционного фактора от GRNdb GTEx с флагом include TFD. Запустите модуль построения графа знаний, указав, что анализ основных белков включает только белки, связанные с термином GO.
Чтобы масштабировать веса ребер, используйте шкалу Z-оценки для неотрицательных Z-оценок вместо оценок CaseOLAP по умолчанию. Проверьте выходные данные и убедитесь, что файлы графа знаний merged_edges. TSV и merged_nodes.
TSV-файлы присутствуют. Наконец, введите команду, показанную на экране, чтобы запустить сценарий прогнозирования графа знаний для прогнозирования ассоциаций белковых заболеваний. На этом рисунке представлены митохондриальные белки, значимые для каждой категории заболеваний.
Преобразование Z-критерия было применено к баллам CaseOLAP в каждой категории для идентификации значимых белков с использованием порогового значения в три. Общее количество белков, значимых для каждой категории заболеваний, показано над каждым графиком скрипки. Анализ реактомных путей этих белков выявил 12 путей, значимых для всех заболеваний.
Пример применения глубокого обучения к графу знаний о конкретном заболевании представлен на этом рисунке. Скрытые взаимосвязи между белками и заболеванием предсказываются, и вычисленные вероятности для обоих предсказаний отображаются здесь со значениями в диапазоне от нуля до единицы, где единица указывает на сильный прогноз. Указанная последовательность имеет решающее значение для выполнения этого протокола, в частности, модулей предварительной обработки и интеллектуального анализа текста.
Эти два шага напрямую влияют на идентификацию основных белков и путей для каждого заболевания, а также на построение графа знаний о конкретном заболевании. Результирующий граф знаний эффективно визуализируется с помощью графовых инструментов, таких как Neo4j и Cytoscape, и может быть использован для расширенного прогнозирования новых взаимосвязей на основе глубокого обучения. CaseOLAP LIFT позволяет изучать связи между любым клеточным компонентом и категориями заболеваний.
Полученный граф знаний и ранжированные ассоциации белковых заболеваний поддерживают обработку естественного языка и последующий анализ на основе графов.