Method Article
Представлен вычислительный протокол CaseOLAP LIFT и сценарий использования для исследования митохондриальных белков и их ассоциаций с сердечно-сосудистыми заболеваниями, как описано в биомедицинских отчетах. Этот протокол может быть легко адаптирован для изучения выбранных пользователем клеточных компонентов и заболеваний.
Быстро растущее и огромное количество биомедицинских отчетов, каждый из которых содержит множество сущностей и богатую информацию, представляет собой богатый ресурс для биомедицинских текстовых приложений. Эти инструменты позволяют исследователям интегрировать, концептуализировать и транслировать эти открытия, чтобы получить новые знания о патологии заболеваний и терапии. В этом протоколе мы представляем CaseOLAP LIFT, новый вычислительный конвейер для исследования клеточных компонентов и их ассоциаций с заболеваниями путем извлечения отобранной пользователем информации из текстовых наборов данных (например, биомедицинской литературы). Программное обеспечение идентифицирует субклеточные белки и их функциональных партнеров в документах, относящихся к заболеванию. Дополнительные документы, относящиеся к заболеванию, идентифицируются с помощью метода вменения этикеток, разработанного программным обеспечением. Для контекстуализации результирующих ассоциаций между белками и заболеваниями и интеграции информации из нескольких релевантных биомедицинских ресурсов автоматически создается граф знаний для дальнейшего анализа. Мы представляем один из вариантов использования с корпусом из ~34 миллионов текстовых документов, загруженных в Интернет, чтобы предоставить пример выяснения роли митохондриальных белков в различных фенотипах сердечно-сосудистых заболеваний с помощью этого метода. Кроме того, модель глубокого обучения была применена к полученному графу знаний для прогнозирования ранее неизвестных взаимосвязей между белками и заболеваниями, в результате чего было получено 1583 ассоциации с прогнозируемыми вероятностями >0,90 и с областью под кривой рабочих характеристик приемника (AUROC), равной 0,91 на тестовом наборе. Это программное обеспечение отличается настраиваемым и автоматизированным рабочим процессом с широким спектром необработанных данных, доступных для анализа; Таким образом, с помощью этого метода можно с повышенной надежностью идентифицировать ассоциации белков и заболеваний в пределах текстового корпуса.
Изучение белков, связанных с заболеванием, расширяет научные знания о патогенезе и помогает определить потенциальные терапевтические средства. Несколько больших корпусов текстов биомедицинских публикаций, таких как 34 миллиона статей PubMed, содержащих названия публикаций, аннотации и полнотекстовые документы, сообщают о новых открытиях, связывающих белки с болезнями. Тем не менее, эти результаты разрознены по различным источникам и должны быть интегрированы для получения новых биомедицинских идей. Существует несколько биомедицинских ресурсов для интеграции ассоциаций белка и заболевания 1,2,3,4,5,6,7. Однако эти курируемые ресурсы часто являются неполными и могут не охватывать последние результаты исследований. Подходы, основанные на интеллектуальном анализе текстов, необходимы для извлечения и синтеза ассоциаций белков и заболеваний в больших текстовых корпусах, что привело бы к более полному пониманию этих биомедицинских концепций в научной литературе.
Существует множество биомедицинских подходов к анализу текстов для выявления взаимосвязей между белками и заболеваниями 8,9,10,11,12,13,14, и другие частично способствуют определению этих отношений, идентифицируя белки, болезни или другие биомедицинские объекты, упомянутые в тексте 13,15,16,17. 18,19. Тем не менее, многие из этих инструментов не имеют доступа к самой современной литературе, за исключением нескольких, которые периодически обновляются 8,11,13,15. Аналогичным образом, многие инструменты также имеют ограниченную область исследования, поскольку они ограничены широкими предопределенными заболеваниями или белками 9,13. Существует несколько подходов, которые также могут привести к выявлению ложных срабатываний в тексте; Другие решают эти проблемы с помощью интерпретируемого и глобального черного списка названий белков9,11 или менее интерпретируемых методов распознавания сущностей имен15,20. В то время как большинство ресурсов предоставляют только предварительно вычисленные результаты, некоторые инструменты предлагают интерактивность через веб-приложения или доступный программный код 8,9,11.
Чтобы устранить вышеуказанные ограничения, мы представляем следующий протокол, CaseOLAP с вменением меток и полным текстом (CaseOLAP LIFT), в качестве гибкой и настраиваемой платформы для исследования ассоциаций между белками (например, белками, связанными с клеточным компонентом) и заболеваниями из текстовых наборов данных. Эта платформа включает в себя автоматизированное курирование специфических для терминов белков генной онтологии (GO) (например, специфических для органелл белков), вменение отсутствующих меток тем документов, анализ полнотекстовых документов, а также инструменты анализа и прогностические инструменты (рис. 1, рис. 2 и табл. 1). CaseOLAP LIFT курирует специфические для органелл белки, используя предоставленные пользователем термины GO (например, компартмент органеллы) и функционально связанные белки с помощью STRING21, Reactome 22 и GRNdb23. Документы, посвященные изучению заболеваний, идентифицируются по меткам заголовков медицинских предметов (MeSH), аннотированным PubMed. Для ~15,1% немаркированных документов метки вменяются, если в заголовке встречается хотя бы один синоним термина MeSH или не менее двух в аннотации. Это позволяет учитывать ранее не категоризированные публикации при анализе интеллектуального анализа текста. CaseOLAP LIFT также позволяет пользователю выбирать разделы публикаций (например, только названия и аннотации, полный текст или полный текст без методов) в течение определенного периода времени (например, 2012-2022 гг.). Кроме того, программное обеспечение в полуавтоматическом режиме создает черный список названий белков для конкретных случаев использования, что существенно снижает количество ложноположительных ассоциаций между белками и заболеваниями, присутствующих в других подходах. В целом, эти улучшения обеспечивают большую настраиваемость и автоматизацию, увеличивают количество данных, доступных для анализа, и позволяют получать более достоверные связи между белками и заболеваниями из больших корпусов биомедицинских текстов.
CaseOLAP LIFT включает в себя биомедицинские знания и представляет взаимосвязь различных биомедицинских концепций с помощью графа знаний, который используется для прогнозирования скрытых взаимосвязей в графе. В последнее время методы вычислений на основе графов применяются в биологических условиях, включая интеграцию и организацию биомедицинских концепций 24,25, перепрофилирование и разработку лекарств 26,27,28, а также для принятия клинических решений на основе данных протеомики 29.
Чтобы продемонстрировать полезность CaseOLAP LIFT при построении графа знаний, мы выделим сценарий использования для исследования ассоциаций между митохондриальными белками и восемью категориями сердечно-сосудистых заболеваний. Данные из ~362 000 документов, относящихся к заболеваниям, были проанализированы, чтобы определить основные митохондриальные белки и пути, связанные с заболеваниями. Затем эти белки, их функционально связанные белки и результаты интеллектуального анализа текста были включены в граф знаний. Этот график был использован в анализе прогнозирования связей на основе глубокого обучения для прогнозирования ассоциаций между белками и заболеваниями, о которых до сих пор не сообщалось в биомедицинских публикациях.
Во вводном разделе описывается справочная информация и цели нашего протокола. В следующем разделе описываются этапы вычислительного протокола. Далее описываются репрезентативные результаты этого протокола. Наконец, мы кратко обсудим варианты использования вычислительного протокола, преимущества, недостатки и будущие приложения.
1. Запуск docker-контейнера
2. Подготовка болезней и белков
3. Интеллектуальный анализ текста
4. Анализ результатов
5. Предиктивный анализ
В соответствии с этим протоколом были получены репрезентативные результаты для изучения ассоциаций между митохондриальными белками (Таблица 2) и восемью категориями сердечно-сосудистых заболеваний (Таблица 3). В этих категориях мы нашли 363 567 публикаций, опубликованных с 2012 года по октябрь 2022 года (362 878 категоризированных по метаданным MeSH, 6 923 классифицированных по вменению ярлыков). Все публикации имели названия, 276 524 – аннотации, 51 065 – полный текст. В целом, 584 из 1687 опрошенных митохондриальных белков были идентифицированы в публикациях, в то время как 3284 из 8026 функционально связанных белков были идентифицированы. В общей сложности было идентифицировано 14 уникальных белков со значимыми показателями по всем категориям заболеваний с пороговым значением z-оценки 3,0 (рис. 5). Анализ реактомного пути этих белков выявил 12 путей, значимых для всех заболеваний (рис. 6). Все белки, пути, заболевания и баллы были интегрированы в граф знаний (табл. 4). Этот граф знаний был использован для прогнозирования 12 688 новых ассоциаций белков и заболеваний и отфильтрован с оценкой вероятности 0,90, чтобы получить 1 583 прогноза с высокой степенью достоверности. На рисунке 7 показан пример двух ассоциаций белка и заболевания, проиллюстрированный в контексте других соответствующих биологических объектов, функционально связанных с белками. Показатели оценки модели представлены в таблице 5.
Рисунок 1: Динамический вид рабочего процесса. На этом рисунке показаны четыре основных этапа этого рабочего процесса. Во-первых, соответствующие белки отбираются на основе терминов GO, предоставленных пользователем (например, клеточные компоненты), а категории заболеваний подготавливаются на основе предоставленных пользователем идентификаторов MeSH. Во-вторых, ассоциации между белками и заболеваниями вычисляются на этапе интеллектуального анализа текста. Публикации в определенном диапазоне дат загружаются и индексируются. Публикации, посвященные изучению болезней, идентифицируются (с помощью меток MeSH и, возможно, с помощью вмененных меток), а их полные тексты загружаются и индексируются. Названия белков запрашиваются в публикациях и используются для расчета баллов связи между белком и заболеванием. Затем, после интеллектуального анализа текста, эти оценки помогают определить основные ассоциации белков и путей. Наконец, строится граф знаний, охватывающий эти белки, болезни и их взаимосвязи в базе биомедицинских знаний. Новые ассоциации между белками и заболеваниями предсказываются на основе построенного графа знаний. В этих шагах используются самые последние доступные данные из биомедицинских баз знаний и PubMed. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 2: Техническая архитектура рабочего процесса. Технические детали этого рабочего процесса проиллюстрированы на этом рисунке. Пользователь предоставляет номера MeSH-деревьев категорий заболеваний и термин(ы) GO. Текстовые документы загружаются из PubMed, документы, относящиеся к заболеванию, идентифицируются на основе предоставленных меток MeSH, а документы без меток MeSH, указывающих на тему, получают метки вмененных категорий. Белки, ассоциированные с предоставленным термином (членами) GO, приобретаются. Этот белковый набор расширяется за счет включения белков, которые функционально связаны через белок-белковые взаимодействия, общие биологические пути и зависимость от транскрипционных факторов. Эти белки запрашиваются в документах, относящихся к заболеванию, и оцениваются CaseOLAP. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 3: Пример обработанного документа. Пример разобранного, индексированного текстового документа представлен здесь. По порядку в соответствующих полях указывается название индекса (_index, _type), идентификатор PubMed (_id, pmid), подразделы документа (название, аннотация, full_text, введение, методы, результаты, обсуждение) и другие метаданные (год, MeSH, местоположение, журнал). Только в целях отображения подразделы документа усекаются с помощью многоточия. Поле MeSH содержит темы документа, которые иногда могут быть предоставлены нашим шагом импутации метки. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 4: Схема графа знаний и биомедицинские ресурсы. На этом рисунке показана схема графа знаний. Каждый узел и ребро представляют собой узел или тип ребра соответственно. Границы между сердечно-сосудистыми заболеваниями (ССЗ) и белками взвешиваются по шкале CaseOLAP. Границы белок-белкового взаимодействия (ИПП) взвешиваются по доверительным оценкам STRING. Ребра зависимости транскрипционного фактора (TFD), полученные от GRNdb/GTEx, ребра дерева заболеваний, производные от MeSH, и ребра путей, полученные от реактома, являются невзвешенными. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 5: Основные ассоциации белковых заболеваний. На этом рисунке представлены митохондриальные белки, значимые для каждой категории заболеваний. Преобразование Z-критерия было применено к баллам CaseOLAP в каждой категории для идентификации значимых белков с использованием порогового значения 3,0. (Наверх) Количество митохондриальных белков, значимых для каждого заболевания: Эти графики показывают распределение z-оценок для белков в каждой категории заболеваний. Общее количество белков, значимых для каждой категории заболеваний, показано над каждым графиком скрипки. В общей сложности 14 уникальных белков были идентифицированы как значимые для всех заболеваний, а некоторые белки были значимыми для нескольких заболеваний. (Внизу) Белки, набравшие наибольшее количество баллов: Тепловая карта отображает 10 белков, получивших самые высокие средние z-баллы по всем заболеваниям. Пустые значения не представляют собой полученную оценку между белком и болезнью. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 6: Основные ассоциации между путями и заболеваниями. На этом рисунке показаны основные биологические пути, связанные с изучаемыми категориями заболеваний, определенные с помощью анализа реактомного пути. Все анализы путей были отфильтрованы с p < 0,05. Значения тепловой карты представляют собой среднюю z-оценку всех белков в пути. (Наверх) Пути сохранения среди всех заболеваний: В целом, было идентифицировано 14 белков, имеющих отношение ко всем категориям заболеваний, и было выявлено 12 консервативных путей среди всех категорий заболеваний. На основе иерархической структуры путей была построена дендрограмма, связывающая эти пути со сходными биологическими функциями. Высота древовидной диаграммы представляет собой относительную глубину в иерархии путей; Широкие биологические функции имеют более длинные конечности, а более специфические пути имеют более короткие конечности. (Внизу) Пути, отличающиеся от категории заболевания: Анализ путей был проведен с использованием белков, достигших значимого z-показателя при каждом заболевании. Три основных пути с наименьшими p-значениями, связанными с каждым заболеванием, показаны и обозначены звездочками. Эти пути могут входить в тройку лидеров при нескольких заболеваниях. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Рисунок 7: Применение глубокого обучения для завершения графа знаний. Пример применения глубокого обучения к графу знаний по конкретному заболеванию представлен на этом рисунке. Скрытые взаимосвязи между белками и болезнями предсказываются, и они обозначены синим цветом. Отображаются вычисленные вероятности для обоих прогнозов со значениями в диапазоне от 0,0 до 1,0 и 1,0, указывающими на сильный прогноз. Включены несколько белков с известными взаимодействиями, представляющими белок-белковые взаимодействия, зависимость от транскрипционных факторов и общие биологические пути. Для визуализации показан подграф из нескольких узлов, имеющих отношение к выделенному примеру. Ключевые признаки: ИБС = ишемическая болезнь сердца; R-HSA-1430728 = метаболизм; O14949 = субъединица 8 комплекса цитохрома b-c1; P17568 = НАДН-дегидрогеназа (убихинон) 1 бета-субъединица 7; Q9NYF8 Bcl-2-ассоциированный транскрипционный фактор 1, оценка: 7,24 x 10−7; P49821 = НАДН-дегидрогеназа (убихинон) флавопротеин 1, митохондриальный, оценка: 1,06 x 10−5; P31930 = субъединица комплекса цитохрома b-c1 1, митохондриальная, оценка: 4,98 x 10−5; P99999 = цитохром С, балл: 0,399. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.
Таблица 1: Этапы рабочего процесса и ограничения скорости. В этой таблице представлены приблизительные оценки времени вычислений для каждого этапа рабочего процесса. Параметры включения компонентов конвейера изменят общее время выполнения, необходимое для завершения анализа. Общая оценка времени зависит от доступных вычислительных ресурсов, включая технические характеристики оборудования и настройки программного обеспечения. По приблизительным подсчетам, протокол занял 36 часов активного времени работы на нашем вычислительном сервере с шестью ядрами, 32 Гб оперативной памяти и 2 Тб хранилища, но это может быть быстрее или медленнее на других устройствах. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.
Таблица 2: Автоматическая сборка белков клеточного компонента. В этой таблице показано количество белков, ассоциированных с данным клеточным компонентом (т.е. термином GO), белков, функционально связанных с ними через белок-белковые взаимодействия (PPI), общие пути (PW) и зависимость от транскрипционного фактора (TFD). Общее количество белков — это количество белков из всех предыдущих категорий вместе взятых. Все функционально связанные белки были получены с использованием параметров CaseOLAP LIFT по умолчанию. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.
Таблица 3: Статистика вменения меток MeSH. В этой таблице отображаются категории заболеваний, номера деревьев MeSH, используемые в качестве родительского термина для всех заболеваний, включенных в категорию, количество статей PubMed, найденных в каждой категории с 2012 по 2022 год, и количество дополнительных статей, включенных на этапе вменения меток. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.
Таблица 4: Статистика построения графа знаний. В этой таблице описаны статистические данные по размеру построенного графа знаний, включая различные узлы и типы ребер. Баллы CaseOLAP отражают взаимосвязь между белком и категорией сердечно-сосудистых заболеваний (ССЗ). Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.
Таблица 5: Статистика прогнозирования и валидация графа знаний. В этой таблице представлены оценочные метрики для прогнозирования связи графа знаний для новых и скрытых ассоциаций белков и заболеваний. Ребра графа знаний были разделены на обучающие и тестовые наборы данных в соотношении 70/30, а графовая связность ребер была сохранена в обоих наборах данных. Точность указывает долю правильно классифицированных прогнозов, а сбалансированная точность корректирует дисбаланс классов. Специфичность указывает на долю правильно классифицированных негативных прогнозов. Точность указывает на долю правильных положительных прогнозов из всех положительных прогнозов, в то время как отзыв указывает на долю правильных положительных прогнозов из всех положительных ребер (т. е. ассоциаций белка с заболеванием, выявленных с помощью интеллектуального анализа текста). Оценка F1 — это среднее гармоническое значение точности и запоминаемости. Область под кривой рабочих характеристик приемника (AUROC) показывает, насколько хорошо модель различает положительные и отрицательные прогнозы, при этом 1,0 указывает на идеальный классификатор. Область под кривой точности-полноты (AUPRC) измеряет компромисс между точностью и полнотой при различных пороговых значениях вероятности, при этом более высокие значения указывают на лучшую производительность. Пожалуйста, нажмите здесь, чтобы скачать эту таблицу.
CaseOLAP LIFT позволяет исследователям исследовать связи между функциональными белками (например, белками, связанными с клеточным компонентом, биологическим процессом или молекулярной функцией) и биологическими категориями (например, болезнями). Описанный протокол должен быть выполнен в указанной последовательности, при этом наиболее критическими шагами являются раздел протокола 2 и раздел протокола 3, так как от их результатов зависят разделы протокола 4 и 5 протокола. В качестве альтернативы разделу 1 протокола код CaseOLAP LIFT можно клонировать и получить к нему доступ из репозитория GitHub (https://github.com/CaseOLAP/caseolap_lift). Следует отметить, что, несмотря на тестирование в процессе разработки программного обеспечения, могут возникать ошибки. Если это так, неудачный шаг следует повторить. Если проблема не устранена, рекомендуется повторить раздел протокола 1, чтобы убедиться, что используется последняя версия контейнера Docker. Дополнительную помощь можно получить, создав проблему в репозитории GitHub для получения дополнительной поддержки.
Этот метод поддерживает генерацию гипотез, позволяя исследователям идентифицировать интересующие объекты и выявлять потенциальные связи между ними, которые могут быть недоступны в существующих биомедицинских ресурсах. Полученные в результате связи между белками и заболеваниями позволяют исследователям получить новое представление с помощью интерпретируемых метрик оценок: баллы популярности указывают на наиболее изученные белки по отношению к заболеванию, показатели различимости указывают на заболевания, наиболее уникальные для белка, а комбинированная оценка CaseOLAP представляет собой комбинацию этих двух показателей. Чтобы предотвратить ложноположительные идентификации (например, из-за омонимов), некоторые инструменты интеллектуального анализа текста используют черный список терминов, чтобы избежать 9,11. Аналогичным образом, CaseOLAP LIFT также использует черный список, но позволяет пользователю адаптировать черный список к своему сценарию использования. Например, при изучении ишемической болезни сердца (ИБС) «ИБС» не следует считать названием белка «каспаза-активируемая дезоксирибонуклеаза». Тем не менее, при изучении других тем, «ИБС» обычно может относиться к белку.
CaseOLAP LIFT адаптируется к объему данных, доступных для интеллектуального анализа текста. Функциональность диапазона дат снижает вычислительную нагрузку и обеспечивает гибкость для генерации гипотез (например, изучение того, как научные знания о связи белка и заболевания менялись с течением времени). В то же время компоненты импутации меток и полнотекстовые компоненты расширяют объем данных, доступных для интеллектуального анализа текста. Оба компонента по умолчанию отключены, чтобы снизить вычислительные затраты, но пользователь может включить любой из них. Маркировка является консервативной, и она правильно классифицирует большинство публикаций (точность 87%), но пропускает другие ярлыки категорий (2% отзывов). В настоящее время этот метод основан на эвристике на основе правил, которая соответствует ключевым словам заболевания, и планируется повысить производительность за счет использования методов моделирования тем документов. Поскольку многие некатегоризированные отчеты, как правило, являются недавними публикациями, исследованиям, изучающим недавний диапазон дат (например, все публикации за последние 3 года), лучше отключить вменение ярлыков. Полнотекстовый компонент увеличивает требования к среде выполнения и хранилищу. Примечательно, что только меньшая часть документов имеет доступ к полному тексту (~14% документов в нашем исследовании). Предполагая, что названия белков, упомянутые в разделе методов публикаций, с меньшей вероятностью связаны с темами заболеваний, рекомендуется запрашивать полные тексты статей, исключая раздел методов.
Полученные в результате оценки ассоциаций белка и заболевания полезны для традиционных анализов, таких как кластеризация, уменьшение размерности или анализ обогащения (например, GO, pathways), с некоторой реализацией, включенной в этот программный пакет. Чтобы контекстуализировать эти оценки в рамках существующих биомедицинских знаний, автоматически строится граф знаний, который может быть изучен с помощью инструментов визуализации графов (например, Neo4j32, Cytoscape33). Граф знаний также может быть использован для прогностического анализа (например, прогнозирование связей между незарегистрированными белками и заболеваниями, обнаружение белковых сетей в сообществе, методы сбора призов).
Мы рассмотрели метрики оценки модели для прогнозируемых ассоциаций белка и заболевания (табл. 5). Модель присваивает оценку вероятности от 0,0 до 1,0 каждой ассоциации белка и заболевания, при этом оценки, близкие к 1,0, указывают на более высокий уровень достоверности прогноза. Внутренняя оценка производительности модели, которая была основана на различных показателях, включая AUROC, точность, сбалансированную точность, специфичность и полноту, показала отличную общую производительность в его работе. Тем не менее, оценка также выявила довольно низкую оценку точности (0,15) модели, что привело к более низкой оценке как AUPRC, так и F1. Будущие исследования, направленные на улучшение этой метрики, помогут повысить общую производительность модели. Мы полагаем, что это может быть достигнуто путем внедрения более сложных моделей встраивания графов знаний и прогнозирования графов. Основываясь на точности модели, равной 0,15, исследователи должны ожидать примерно 15% положительных идентификаций; В частности, из всех 12 688 ассоциаций белка и заболевания, предсказанных моделью, примерно 15% являются истинно-положительными ассоциациями. Это можно смягчить, рассматривая только ассоциации белка и заболевания с высокой оценкой вероятности (например, >0,90); В нашем примере фильтрация с порогом вероятности 0,90 привела к высокодостоверным предсказаниям 1 583 ассоциаций. Исследователям может быть полезно также вручную проверить эти прогнозы, чтобы убедиться в высокой достоверности (см. рис. 7 в качестве примера). Внешняя оценка наших прогнозов показала, что из 310 ассоциаций белковых заболеваний из обширной курируемой базы данных DisGeNet19 103 были идентифицированы в нашем исследовании интеллектуального анализа текста, а 88 дополнительных ассоциаций были предсказаны с помощью анализа графа знаний с оценкой вероятности >0,90.
В целом, CaseOLAP LIFT отличается повышенной гибкостью и удобством использования при разработке пользовательских анализов ассоциаций между функциональными группами белков и несколькими категориями заболеваний в больших текстовых корпусах. Этот пакет оптимизирован в новом удобном интерфейсе командной строки и выпущен в виде контейнера Docker, что уменьшает проблемы, связанные с настройкой сред программирования и зависимостей программного обеспечения. Конвейер CaseOLAP LIFT для изучения митохондриальных белков при сердечно-сосудистых заболеваниях может быть легко адаптирован; Например, будущие применения этого метода могут включать в себя исследование ассоциаций между любыми белками, связанными с любыми терминами GO и любой биомедицинской категорией. Кроме того, ранжированные ассоциации белков и заболеваний, выявленные этой платформой интеллектуального анализа текста, важны для подготовки набора данных для использования передовых методов естественного языка. Полученный граф знаний позволяет исследователям преобразовать эти результаты в биологически информативные знания и закладывает основу для последующего анализа на основе графов.
Авторам нечего раскрывать.
Эта работа была поддержана Национальными институтами здравоохранения (NIH) R35 HL135772 для P.P., NIH T32 HL13945 для A.R.P. и D.S., NIH T32 EB016640 для A.R.P., Национальным научным фондом исследовательской стажировки (NRT) 1829071 для A.R.P. и D.S., NIH R01 HL146739 для I.A., J.R., A.V., K.B. и TC Laubisch Endowment to P.P. в Калифорнийском университете в Лос-Анджелесе.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены