Наш протокол предусматривает пошаговую меру для создания облачной платформы для добычи фраз для ассоциации категорий лиц, определяемых пользователем, для оценки связи белков, геномов или химических веществ с конкретными заболеваниями. Основными преимуществами этого метода являются его повышение эффективности по сравнению с ручной оценкой ассоциации категорий сущностей, повышение доступности и использование инструментов для добычи фраз для широкого применения биомедицинских исследований. Пользователи могут выбирать организации и категории, представляющие интерес в биомедицинских публикациях, или в текстовых документах, связанных с конкретными ключевыми словами.
Новые пользователи могут следовать нашему протоколу и ссылкам, представленным в рукописи, и они могут поднимать технические вопросы в нашем репозитории GitHub. Визуальная демонстрация этого вопроса добавляет больше ясности в то, как выполнять протокол, и поощряет внедрение новых инструментов для анализа текста. Чтобы создать текстовый куб, сначала загрузите последние доступные заголовки медицинских предметов или сетчатое дерево.
Код для сетчатого дерева 2018 является MESHTree2018. бен, и должны быть введены в каталог ввода. Определите категории интересов с помощью одного или нескольких сетчатых дескрипторов и соберите сетчатые документы для категории.
Сохраните названия категорий в textcube_config. файл json в каталоге config и добавьте собранные категории сетчатых ID в строку, отделенную пространством. Сохранить файл категории в категориях.
txt в каталоге входов. Этот алгоритм автоматически выбирает все дескрипторы сетки потомка. Убедитесь, что mesh2pmid.
json находится в каталоге данных. Если дерево сетки было обновлено с другим именем в каталоге входных данных, убедитесь, что это правильно представлено в пути входных данных в run_textcube. py файл.
Чтобы создать структуру документа под названием text-cube, введите python run_textcube. py в терминале для создания коллекции документов для каждой категории. Один документ может подпадать под несколько категорий.
После завершения шага создания текстового куба убедитесь, что ячейка в таблице PMID сохраняется в каталоге данных, как textcube_cell2pmid.json. PMID в таблице отображения ячееок сохраняется в каталоге данных, как textcube_pmid2cell.json. Собрание всех терминов сетки потомка для ячейки сохраняется в каталоге данных как meshterms_per_cat.json.
А статистика текстовых кубов данных сохраняется в каталоге данных textcube_stat.txt. Затем перейдите в каталог журналов, чтобы прочитать сообщения журнала в textcube_log. txt, в случае, если этот процесс не удается.
Если процесс будет успешно завершен, сообщения отладки создания текстового куба будут распечатаны в файле журнала. Для подсчета сущностей создайте объекты, определяемые пользователем, размещая одну сущность и ее аббревиатуры в одну строку, отделенную символом вертикальной линии. Сохранить файл сущности как сущности.
txt в каталоге входных данных и убедитесь, что сервер Elasticsearch работает. Если индексированная база данных под названием PubMed присутствует на сервере Elasticsearch, подтвердите наличие textcube_pmid2cell. json файл в каталоге данных, и введите python run_entitycount.
py в терминале для выполнения операции подсчета сущности. Если все документы из базы данных индекса и количество сущностей в каждом документе были подсчитаны, а PMID, в которых были найдены сущности, были собраны, сохраните окончательные результаты в качестве номера сущности. txt и entityfound_pmid2cell.
json в каталоге данных. Затем откройте каталог журналов для чтения журнальных сообщений в entitycount_log. txt, в случае, если этот процесс не удается.
Если процесс будет успешно завершен, сообщения отладки счета сущности будут распечатаны в файле журнала. Убедитесь, что все входные данные находятся в каталоге данных. Это входные данные для обновления метаданных.
Чтобы подготовить коллекцию метаданных, введите питона run_metadata_update. py в терминале для обновления метаданных. Как только обновление метаданных будет завершено, убедитесь, что metadata_pmid2pcount.
Json и metadata_cell2pmid. файлы json сохраняются в каталоге данных. Перейдите в каталог журналов, чтобы прочитать сообщения журнала в metadata_update_log.
txt файл, в случае, если этот процесс не удается. Если процесс будет успешно завершен, отладка сообщений обновления метаданных будет распечатана в файле журнала. Для расчета оценки оценки семантической онлайн-аналитической обработки контекста подтвердите наличие metadata_pmid2pcount.
Json и metadata_cell2pmid. json файлы в каталоге данных. Это входные данные для расчета баллов.
Введите питон run_caseolap_score. py в терминале для выполнения контекст-осведомленного семантического онлайн-аналитического расчета оценки сущностей на основе определяемых пользователем категорий. Оценка является продуктом целостности, популярности и отличительности.
Как только расчет баллов завершен, подтвердите, что результаты сохраняются в каталоге результатов. Затем доступ к каталогу журналов для чтения журнальных сообщений в caseolab_score_log. txt файл, в случае, если этот процесс не удается.
Если процесс будет успешно завершен, сообщения отладки расчета баллов caseolab будут распечатаны в файле журнала. Используя полученные метаданные и статистические данные из четырех подкатегорий возрастной группы младенцев, детей, подростков и взрослых, можно отобрать количество документов среди клеток текстового куба. Здесь подкатегория для взрослых содержит наибольшее число во всех клетках, при этом подкатегории для взрослых и подростков имеют наибольшее количество общих документов и содержат сущность, представляющие интерес для этого репрезентативного анализа.
Оценка ассоциации возрастных групп белка как контекст-знать семантические онлайн аналитической обработки оценка, топ 10 белков, связанных с младенцем, ребенком, подростком и взрослыми подкатегорий смогли быть определены. Здесь показаны полученные метаданные и статистические данные по подкатегории пищевых и метаболических заболеваний. Подкатегориоболическое заболевание содержит почти в три раза больше документов, чем подкатегория нарушений питания.
Подкатегории метаболических заболеваний и нарушений питания имеют 7 101 общие документы. Примечательно, что эти документы включали организацию, заинтересованную в репрезентативном исследовании. Более половины всех белков делятся между подкатегориями, при этом почти половина всех связанных белков в подкатегории метаболических заболеваний уникальна для этой подкатегории, и с подкатегорией нарушений питания, выставляют лишь несколько уникальных белков.
Независимые и отдельные категории, а также коллекция всех синонимов и сокращений сущности обеспечит наилучшие результаты. Поскольку ассоциация категорий сущностей представлена в качестве численного значения, это открывает двери для внедрения недостающих методов обучения, таких как кластеризация и анализ принципиальных компонентов. Этот метод облегчает открытие скрытых или ранее неопознанных отношений в рамках этих ассоциаций, прокладывая путь для более глубокого понимания биологических процессов.