我们的协议为构建一个基于云的短语挖掘平台,供用户定义的实体类别关联,以评估蛋白质、基因组或化学品与特定疾病的关联,提供了分步措施。与手动实体类别关联评估相比,该技术的主要优点是提高了效率,增强了可访问性,并可用于广泛的生物医学研究应用。用户可以在生物医学出版物中或与特定关键字关联的文本文档中选择感兴趣的实体和类别。
新用户可以遵循我们的协议和手稿中提供的参考,并且他们可以在我们的 GitHub 存储库中引发技术问题。对此事项的可视化演示为如何执行协议提供了更清晰的清晰度,并鼓励实现新的文本挖掘工具。若要创建文本立方体,请先下载最新的可用医学主题标题或网格树。
网状树 2018 的代码为 MESHTree2018。bin,并且应输入到输入目录中。使用一个或多个网格描述符定义感兴趣的类别,并收集类别的网格 ID。
保存"类别"中的textcube_config。json 文件在配置目录中,并在用空格分隔的行中添加网格 ID 的收集的类别。将类别文件另存为类别。
输入目录中的 txt。此算法自动选择所有后代网格描述符。确保网格 2pmid 。
json 在数据目录中。如果网格树在输入目录中使用不同的名称进行更新,请确保在输入数据路径中正确表示run_textcube。py 文件。
若要创建称为文本多维数据集的文档结构,请输入 python run_textcube。py 在终端中为每个类别创建文档集合。单个文档可能属于多个类别。
完成文本多维数据集创建步骤后,请确保 PMID 表的单元格以 textcube_cell2pmid.json) 名保存在数据目录中。单元格映射表的 PMID 将保存在数据目录中,作为 textcube_pmid2cell.json。单元格的所有后代网格项的集合将保存在数据目录中,作为 meshterms_per_cat.json。
文本多维数据集数据统计信息作为数据列表保存在数据textcube_stat.txt。然后,转到日志目录以读取日志消息textcube_log。txt, 以防此过程失败。
如果该过程成功完成,则文本多维数据集创建中的调试消息将在日志文件中打印出来。对于实体计数,创建用户定义的实体,将一个实体及其缩写放在一行中,由垂直线符号分隔。将实体文件另存为实体。
txt 在输入目录中,并确保弹性搜索服务器正在运行。如果弹性搜索服务器中存在名为 PubMed 的索引数据库,请确认是否存在textcube_pmid2cell。json 文件在数据目录中,并输入 python run_entitycount。
py 在终端中执行实体计数操作。当索引数据库中的所有文档以及每个文档中的实体数都已计算,并且已收集了其中找到实体的 PMID 时,将最终结果保存为实体计数。txt 和 entityfound_pmid2cell。
json 在数据目录中。然后,打开日志目录以读取日志中的日志entitycount_log。txt, 以防此过程失败。
如果该过程成功完成,实体计数的调试消息将在日志文件中打印出来。确保所有输入数据都在数据目录中。这些是元数据更新的输入数据。
若要准备元数据集合,请输入 python run_metadata_update。py 在终端中更新元数据。元数据更新完成后,请确保metadata_pmid2pcount。
杰森和metadata_cell2pmidjson 文件保存在数据目录中。转到日志目录以读取日志中的日志metadata_update_log。
txt 文件,以防此过程失败。如果该过程成功完成,元数据更新的调试消息将在日志文件中打印出来。对于上下文感知语义在线分析处理分数计算,请确认是否存在metadata_pmid2pcount。
杰森和metadata_cell2pmidjson 文件在数据目录中。这些是分数计算的输入数据。
输入 python run_caseolap_score。py 在终端中执行基于用户定义的类别的实体的上下文感知语义在线分析处理分数计算。分数是正直、受欢迎和独特性的产物。
完成分数计算后,确认结果已保存在结果目录中。然后,访问日志目录以读取日志中的日志caseolab_score_log。txt 文件,以防此过程失败。
如果该过程成功完成,caseolab 分数计算的调试消息将在日志文件中打印出来。使用从四个婴儿、儿童、青少年和成人年龄组子类别获得的元数据和统计数据,可以显示文本立方体单元格之间的文档数比较。在这里,成人子类别包含所有细胞中的最高数量,成人和青少年子类别共享文档数最高,并且包含此代表性分析感兴趣的实体。
评估蛋白质年龄组关联作为上下文感知语义在线分析处理分数,能够确定与婴儿、儿童、青少年和成人子类别相关的前10种蛋白质。在这里,获得的元数据和营养和代谢疾病子类别的统计数据显示。亚类别代谢疾病包含的文件几乎是营养紊乱的三倍。
代谢疾病和营养失调子类别有7,101个共享文件。值得注意的是,这些文件包括代表研究感兴趣的实体。超过一半的蛋白质在亚类别之间共享,代谢疾病子类别中几乎一半的相关蛋白质是该子类别所独有的,而营养紊乱的亚类别只表现出少数独特的蛋白质。
独立和不同的类别,以及实体的所有同义词和缩写的集合将提供最佳结果。由于实体类别关联是作为数值呈现的,这为实现缺少的学习技术(如聚类和原则组件分析)打开了大门。这种技术有助于在这些关联中发现隐藏或以前未识别的关系,为更深入地了解生物过程铺平道路。