这种计算协议意义重大,因为它允许研究细胞成分之间的关联,例如线粒体蛋白及其与疾病的关联,如生物医学出版物中所报道的那样。CaseOLAP LIFT使研究人员能够从生物医学报告和知识库中提取和整合信息。这些结果组织为知识图谱,可用于预测新的关系。
这些研究结果通过突出显示已识别和预测的蛋白质疾病关联的优先列表来支持假设的产生,有助于发现对疾病病理学和治疗的新见解。这种高度可定制的工作流程可以通过其GO术语应用于任何细胞组件,以及通过其MeSH术语在任何发布日期范围内的任何疾病列表。这种用户友好的协议最大限度地减少了分析所需的计算专业知识。
软件作为 docker 容器发布,只需要足够的计算存储和资源即可执行。若要开始,请打开终端窗口以下载 CaseOLAP LIFT docker 容器,并键入 docker pull CaseOLAP 斜杠CaseOLAP_LIFT最新。创建一个将存储所有程序数据和输出的目录。
使用屏幕上显示的命令启动 docker 容器,将 PATH_TO_FOLDER 替换为文件夹的完整文件路径。要在容器内启动 Elasticsearch,请打开一个新的终端窗口并键入屏幕上显示的命令。导航到CaseOLAP_LIFT文件夹。
确保下载链接和配置斜杠knowledge_base_links。JSON 对于每个知识库资源的最新版本都是最新且准确的。要确定基因本体或GO术语,请访问网站geneontology。
组织,并找到所有 GO 术语的标识符。同样,通过屏幕上显示的网站中的医学主题标题或MeSH标识符查找疾病类别。要执行预处理模块,请使用破折号 C 标志指示用户定义的研究 GO 术语,使用破折号 D 标志指示疾病 MeSH 树编号,并使用破折号 A 标志指定缩写。
若要执行文本挖掘模块,请键入 Python、空格CaseOLAP_LIFT。py、空格、text_mining,并添加破折号L标志归因未分类文档的主题,并添加破折号T标志下载疾病相关文档全文。确保文本挖掘结果位于结果文件夹中。
通过指定分析所有蛋白质以包括所有功能相关蛋白质,或分析核心蛋白质以仅包括GO项相关蛋白质,指示用于分析的文本挖掘结果。为了确定每种疾病的主要蛋白质和途径,CaseOLAP 评分是在每个疾病类别中转换的 Z 分数。指定破折号 Z 标志以指示指定的阈值分数,超过该阈值分数,蛋白质将被视为显着。
查看分析结果并根据需要进行调整。打开文件z_score_cutoff_table。CSV 查看生成的 Z 评分表,其中包含对每个疾病类别具有显著意义的蛋白质数量。
这有助于通知用户选择适当的 Z 分数阈值。打开结果文件夹,并确保所需的文件(包括通过预处理生成的文件夹)位于该文件夹中。检查核心蛋白质文件夹中的所有蛋白质。
要设计知识图谱,请包含带有包含 MeSH 标志的 MeSH 疾病树。来自包含PPI标志的字符串的蛋白质 - 蛋白质相互作用,具有包括PW标志的共享反应组途径,以及来自GRNdb GTEx的转录因子依赖性与包括TFD标志。通过指定分析核心蛋白来运行知识图谱构建模块,以仅包含 GO 术语相关蛋白。
若要缩放边缘权重,请将缩放 Z 分数用于非负 Z 分数,而不是默认的 CaseOLAP 分数。检查输出并确保知识图谱文件merged_edges。TSV 和merged_nodes。
存在 TSV 文件。最后,键入屏幕上显示的命令以运行知识图谱预测脚本,以预测蛋白质疾病关联。该图显示了对每种疾病类别有意义的线粒体蛋白。
将Z分数转换应用于每个类别中的CaseOLAP分数,以使用阈值3来识别重要的蛋白质。对每个疾病类别有意义的蛋白质总数显示在每个小提琴图上方。这些蛋白质的Reactome途径分析揭示了对所有疾病具有重要意义的12种途径。
此图显示了将深度学习应用于特定疾病知识图的示例。预测蛋白质和疾病之间的隐藏关系,并在此处显示两种预测的计算概率,值范围从 0 到 1,其中 1 表示强预测。指定的序列对于该协议的执行至关重要,尤其是预处理和文本挖掘模块。
这两个步骤直接影响每种疾病的顶级蛋白质和途径的鉴定,以及疾病特定知识图谱的构建。由此产生的知识图谱通过Neo4j和Cytoscape等图形工具有效地可视化,并可用于新关系的高级深度学习预测。CaseOLAP LIFT能够研究任何细胞成分和疾病类别之间的关联。
由此产生的知识图谱和排名蛋白质疾病关联支持自然语言处理和基于图的后续分析。