이 계산 프로토콜은 생물 의학 간행물에 보고된 바와 같이 세포 구성 요소(예: 미토콘드리아 단백질)와 질병과의 연관성 간의 연관성을 조사할 수 있기 때문에 중요합니다. CaseOLAP LIFT는 조사관이 생물 의학 보고서 및 지식 기반에서 정보를 추출하고 통합할 수 있도록 합니다. 지식 그래프로 구성된 이러한 결과는 새로운 관계를 예측하는 데 활용할 수 있습니다.
이러한 연구 결과는 질병 병리학 및 치료에 대한 새로운 통찰력을 발견하는 데 유용한 식별 및 예측된 단백질 질병 연관성의 우선 순위 목록을 강조하여 가설 생성을 지원합니다. 이 고도로 사용자 정의 가능한 워크플로우는 GO 용어를 통해 모든 세포 구성 요소에 적용할 수 있으며, 모든 출판 날짜 범위 내에서 MeSH 용어를 통해 모든 질병 목록에 적용할 수 있습니다. 이 사용자 친화적인 프로토콜은 분석에 필요한 계산 전문 지식을 최소화합니다.
소프트웨어는 Docker 컨테이너로 릴리스되며, 실행하는 데 충분한 계산 스토리지와 리소스만 필요합니다. 시작하려면 터미널 창을 열어 CaseOLAP LIFT 도커 컨테이너를 다운로드하고 docker pull CaseOLAP slash CaseOLAP_LIFT latest를 입력합니다. 모든 프로그램 데이터와 출력을 저장할 디렉토리를 만듭니다.
화면에 표시된 명령으로 docker 컨테이너를 시작하고 폴더의 전체 파일 경로로 PATH_TO_FOLDER 바꿉니다. 컨테이너 내에서 Elasticsearch를 시작하려면 새 터미널 창을 열고 화면에 표시된 명령을 입력합니다. CaseOLAP_LIFT 폴더로 이동합니다.
다운로드 링크와 구성이 knowledge_base_links 있는지 확인합니다. JSON은 각 기술 자료 리소스의 최신 버전에 대해 최신이며 정확합니다. 유전자 온톨로지 또는 GO 용어를 결정하려면 웹 사이트 계보학으로 이동하십시오.
org를 선택하고 모든 GO 용어에 대한 식별자를 찾습니다. 마찬가지로 화면에 표시된 웹 사이트에서 Medical Subject Header 또는 MeSH 식별자를 통해 질병 범주를 찾습니다. 전처리 모듈을 실행하기 위해, 대시 C 플래그를 사용하여 사용자 정의 스터디된 GO 항을 표시하고, 대시 D 플래그를 사용하여 질병 MeSH 트리 번호를 표시하고, 대시 A 플래그로 약어를 지정합니다.
텍스트 마이닝 모듈을 실행하려면 Python, space CaseOLAP_LIFT를 입력합니다. py, space, text_mining 및 대시 L 플래그를 추가하여 분류되지 않은 문서의 주제를 대체하고 대시 T 플래그를 추가하여 질병 관련 문서의 전체 텍스트를 다운로드합니다. 텍스트 마이닝 결과가 결과 폴더에 있는지 확인합니다.
모든 단백질 분석(analyze all proteins)을 지정하여 기능적으로 관련된 모든 단백질을 포함하거나 핵심 단백질 분석(analyze core proteins)을 지정하여 분석에 사용할 텍스트 마이닝 결과를 나타냅니다. 각 질병에 대한 상위 단백질 및 경로를 식별하기 위해 CaseOLAP 점수는 각 질병 범주 내에서 변환된 Z-점수입니다. 대시 Z 플래그를 지정하여 단백질이 유의한 것으로 간주되는 지정된 임계값 점수를 나타냅니다.
해석 결과를 검토하고 필요에 따라 조정합니다. 파일 z_score_cutoff_table 엽니다. csv를 사용하여 각 질병 범주에 유의한 단백질 수를 포함하는 생성된 Z-점수 테이블을 볼 수 있습니다.
이렇게 하면 사용자에게 적절한 Z-점수 임계값을 선택하도록 알릴 수 있습니다. 결과 폴더를 열고 전처리에서 생성된 폴더를 포함하여 필요한 파일이 폴더에 있는지 확인합니다. 핵심 단백질 폴더의 모든 단백질을 확인합니다.
지식 그래프를 디자인하려면 포함 MeSH 플래그와 함께 MeSH 질병 트리를 포함합니다. 포함 PPI 플래그가 있는 문자열의 단백질-단백질 상호 작용, 포함 PW 플래그가 있는 공유 Reactome 경로 및 포함 TFD 플래그가 있는 GRNdb GTEx의 전사 인자 의존성. GO 용어 관련 단백질만 포함하도록 분석 핵심 단백질을 지정하여 지식 그래프 구성 모듈을 실행합니다.
가장자리 가중치를 조정하려면 기본 CaseOLAP 점수 대신 음수가 아닌 Z-점수에 대해 Z-점수 척도를 사용합니다. 출력을 확인하고 지식 그래프 파일이 merged_edges 있는지 확인합니다. TSV 및 merged_nodes.
TSV 파일이 있습니다. 마지막으로, 화면에 표시된 명령을 입력하여 단백질 질병 연관성을 예측하기 위한 지식 그래프 예측 스크립트를 실행합니다. 이 그림은 각 질병 범주에 중요한 미토콘드리아 단백질을 나타냅니다.
Z-점수 변환은 임계값 3을 사용하여 중요한 단백질을 식별하기 위해 각 범주 내의 CaseOLAP 점수에 적용되었습니다. 각 질병 범주에 유의한 단백질의 총 수는 각 바이올린 플롯 위에 표시됩니다. 이 단백질의 리액텀 경로 분석은 모든 질병에 중요한 12가지 경로를 밝혀냈습니다.
질병별 지식 그래프에 딥러닝을 적용한 예가 이 그림에 나와 있습니다. 단백질과 질병 사이의 숨겨진 관계가 예측되고 두 예측에 대해 계산된 확률이 0에서 1 사이의 값으로 여기에 표시되며, 여기서 1은 강력한 예측을 나타냅니다. 지정된 시퀀스는 이 프로토콜, 특히 전처리 및 텍스트 마이닝 모듈의 실행에 매우 중요합니다.
이 두 단계는 각 질병에 대한 상위 단백질 및 경로의 식별뿐만 아니라 질병별 지식 그래프의 구성에 직접적인 영향을 미칩니다. 결과 지식 그래프는 Neo4j 및 Cytoscape와 같은 그래프 도구로 효과적으로 시각화되며 새로운 관계에 대한 고급 딥 러닝 예측에 활용할 수 있습니다. CaseOLAP LIFT를 사용하면 모든 세포 구성 요소와 질병 범주 간의 연관성을 연구할 수 있습니다.
결과 지식 그래프 및 순위가 매겨진 단백질 질병 연관성은 자연어 처리 및 후속 그래프 기반 분석을 지원합니다.