당사의 프로토콜은 특정 질병이 있는 단백질, 게놈 또는 화학 물질의 연관성을 평가하기 위해 사용자 정의 엔터티 범주 협회를 위한 클라우드 기반 구문 마이닝 플랫폼을 구축하기 위한 단계별 측정을 제공합니다. 이 기술의 주요 장점은 수동 엔터티 범주 협회 평가에 비해 향상된 효율성, 접근성 향상 및 광범위한 생물 의학 연구 응용 프로그램을 위한 구문 마이닝 도구의 사용입니다. 사용자는 생물 의학 출판물 내에서 또는 특정 키워드와 관련된 텍스트 문서 내에서 엔터티 및 관심 범주를 선택할 수 있습니다.
새로운 사용자는 원고에 제공된 프로토콜과 참조를 따를 수 있으며 GitHub 리포지토리 내에서 기술적인 문제를 제기할 수 있습니다. 이 문제의 시각적 데모는 프로토콜을 수행하는 방법에 대한 명확성을 더하고 새로운 텍스트 마이닝 도구의 구현을 장려합니다. 텍스트 큐브를 만들려면 먼저 사용 가능한 최신 의료 제목 제목 또는 메시 트리를 다운로드합니다.
메시 트리 2018의 코드는 MESHTree2018입니다. 입력 디렉터리에 입력해야 합니다. 하나 이상의 메시 설명서를 사용하여 관심 범주를 정의하고 범주에 대한 메시 ID를 수집합니다.
textcube_config 범주 이름을 저장합니다. 구성 디렉터리에서 json 파일을 만들고 공백으로 구분된 줄에 메시 ID의 수집된 범주를 추가합니다. 범주 파일을 범주로 저장합니다.
입력 디렉터리에서 txt. 이 알고리즘은 모든 하위 메시 설명자모두를 자동으로 선택합니다. 메시2pmid를 확인하십시오.
json은 데이터 디렉토리에 있습니다. 입력 디렉터리에서 메시 트리가 다른 이름으로 업데이트된 경우 run_textcube 입력 데이터 경로에 적절하게 표시되는지 확인합니다. py 파일.
텍스트 큐브라는 문서 구조를 만들려면 파이썬 run_textcube 입력합니다. 터미널에서 py를 사용하여 각 범주에 대한 문서 컬렉션을 만듭니다. 단일 문서는 여러 범주에 속할 수 있습니다.
텍스트 큐브 생성 단계가 완료되면 PMID 테이블에 있는 셀이 데이터 디렉터리에 textcube_cell2pmid.json으로 저장되는지 확인합니다. 셀 매핑 테이블에 대한 PMID는 데이터 디렉토리에 textcube_pmid2cell.json으로 저장됩니다. 셀에 대한 모든 하위 메시 용어의 컬렉션은 데이터 디렉터리에 meshterms_per_cat.json으로 저장됩니다.
또한 텍스트 큐브 데이터 통계는 데이터 디렉터리에 textcube_stat.txt 저장됩니다. 그런 다음 로그 디렉토리로 이동하여 textcube_log 로그 메시지를 읽습니다. txt, 이 프로세스가 실패하는 경우.
프로세스가 성공적으로 완료되면 텍스트 큐브 생성의 디버깅 메시지가 로그 파일에 인쇄됩니다. 엔터티 수의 경우 세로 선 기호로 구분된 한 줄에 한 엔터티와 약어를 배치하여 사용자 정의 엔터티를 만듭니다. 엔터티 파일을 엔터티로 저장합니다.
입력 디렉터리에서 txt를 입력하고 Elasticsearch 서버가 실행 중인지 확인합니다. PubMed라는 인덱싱된 데이터베이스가 Elasticsearch 서버에 있는 경우 textcube_pmid2cell 있는지 확인합니다. 데이터 디렉터리에서 json 파일을 입력하고 파이썬 run_entitycount 입력합니다.
단말에서 py를 사용하여 엔터티 카운트 작업을 수행합니다. 인덱스 데이터베이스의 모든 문서와 각 문서의 엔터티 수가 계산되고 엔터티가 발견된 PMID가 수집된 경우 최종 결과를 엔터티카운트로 저장합니다. txt 와 entityfound_pmid2cell.
데이터 디렉토리의 json. 그런 다음 로그 디렉토리를 열어 entitycount_log 로그 메시지를 읽습니다. txt, 이 프로세스가 실패하는 경우.
프로세스가 성공적으로 완료되면 엔터티 수의 디버깅 메시지가 로그 파일에 인쇄됩니다. 모든 입력 데이터가 데이터 디렉터리에 있는지 확인합니다. 메타데이터 업데이트의 입력 데이터입니다.
메타데이터 컬렉션을 준비하려면 파이썬 run_metadata_update 입력합니다. 메타데이터를 업데이트하기 위해 터미널에서 py를 업데이트합니다. 메타데이터 업데이트가 완료되면 metadata_pmid2pcount 있는지 확인합니다.
json과 metadata_cell2pmid. json 파일은 데이터 디렉터리에 저장됩니다. 로그 디렉토리로 이동하여 metadata_update_log 로그 메시지를 읽습니다.
이 프로세스가 실패하는 경우 txt 파일입니다. 프로세스가 성공적으로 완료되면 메타데이터 업데이트의 디버깅 메시지가 로그 파일에 인쇄됩니다. 컨텍스트 인식 의미 론 온라인 분석 처리 점수 계산의 경우 metadata_pmid2pcount 존재를 확인합니다.
json과 metadata_cell2pmid. 데이터 디렉터리에서 json 파일. 점수 계산에 대한 입력 데이터입니다.
파이썬 run_caseolap_score 입력합니다. 단말에서 py는 사용자 정의 범주에 따라 엔터티의 컨텍스트 인식 온라인 분석 처리 점수 계산을 수행합니다. 점수는 무결성, 인기 및 특유의 산물입니다.
점수 계산이 완료되면 결과 디렉터리에 결과가 저장되어 있는지 확인합니다. 그런 다음 로그 디렉터리에 액세스하여 caseolab_score_log 로그 메시지를 읽습니다. 이 프로세스가 실패하는 경우 txt 파일입니다.
프로세스가 성공적으로 완료되면 caseolab 점수 계산의 디버깅 메시지가 로그 파일에 인쇄됩니다. 4명의 유아, 어린이, 청소년 및 성인 연령 집단 하위 범주로부터 얻은 메타데이터 및 통계를 사용하여 텍스트 큐브 셀 간의 문서 수를 비교할 수 있습니다. 여기서 성인 하위 범주에는 모든 세포에서 가장 높은 숫자가 포함되어 있으며 성인 및 청소년 하위 범주는 공유 문서 수가 가장 많으며 이 대표 분석에 대한 관심 있는 엔터티를 포함합니다.
문맥 인식 시만성 온라인 분석 처리 점수로서 단백질 연령 그룹 협회의 평가, 유아, 어린이, 청소년 및 성인 하위 범주와 관련된 상위 10가지 단백질이 결정될 수 있었다. 여기서, 영양 및 대사 질환 하위 범주에 대한 메타데이터 및 통계가 도시되어 있다. 하위 범주 대사 질환은 영양 장애 하위 범주로 거의 3 배 많은 문서를 포함합니다.
대사 질환 및 영양 장애 하위 범주에는 7, 101 개의 공유 문서가 있습니다. 특히, 이러한 문서에는 대표 연구에 대한 관심 있는 실체가 포함되었습니다. 모든 단백질의 절반 이상이 하위 범주 간에 공유되며, 그 하위 범주에 고유 한 대사 질환 하위 범주에 있는 모든 관련 단백질의 거의 절반이 있으며 영양 장애 하위 범주는 몇 가지 독특한 단백질만 을 나타낸다.
독립적이고 뚜렷한 범주와 엔터티의 모든 동의어 및 약어 모음이 최상의 결과를 제공합니다. 엔터티 범주 연결은 숫자 값으로 표시되므로 클러스터링 및 원리 구성 요소 분석과 같은 누락된 학습 기술을 구현하는 문이 열립니다. 이 기술은 이러한 협회 내에서 숨겨진 또는 이전에 확인되지 않은 관계의 발견을 용이하게, 생물학적 과정의 깊은 이해를위한 길을 포장.