当社のプロトコルは、タンパク質、ゲノム、または化学物質と特定の疾患との関連を評価するために、ユーザー定義のエンティティカテゴリ関連のためのクラウドベースのフレーズマイニングプラットフォームを構築するためのステップバイステップの尺度を提供します。この技術の主な利点は、手動エンティティカテゴリの関連評価よりも効率が向上し、アクセシビリティが強化され、広範囲にわたる生物医学研究アプリケーションのためのフレーズマイニングツールの使用です。ユーザーは、生物医学の出版物内または特定のキーワードに関連付けられたテキスト文書内の目的のエンティティおよびカテゴリを選択できます。
新しいユーザーは、私たちのプロトコルと原稿に記載されている参照に従うことができます、 そして、彼らは私たちのGitHubリポジトリ内の技術的な問題を提起することができます。この問題の視覚的なデモンストレーションは、プロトコルを実行する方法をより明確にし、新しいテキスト マイニング ツールの実装を奨励します。テキストキューブを作成するには、まず、利用可能な最新の医療対象見出しまたはメッシュツリーをダウンロードします。
メッシュ ツリー 2018 のコードは、MESHTree2018 です。を入力する必要があります。1 つ以上のメッシュ記述子を使用して対象のカテゴリを定義し、カテゴリのメッシュ ID を収集します。
textcube_configにカテゴリの名前を保存します。config ディレクトリ内の json ファイルを使用し、メッシュ ID の収集されたカテゴリをスペースで区切った行に追加します。カテゴリ ファイルをカテゴリとして保存します。
入力ディレクトリ内の txt。このアルゴリズムは、すべての子孫メッシュ記述子を自動的に選択します。そのメッシュ2pmidを確認してください。
json はデータディレクトリにあります。メッシュ ツリーが入力ディレクトリ内の別の名前で更新されている場合は、run_textcubeの入力データ パスで正しく表示されていることを確認します。py ファイル。
テキストキューブと呼ばれるドキュメント構造を作成するには、python run_textcubeと入力します。各カテゴリのドキュメントのコレクションを作成するために、端末でpy。1 つのドキュメントが複数のカテゴリに分類される場合があります。
テキスト キューブ作成の手順が完了したら、PMID テーブルのセルがデータ ディレクトリに textcube_cell2pmid.json として保存されていることを確認します。セル マッピング テーブルへの PMID は、データ ディレクトリに textcube_pmid2cell.json として保存されます。セルのすべての子孫メッシュ用語のコレクションは、データ ディレクトリに meshterms_per_cat.json として保存されます。
テキスト キューブデータの統計情報は、textcube_stat.txtとしてデータ ディレクトリに保存されます。次に、ログ ディレクトリに移動して、textcube_logでログ メッセージを読み取ります。txt (このプロセスが失敗した場合)。
プロセスが正常に完了すると、テキスト キューブ作成のデバッグ メッセージがログ ファイルに出力されます。エンティティ数の場合、ユーザー定義エンティティを作成し、1 つのエンティティとその省略形を 1 行に配置し、縦線シンボルで区切ります。エンティティ ファイルをエンティティとして保存します。
入力ディレクトリ内の txt を使用し、Elasticsearch サーバーが実行されていることを確認します。PubMed というインデックス付きデータベースが Elasticsearch サーバーに存在する場合は、textcube_pmid2cellが存在することを確認します。json ファイルをデータディレクトリに格納し、python run_entitycountと入力します。
エンティティカウント操作を実行するために、端末でpy。インデックス データベースのすべてのドキュメントと各ドキュメント内のエンティティの数がカウントされ、エンティティが検出された PMID が収集された場合、最終的な結果をエンティティ数として保存します。txt とentityfound_pmid2cell。
データディレクトリ内の json。次に、ログ ディレクトリを開いて、entitycount_log内のログ メッセージを読み取ります。txt (このプロセスが失敗した場合)。
プロセスが正常に完了した場合、エンティティカウントのデバッグ メッセージがログ ファイルに出力されます。すべての入力データがデータ ディレクトリ内に存在することを確認します。これらは、メタデータ更新の入力データです。
メタデータのコレクションを準備するには、python run_metadata_updateと入力します。は、メタデータを更新するために端末内で行います。メタデータの更新が完了したら、metadata_pmid2pcountを確認します。
json とmetadata_cell2pmid。json ファイルはデータディレクトリに保存されます。ログ ディレクトリに移動して、metadata_update_log内のログ メッセージを読み取ります。
txt ファイル(このプロセスが失敗した場合)。プロセスが正常に完了すると、メタデータ更新のデバッグ メッセージがログ ファイルに出力されます。コンテキスト対応のセマンティックなオンライン分析処理スコア計算の場合は、metadata_pmid2pcountの存在を確認します。
json とmetadata_cell2pmid。データ ディレクトリ内の json ファイル。これらは、スコア計算の入力データです。
python run_caseolap_scoreを入力します。ユーザ定義カテゴリに基づいてエンティティのコンテキスト対応セマンティックオンライン分析処理スコア計算を実行する端末でpy。スコアは、誠実さ、人気、特徴の産物です。
スコアの計算が完了したら、結果が結果ディレクトリに保存されていることを確認します。次に、ログ ディレクトリにアクセスして、caseolab_score_log内のログ メッセージを読み取ります。txt ファイル(このプロセスが失敗した場合)。
プロセスが正常に完了すると、caseolab スコア計算のデバッグ メッセージがログ ファイルに出力されます。4人の幼児、子供、思春期および成人の年齢グループサブカテゴリから得られたメタデータと統計を使用して、テキストキューブ細胞間の文書数の比較を表示することができる。ここでは、成人サブカテゴリには、すべてのセルで最も多い数が含まれ、成人および思春期のサブカテゴリは共有ドキュメントの数が最も多く、この代表的な分析に関心のあるエンティティが含まれています。
タンパク質年齢層の関連性を文脈認識的な意味的なオンライン分析処理スコアとして評価し、乳幼児、小児、青年および成人のサブカテゴリに関連する上位10個のタンパク質を決定することができた。ここで、栄養・代謝性疾患サブカテゴリに関するメタデータおよび統計が示されている。サブカテゴリ代謝疾患は、栄養障害サブカテゴリのほぼ3倍の文書が含まれています。
代謝性疾患および栄養障害サブカテゴリには、7,101の共有文書があります。特に、これらの文書には、代表的な研究の関心のあるエンティティが含まれていました。すべてのタンパク質の半分以上がサブカテゴリ間で共有されており、代謝疾患サブカテゴリに関連するタンパク質のほぼ半分がそのサブカテゴリに固有であり、栄養障害サブカテゴリは少数のユニークなタンパク質のみを示しています。
独立したカテゴリと、エンティティのすべての同義語と略語のコレクションが最良の結果を提供します。エンティティカテゴリの関連付けは数値として表示されるため、クラスタリングや原則コンポーネント分析などの不足している学習手法を実装する扉が開きます。この技術は、これらの関連内の隠されたまたは以前に未確認の関係の発見を容易にし、生物学的プロセスのより深い理解への道を開く。