この計算プロトコルは、生物医学出版物で報告されているように、細胞成分、例えばミトコンドリアタンパク質とそれらの疾患との関連との間の関連を調査することを可能にするので重要である。CaseOLAP LIFTは、研究者が生物医学レポートやナレッジベースから情報を抽出して統合できるようにします。ナレッジグラフとして整理されたこれらの結果は、新しい関係を予測するために活用できます。
これらの研究結果は、特定および予測されたタンパク質疾患関連の優先順位付きリストを強調することにより、仮説の生成をサポートし、疾患の病理と治療に関する新しい洞察を明らかにするのに役立ちます。この高度にカスタマイズ可能なワークフローは、GO用語を介して任意の細胞コンポーネントに適用でき、任意の発行日範囲内のMeSH用語を介して疾患の任意のリストに適用できます。このユーザーフレンドリーなプロトコルは、分析に必要な計算の専門知識を最小限に抑えます。
ソフトウェアはDockerコンテナとしてリリースされ、実行に必要なのは十分な計算ストレージとリソースのみです。まず、ターミナル ウィンドウを開いて CaseOLAP LIFT ドッカー コンテナーをダウンロードし、「ドッカー プル CaseOLAP スラッシュ CaseOLAP_LIFT 最新」と入力します。すべてのプログラムデータと出力を格納するディレクトリを作成します。
画面に表示されているコマンドを使用して docker コンテナーを起動し、フォルダーの完全なファイル パスとして PATH_TO_FOLDER を置き換えます。コンテナ内でElasticsearchを開始するには、新しいターミナルウィンドウを開き、画面に表示されるコマンドを入力します。CaseOLAP_LIFTフォルダーに移動します。
ダウンロードリンクと設定スラッシュがknowledge_base_linksことを確認してください。JSON は、各ナレッジ ベース リソースの最新バージョンに対して最新かつ正確です。遺伝子オントロジーまたはGO用語を決定するには、Webサイトにアクセスしてください 遺伝学.
org をクリックし、すべての GO 用語の識別子を見つけます。同様に、画面に表示されているWebサイトから、医療主題ヘッダーまたはMeSH識別子を介して疾患カテゴリを見つけます。前処理モジュールを実行するには、ダッシュCフラグを使用してユーザー定義の学習済みGO用語を示し、ダッシュDフラグを使用して疾患MeSHツリー番号を示し、ダッシュAフラグで略語を指定します。
テキスト マイニング モジュールを実行するには、「Python、スペース、CaseOLAP_LIFT」と入力します。py、スペース、text_mining、ダッシュLフラグを追加して未分類のドキュメントのトピックを補完し、ダッシュTフラグを追加して疾患関連ドキュメントの全文をダウンロードします。テキスト マイニングの結果が結果フォルダーにあることを確認します。
すべてのタンパク質を分析して機能的に関連するすべてのタンパク質を含めるか、コアタンパク質を分析してGO項関連タンパク質のみを含めるかを指定して、分析に使用するテキストマイニング結果を指定します。各疾患の上位タンパク質と経路を特定するために、CaseOLAPスコアは各疾患カテゴリ内でZスコア変換されます。ダッシュ Z フラグを指定して、それを超えるとタンパク質が有意と見なされる指定されたしきい値スコアを示します。
解析結果を確認し、必要に応じて調整します。ファイルz_score_cutoff_tableを開きます。csv: 各疾患カテゴリに有意なタンパク質の数を含む生成された Z スコア表を表示します。
これは、適切な Z スコアしきい値を選択するようにユーザーに通知するのに役立ちます。結果フォルダーを開き、前処理で生成されたフォルダーを含む必要なファイルがフォルダー内にあることを確認します。コアタンパク質フォルダー内のすべてのタンパク質を確認します。
知識グラフを設計するには、MeSH 疾患ツリーを MeSH フラグを含めて含めます。PPIフラグを含むストリングからのタンパク質間相互作用、PWフラグを含む共有リアクトーム経路、およびTFDフラグを含むGRNdb GTExからの転写因子依存性。ナレッジグラフ構築モジュールを実行して、コアタンパク質の分析を指定して、GO項に関連するタンパク質のみを含めます。
エッジの重みをスケーリングするには、既定の CaseOLAP スコアではなく、負でない Z スコアにスケール Z スコアを使用します。出力を確認し、ナレッジ グラフ ファイルがmerged_edgesことを確認します。TSVとmerged_nodes。
TSV ファイルが存在します。最後に、画面に表示されるコマンドを入力して、タンパク質疾患の関連を予測するためのナレッジグラフ予測スクリプトを実行します。この図は、各疾患カテゴリーに有意なミトコンドリアタンパク質を示しています。
Zスコア変換を各カテゴリ内のCaseOLAPスコアに適用し、3の閾値を使用して有意なタンパク質を同定しました。各疾患カテゴリーに有意なタンパク質の総数は、各バイオリンプロットの上に示されています。これらのタンパク質のリアクトーム経路分析により、すべての疾患に重要な12の経路が明らかになりました。
この図には、疾患固有の知識グラフに深層学習を適用した例を示します。タンパク質と疾患の間の隠れた関係が予測され、両方の予測の計算された確率が0から1の範囲の値でここに表示されます(1は強い予測を示します)。指定されたシーケンスは、このプロトコル、特に前処理モジュールとテキストマイニングモジュールの実行に不可欠です。
これらの2つのステップは、各疾患の上位タンパク質と経路の特定、および疾患固有の知識グラフの構築に直接影響します。得られた知識グラフは、Neo4jやCytoscapeなどのグラフツールによって効果的に視覚化され、新しい関係の高度な深層学習予測に活用できます。CaseOLAP LIFTは、あらゆる細胞成分と疾患カテゴリーとの関連の研究を可能にします。
結果として得られる知識グラフとランク付けされたタンパク質疾患の関連は、自然言語処理とフォローアップグラフベースの分析をサポートします。