このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。
Method Article
既存のアルゴリズムは、バイオ マーカー検出データセットの 1 つのソリューションを生成します。このプロトコルは、複数の同様に有効な解の存在を示し、提案の挑戦のためのデータセットの調査生物医学の研究のためのユーザーフレンドリーなソフトウェアを示します。コンピューター科学者は、彼らのバイオ マーカーのこの機能が検出アルゴリズムを入力もできます。
バイオ マーカー検出 '高速 'オミックス研究者より重要な医学問題の 1 つは、ほぼすべての既存のバイオ マーカー検出アルゴリズムは、与えられたデータセットの最適化されたパフォーマンスの測定と 1 つのバイオ マーカーのサブセットを生成.しかし、最近の研究では、同様に効果的なまたは同一の分類性能を持つ複数のバイオ マーカーのサブセットの存在を実証しました。このプロトコルは、二値分類のパフォーマンス、ユーザー定義カットオフよりバイオ マーカーのサブセットを検出するためのシンプルで簡単な方法論を提示します。プロトコルは、データの準備と読み込み、ベースライン情報の要約、パラメータ チューニング、バイオ マーカーのスクリーニング、結果可視化解釈、バイオ マーカー遺伝子アノテーションとで結果と可視化の輸出で構成されています出版物の品質。スクリーニング戦略提案のバイオ マーカーは、直感的なバイオ マーカー検出アルゴリズムを開発するための一般的な規則を示します。ユーザーフレンドリーなグラフィカル ユーザー インターフェイス (GUI) は、プログラミング言語の Python では、生物医学の研究の結果に直接アクセスすることができますを使用して開発されました。ソース コードとマニュアルの kSolutionVis は、http://www.healthinformaticslab.org/supp/resources.php からダウンロードできます。
二値分類、最も一般的の 1 つを調査し、最も正確な差別のパワー1,のサンプルの 2 つのグループの訓練を受けて分類モデルの構築に挑戦的なデータマイニングで生物医学分野における問題を使用2,3,4,5,6,7します。 ただし、バイオメディカル分野で生成された大きなデータは、本来「大 p 小さな n」パラダイム、機能サンプル6,8,9の数より大きい数を持つ。したがって、生物学者は、過問題8,9を避ける分類アルゴリズムを活用する前にフィーチャーの寸法を減らさなければなりません。診断バイオ マーカーは、健康的な制御サンプル10,11から特定の病気の患者を分離検出されたフィーチャのサブセットとして定義されます。患者は通常、肯定的なサンプルとして定義されて、健常者が負サンプル12として定義されます。
最近の研究では、生体データセット5ため同一または同様に効果的な分類の公演で 1 つ以上のソリューションが存在することを示唆しています。ほぼすべての機能選択アルゴリズムは、確定的なアルゴリズムは、同じデータセットを 1 つだけ解決です。遺伝的アルゴリズム同時に同様の性能を持つ複数のソリューションを生成可能性がありますが、彼らはまだ与えられたデータセット13,14の出力として最高のフィットネス関数で 1 つのソリューションを選択ましょう。
機能選択アルゴリズムは、フィルターまたはラッパー12として大体グループ化できます。フィルター アルゴリズム選択機能仮定に基づくバイナリ クラス ラベルを重要な個別連想ランキング トップ -k機能がお互い15,16,17 の独立しました。.この前提が成立しないほとんどすべての現実世界のデータセット、ヒューリスティック フィルタ ルール アルゴリズムを実行する、多くの場合、例えば、mRMR (冗長性を最小と最大の関連性)、Wilcoxon テストによる機能フィルター (WRank)アルゴリズム、および ROC (受信者操作特性) プロット (ROCRank) をフィルタ リング アルゴリズムを用いた。それははるかに小さい問題、それぞれのだけ 2 つの変数が含まれている最大依存関係機能選択アルゴリズムと比較する一連の組合せの推定問題を近似 mRMR、効率的なフィルター アルゴリズムは、したがってより堅牢な18,19ペア共同確率を使用します。しかし、それでは、関連性を高めることができますし、このように個別に役に立たないが、組み合わせたときにのみ有用ないくつかの機能の組み合わせをミスの機能間の相互作用を計測、mRMR 可能性がありますいくつかの機能の有用性を過小評価。WRank アルゴリズムは、どのように識別機能のサンプルは、2 つのクラス間と外れ値20,21の堅牢性のために知られている非パラメトリック スコアを計算します。さらに、ROCRank アルゴリズムは, 二値分類性能22,23どのように重要な ROC の下で領域曲線 (AUC) の特定の機能を評価します。
その一方で、ラッパーは繰り返しヒューリスティック ルールによって生成された特定の機能サブセットの定義済みの分類子のパフォーマンスを評価し、最高のパフォーマンス測定24の機能のサブセットを作成します。ラッパーは、一般的に分類性能のフィルターよりも優れているが、遅い25を実行します。正則ランダム フォレスト (RRF)26,27アルゴリズムが機能重要性スコアは、ジニ指数によって評価される各ランダム フォレスト] ノードにトレーニング データのサブセットの機能を評価することによって、貪欲な規則を使用するたとえば、.新機能の選択は、そのインフォメーション ・ ゲインが選ばれた機能の改善しない場合罰せられることでしょう。さらに、マイクロ アレイ (PAM)28,29アルゴリズムもラッパーのアルゴリズムの予測分析クラスのラベルのそれぞれの重心を計算し、全体に向けた遺伝子重心を圧縮する機能を選択しますクラスの重心。PAM は遠く隔った機能の堅牢です。
トップの分類性能を持つ複数のソリューション、特定のデータセットの必要があります。まず、決定的アルゴリズムの最適化の目標は、必ずしも生物学的サンプルの理想的ではない、数式、例えば、最小誤り率30、によって定義されます。第二に、データセットと同様の効果的なまたは同一公演を複数、大幅に異なるソリューションがあります。ほとんどすべての既存機能選択アルゴリズムは、ランダムに出力31としてこれらのソリューションのいずれかを選択します。
本研究は、任意の指定されたバイナリ分類データセットと同様のパフォーマンスと複数の機能選択解情報分析プロトコルをご紹介いたします。情報技術やコンピューターがコーディングに精通しているない最も生物学者を考慮した、ユーザーフレンドリーなグラフィカル ユーザー インターフェイス (GUI) は生体二値分類データセットの迅速分析を容易にするために開発されました。分析のプロトコルは、データの読み込みと集計、パラメーター調整、パイプラインの実行と結果の解釈で構成されています。単純なクリックで研究者、バイオ マーカーのサブセットと文書品質可視化のプロットを生成することができます。プロトコルは、2 つの二値分類データセット急性リンパ芽球性白血病 (すべて) のすなわちALL1 と ALL212のトランスクリプトームを使用してテストされています。ALL1 と ALL2 のデータセットは、広範な研究所ゲノム解析センター、http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi でご利用いただけますからダウンロードされました。ALL1 には 12,625 機能を持つ 128 のサンプルが含まれています。これらのサンプルの 95 は B 細胞すべてと 33 T 細胞は、すべて。ALL2 には 12,625 機能同様の 100 サンプルが含まれます。これらのサンプルの再発を受けた 65 患者としなかった患者 35 例があります。ALL1 はだった 4 つのフィルターと 4 つのラッパーが 96.7% と 10012を達成する 8 特徴選択アルゴリズムの 6 の最小精度の簡単なバイナリ分類データセットです。ALL2 は 83.7% 精度12よりも優れて実現する上記の 8 の機能選択アルゴリズムのより困難なデータセットです。この最高の精度は相関機能選択 (CFS)、ラッパー アルゴリズムによって検出された 56 機能で実現されました。
注: 次のプロトコルは、情報の分析手順の詳細との主要なモジュールの擬似コードをについて説明します。自動解析システムは、Python バージョン 3.6.0 と Python モジュール パンダ、abc、numpy、scipy、sklearn、sys、PyQt5、sys、mRMR、数学および matplotlib を使用して開発されました。本研究で使用される材料は、材料のテーブルに表示されます。
1 データ行列を準備し、クラスのラベル
2. データ行列をロードし、クラスのラベル
3. 要約、データセットのベースライン統計を表示
4. クラスのラベルと上位ランクのフィーチャの数を決定します。
5. 別の公演のためシステムのパラメーターを調整します。
6. パイプラインを実行し、インタラクティブな可視化の結果
7. 3 D 散布プロット視覚化を解釈し、3 D の散布を使用して同様に効果的な二値分類性能と機能のサブセットを解釈
8. 遺伝子注釈および人間の病気との関連付けを検索します。
注: 手順 8 に 10 は DNA および蛋白質のシーケンス レベルから遺伝子に注釈を付ける方法を示しています。まず、上記の手順からバイオ マーカー ID ごとの遺伝子の記号がデビッド32、データベースから取得される、DNA および蛋白質のレベルからこの遺伝子の記号をそれぞれ分析する、2 つの代表的な web サーバーが使用されます。サーバー GeneCard はある特定の遺伝子記号の包括的な機能アノテーションを提供し、人間データベース (OMIM) でオンライン メンデル遺伝病遺伝子連合の最も包括的なキュレーションを提供します。蛋白質の最も包括的なデータベースである UniProtKB サーバーとサーバー グループに基づく予測システム (GPS) はシグナリングのリン酸化の非常に大きなリストのキナーゼを予測します。
9. 符号化された蛋白質と翻訳後修飾に注釈を付ける
10. タンパク質間相互作用とその豊かな機能モジュールに注釈を付ける
11. 輸出の生成されたバイオ マーカーのサブセットと可視化のプロット
このワークフロー (図 6) の目標は、二値分類データセットの同じような効率を持つ複数のバイオ マーカーのサブセットを検出することです。全体のプロセスは、2 つの例のデータセット ALL1 と ALL2 最近公開されたバイオ マーカー検出から抽出した12,48の研究によって例証されます。ユーザーは、補足?...
本研究は、二値分類のユーザー指定したデータセットに容易に続くマルチ ソリューション バイオ マーカー検出と評価プロトコルを提示します。ソフトウェアは、使いやすさと柔軟性のあるインポート/エクスポート インターフェイス ソフトウェアの GUI を使用して簡単にそのデータセットを調査する医学研究者を許可する、さまざまなファイル形式の重点を置きます。本研究では、以前多?...
我々 は本レポートに関する利害の対立があります。
この作品は、中国の科学 (XDB13040400) 院と吉林大学からスタートアップ助成金の戦略的な重点研究課題によって支えられました。匿名のレビューや生体テスト ユーザーは、使いやすさと kSolutionVis の機能の改善に関する建設的なコメントの認められました。
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved