この測定は、複数のソリューションの生成に関する生物医学的検出分野の重要な質問に答えるのに役立ちます。この技術の主な利点は、複数の機能の検出を助けるためにユーザーフレンドリーなグラフィカルユーザーインターフェースを提供することです。まず、データマトリックスとクラスラベルをソフトウェアにロードします。
[データ マトリックスの読み込み] をクリックして、ユーザー指定のデータ メトリック ファイルを選択し、クラス ラベルをロードして、対応するクラス ラベル ファイルを選択します。上位ランクのフィーチャ数のクラス ラベルを決定するには、適切なドロップダウン ボックスで正と負のクラスの名前を選択し、フィーチャ サブセットの包括的な画面のトップ X ドロップダウン ボックスの上位ランクのフィーチャ数として 10 を選択します。異なるパフォーマンスに合わせてシステムパラメータを調整するには、選択した極端な学習マシン分類器の精度バランスの精度ドロップダウンボックスとして、パフォーマンス測定精度を選択します。
次に、指定したパフォーマンス測定のカットオフ値 0.7 をパフォーマンスカットオフ入力ボックスで選択します。パイプラインを実行するには、[analyze] をクリックし、パフォーマンス測定の既定値として 0.7 を選択します。また、最も優れたフィーチャ サブセットのデフォルト番号として 10 を指定します。
その後、ソフトウェアによって検出された機能を収集し、解釈します。ソフトウェアによって検出された最高の分類パフォーマンスを持つサブセットの上位 10 フィーチャの 3D 散布図を生成するには、[解析] をクリックし、F1、F2、F3 軸としての 3 つのフィーチャのランクを使用して、フィーチャ サブセット内の 3 つのフィーチャをランクの昇順に並べ替えます。パフォーマンスカットオフ値を 0.7 に変更し、[解析]をクリックして、パフォーマンスの計測値を超えたか等しいフィーチャ サブセットの 3D 散布図を生成します。
次に、[3D チューニング] をクリックして、3D 散布図の視野角を手動で調整するための新しいウィンドウを開き、検出されたフィーチャ サブセットの冗長性を減らします。DNAとタンパク質配列の両方のレベルで遺伝子にコメントを付けるには、David データベース Web ページを開き、遺伝子 ID 変換リンクをクリックして、準備されたデータセットの最初のバイオマーカー サブセットの特徴 ID を入力します。ジーン リスト リンクをクリックし、[送信リスト] をクリックして対象のアノテーションを取得し、ジーン リストを表示してジーン シンボルのリストを取得します。
次に、GeneCards データベース Web ページを開き、対象のジーンの名前をデータベース クエリ入力ボックスに入力して、このジーンの注釈を見つけます。Man データベースでオンライン メンデリア継承を開き、その遺伝子を検索して、データベースからこの遺伝子の注釈を見つけます。コード化されたタンパク質に注釈を付けるには、UniProt ナレッジ ベースのデータベース ページを開き、このデータベースから遺伝子の注釈を検索します。
グループベース予測システム、またはGPSウェブサーバーを開き、バイオマーカー遺伝子によってコードされるタンパク質配列をUniProtナレッジベースデータベースから取得し、オンラインGPSツールを使用して移行後の改変残基を予測します。タンパク質とタンパク質の相互作用にアポイントメントし、そこに機能モジュールを豊かにするには、文字列の Web サーバー ページを開き、文字列データベースを使用して、目的の遺伝子を検索して、オーケストレーションされたプロパティを見つけます。検出されたバイオマーカーサブセットをエクスポートして詳細な分析を行う場合は、[テーブルをエクスポート] をクリックし、ファイルを保存するための適切なテキスト形式を選択します。
次に、視覚化プロットを個別の画像ファイルとしてエクスポートし、各プロットの下の[保存]をクリックして、各ファイルを保存するための適切な画像形式を選択します。この代表的な実験では、2 つのデータセットが CSV ファイルとしてフォーマットされ、示されているようにソフトウェアに読み込まれました。最初のデータセットでは、12、625の特徴を持つ128サンプル、および個々のクラスラベルが、95個の陰性サンプルと33個の陽性サンプルを含む最終的なデータMatrixとともにロードされました。
また、2 番目の困難なデータ セットについても同様の操作が行われました。機能名でユーザー固有のキーワードを検索すると、各データ セットのフィーチャのヒストグラムが表示されます。各データセットに対してパイプライン アルゴリズムを実行した後、120 個の修飾バイオマーカー サブセットが検出され、データ セットを判別しやすくなりました。
しかし、困難なデータセットで検出されたバイオマーカーサブセットは76個のみ。また、バイオマーカーのサブセット精度が低いと、バイオマーカーが特定の表現型であることを示唆し、バイオマーカー検出におけるもう一つの大きな課題が生ずる。この手順を使用する場合は、将来の選択の問題に複数の解決策があることを覚えておくことが重要です。
パフォーマンスのベスト SIM を読みます。その開発後、この技術は、生物医学研究者が複数のソリューションで生物医学的検出を探求する道を開きました。