科学的データはここ数十年でますます複雑化し、豊かになっていますが、科学者は拡大するデータニーズをもはや満たさない組織の方法を使用し続けています。このビデオで説明する手法の主な利点は、データ分析の柔軟性を維持しながら、厳密なデータ パイプラインとストレージを提供するデータベースを可能にすることです。対象のデータ・セットの評価を開始するには、この表に示すサンプル・コードおよびデータベースをダウンロードしてください。
次に、多次元データベースのこのグラフィカル表現を使用して、対象のデータセットが実際に多次元であるかどうかを評価します。データベース組織のメリットを得るためには、データが 2 つの条件を満たす必要があります。まず、データを多次元形式で視覚化できるようにする必要があります。
第二に、特定の実験的結果を任意の次元に関連付けることができることによって、より大きな科学的洞察を得る必要があります。リレーショナル データベースは、行と列に編成されたテーブルの形式で情報を格納し、データベース内の識別情報をリンクするために使用できます。多次元性は、テーブルの列や個々のテーブルなどの異なるフィールドを相互に関連付けることによって処理されます。
まず、データ ファイルを整理して、一意の名前を十分に考え出します。ファイル命名規則とフォルダ/サブフォルダ構造を使用した良い方法を使用すると、ファイルに手動でアクセスする際の読みやすさを損なうことなく、データベースの拡張性を高めます。日付付きファイルを一貫性のある形式で追加し、メタデータに従ってサブフォルダに名前を付けます。
データベース構造が設計されている間、異なるテーブルのフィールド間のリレーションシップを描画します。作成されたデータベースとリレーションシップを記述した README ドキュメントを作成します。この図とテキストベースの両方をグラフィカルに使用できます。
異なるテーブル間のエントリがリンクされると、関連するすべての情報がそのエントリに関連付けられるため、複雑なクエリを呼び出して目的の情報までフィルタ処理できます。個人の異なる特性が、それらの個人の関連する実験データに関連するこの例と同様の結果を作成します。パターン型とデータ型の列を、メインの DataValues テーブルの一致するエントリに関連付けることによって、さまざまな短縮表記を説明する方法も同様でした。
データ収集につながる可能性のあるさまざまな実験方法およびデータ分析方法、および各データ型の通常のデータストレージの手法を特定します。GitHub などのオープンソースバージョン管理ソフトウェアと連携して、必要な一貫性とバージョン管理を確保しながら、ユーザーの負担を最小限に抑えます。自動パイプラインを使用できるように、データの名前付けと格納に一貫性のあるプロシージャを作成してください。
任意の便利なプログラミング言語を使用して、データベースの新しいデータエントリを生成します。データの自動選択を導くことができる別々のファイルに小さなヘルパー テーブルを作成します。これらのファイルは、パイプラインが操作できる可能性のテンプレートとして機能し、編集が容易です。
データ パイプラインの新しいデータ エントリを生成するには、この記事の補足ファイルで提供されている、ここに示す例と同様の方法でコードをプログラムします。これにより、ヘルパー テーブルをユーザーが選択する入力として使用できるようになります。ここから、新しいエントリと前のエントリを組み合わせて、ファイルの場所の新しいスプレッドシートを作成します。
ここに示されているコードと補足ファイルに用意されているコードを使用して、このプロセスを自動化できます。その後、この手順を自動化するには、ここに示すコードを使用して、マージされたスプレッドシートの重複を確認します。また、自動メソッドを使用して、スプレッドシートのエラーを確認し、その理由と場所をユーザーに通知します。
さらに、コンパイル済みデータベースをチェックし、不足している不良データポイントを特定するコードを記述できます。ここに示すようなコードを使用して、データベースの整合性を失うことなく、不正な点を手動で削除します。データ ポイントを追加するには、これらの手順を繰り返します。
次に、ファイルの場所を使用してデータ値のスプレッドシートを生成します。また、ファイルの場所を識別したり、将来のエントリとマージしたりするためにアクセスできるエントリの更新リストを作成します。データベースの作成を開始するには、まず空白のデータベース ドキュメントを作成し、セル行、データ型、およびパターンタイプのヘルパー テーブルを読み込みます。
[外部データ] メニューに移動し、[テキスト ファイルのインポート] を選択して、[参照] をクリックして、目的のファイルを選択します。インポート ウィザードで、[区切り記号付き] を選択し、[次へ] をクリックします。区切り記号の種類として[先頭行のフィールド名とカンマを含む]を選択します。
[次へ] をクリックした後、既定のフィールド オプションを選択し、[主キーなし] を選択します。[次へ] をクリックし、[完了] をクリックします。次に、同じ手順を繰り返してデータとパターンタイプをロードします。
次に、データ値テーブルをロードします。[外部データ] メニューに移動し、[テキスト ファイルのインポート] を選択して、[参照] をクリックして、目的のファイルを選択します。インポート ウィザードで、[区切り記号付き] を選択し、[次へ] をクリックします。
区切り記号の種類として[先頭行のフィールド名とカンマを含む]を選択します。[次へ] をクリックした後、既定のフィールド オプションを選択し、[Access に主キーを追加する] を選択します。[次へ] をクリックし、[完了] をクリックします。
データベース ツールを選択し、[リレーションシップ] に進み、すべてのテーブルをボードにドラッグしてリレーションシップを作成します。次に、[リレーションシップの編集] に移動し、[新規作成] を選択します。テーブルと列の名前を選択し、ヘルパー テーブルをポイントする結合の種類をクリックします。
必要なリレーションシップをそれぞれ設定したら、[作成] に移動して [クエリ デザイン] を選択し、関連するすべてのテーブルを選択するか、または一番上のウィンドウにドラッグします。この例では、セル行、データ値、データ型、およびパターンタイプが表示されます。リレーションシップは、以前のリレーションシップデザインに基づいて自動的に設定されます。
ここで、クエリ列に必要な結果を入力します。このデータセットの場合は、表示に移動して [合計] を選択します。最初の列、2 番目の列、および 3 番目の列をここに示すように入力します。
4 番目の列、5 番目の列、および 6 番目の列も入力します。列の入力が完了したら、クエリを保存して実行します。このサンプル実験データでは、さまざまな条件間の平均比較のためにTukey検定を使用した一方向分散分析を使用します。
多数の確認が可能な場合、手動データ集計方法を使用して、新しい関係がどこに存在するのかを特定することは困難です。ここで、複数の条件にわたる細胞内アクチンフィラメントの組織を、異なる確認でデータベースを問い合わせて配向順序の程度を用いて測定した。異方性および等方性データセットは、フィブロネクチンマイクロパターニングが組織組織に大きな影響を与えるので予想されていた、大きく異なるOoPsを示しています。
しかし、等方性組織を比較する場合、突然変異状態条件の間に有意な差はなかった。逆に、パターン組織は、正の対照細胞株において統計的にあまり組織化されなかった。この関係は、データが異なるファミリによって集計された場合でも、正と負のコントロールに対して保持されます。
必要に応じて、データをさらに解析できます。一例として、ここでアクチンOOPを生検時の個人の年齢に対してプロットし、変異状態と家族によって分離して臨床変数に対する凝集を説明する。このデータセットでは、アクチン組織と個人の年齢との間に相関関係はありません。
これは、同じデータを異なる組み合わせで分析する方法と、複数のクラスに該当するデータを集計する通常の困難なタスクをデータベースを使用して実行する方法を示しています。データ組織のパイプラインを作成し、データベースを生成するこのプロトコルは、大量のデータ収集のこの時代に絶対に不可欠な科学的な厳しさを提供します。