この分析プロトコルは、大規模な細菌の病原性集団の研究を可能にする。これは、生態学的および疫学的調査を行う方法を強化するため、非常に重要です。しかし、それを実現するために必要なのは、自動化されたスケーラブルなツール、または何千ものゲノム配列を一度に分析できる計算プラットフォームです。
ProkEvoはそのニッチに適合し、実用的な細菌集団分析を大規模に行い、汎ゲノムコンテンツをマッピングしながら、生態学的および疫学的調査のために遺伝子型とそれらの遺伝子型に関するユニークな特徴をレビューすることを可能にします。このプロトコルの主な利点は、細菌集団内の階層遺伝子型のヒューリスティックマイニングを行うために、ProkEvoなどの強力で自動化されたスケーラブルな計算プラットフォームを使用することです。今日ここで提示されている分析プロトコルは、いくつかの実用的な意味合いを持っています。
そのうちの1つは、細菌遺伝子型をスケーラブルな方法でリアルタイムでマッピングおよび追跡できるようにする意味で診断を容易にすることであり、病原体の病原性系統を識別および定義して、異なる設定でそれらの病原体を追跡およびマッピングすることを可能にする。もう1つの用途は、公衆衛生研究所および規制当局の日常的な監視を強化することであり、これは異なる商業環境における病原体の追跡を容易にするために行われる。ここで提示されたプロトコルは、微生物学者、生態学者、疫学者、および細菌集団ゲノミクスに興味があるすべての人に実用的なガイダンスを提供します。
ProkEvoはオープンソースで一般に利用可能なプラットフォームであり、GitHubページには詳細な使用方法が記載されています。ここで説明するプロトコルは、GitHub でも見つけることができます。提供された指示により、ProkEvoとこのプロトコルを使いやすくし、初心者や上級の研究者が利用できるようにしたいと考えています。
ジジの木を使用して解析を開始し、遺伝子型情報とともに系統樹をプロットします。これを行うには、x-lim および G ヒートマップ内の数値を変更して、リングの直径と幅を含む Gigi ツリー図形のサイズを最適化します。系統樹を使用してデータの複数のレイヤーをプロットする場合は、すべてのメタデータを可能な限り少ない数のカテゴリに集約して、色付けパネルの選択を容易にします。
関心のある質問とドメインの知識に基づいてデータ集約を実行します。完了したら、棒グラフを使用して、配列タイプまたはST系統のデータを集計して相対頻度を評価し、コアゲノム多遺伝子座配列タイピングまたはcgMLSTバリアントを視覚化を容易にします。データ集約に使用する経験的または統計的なしきい値を選択します。
サンプル・コードを使用して、STリネージュの周波数分布を検査し、カットオフを判別することができます。コード例では、マイナー ST または低周波数 ST の集約方法を示します。番号が付けられていない ST は、他の ST としてグループ化できます。
cgMLST バリアントにも同様のコードを使用します。ネストされたアプローチを使用して、各 BAPS1 サブグループ内の各 ST 系統の割合を計算し、同じ BAPS1 サブグループに属する ST を識別します。このコードは、BAPS1 サブグループ全体で ST ベースの比率を計算する方法を例示しています。
ST系統にわたる抗菌薬耐性またはAMR遺伝子座の分布をプロットするには、経験的または統計的閾値を使用して最も重要なAMR遺伝子座を除外し、視覚化を容易にします。生を提供する。すべてのST系統にわたるすべてのAMR遺伝子座の計算された比率を含むcsvファイル。
次に、コードを使用して各STのAMR比率を計算します。すべてのSTについて計算が完了したら、コードを使用してデータセットを1つのデータフレームとして結合し、計算された比率を含むcsvファイルをコードとともにエクスポートします。ST系統全体のAMRベースの分布をプロットする前に、しきい値に基づいてデータをフィルタリングして、視覚化を容易にします。
次に、AMRデータにおける階層的な遺伝子型分類とともにコアゲノム系統学をGigiツリーを用いて1つのプロットにプロットする。次に、前述のパラメータを使用してGigiツリー内の図のサイズを最適化します。変数を集計するか、遺伝子の存在や不在などの二項分類を使用して、視覚化を最適化します。
サルモネラ・エンテリカ系統の階層的集団構造をコアゲノム系統学との関連で調べた。次に、すべての階層遺伝子型の相対頻度を使用して、全体的な分布と最も頻繁に観察された分類を評価しました。頻度の低いST系統は、データの視覚化を容易にするために他のSTとして集約された。
同様に、頻度の低いcgMLST変異体を他のcgMLSTとして集約した。ST間の祖先関係は、BAPS1サブグループまたはハプロタイプによるST系統の相対頻度を評価することによって、ネストされたアプローチを用いて調べられた。AMR遺伝子座を分化するST系統の相対頻度を評価して、血清型ニューポート集団構造にリンクされた固有の補助ゲノムシグネチャを同定した。
結果では、MDFAおよびAAC6IAA遺伝子座は、血清ニューポート集団によって祖先的に獲得されたように見えたが、ST45は多剤耐性であると予測されている。ST45と比較すると、ST5およびST118などの他の主要なST系統は、多剤感受性である可能性がより高い。さらに、系統学にアンカーされたビジュアライゼーションを使用して、階層的な集団構造データを体系的に統合しました。
この分析プロトコルは、細菌集団の大規模なデータマイニングの基礎を提供します。それが可能にするのは、ProkEvoを使用して遺伝子型を大規模にマッピングおよび追跡することですが、遺伝子型情報に関連する代謝経路および病原性因子の分布の探索など、他の質問に答えるために拡張することもできます。つまり、関心のある特定の遺伝子型に関連付けられている表現型を予測できます。
ここで説明するプロトコルは、研究者が集団ゲノミクスの分野における新しい疑問を探求し、病原性および非病原性細菌種の進化的および生態学的パターンを推測するための道を確実に開きます。