細菌集団における階層遺伝子型とアクセサリゲノム遺伝子座のヒューリスティックマイニング

Natasha Pavlovikj; Joao Carlos Gomes-Neto; Andrew K. Benson

doi:10.3791/63115

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

Method Article

細菌集団における階層遺伝子型とアクセサリゲノム遺伝子座のヒューリスティックマイニング

DOI:

10.3791/63115

⸱

December 7th, 2021

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*²^,³, Andrew K. Benson²^,³

¹Department of Computer Science and Engineering, University of Nebraska-Lincoln, ²Department of Food Science and Technology, University of Nebraska-Lincoln, ³Nebraska Food for Health Center, University of Nebraska-Lincoln

* これらの著者は同等に貢献しました

Please note that all translations are automatically generated. Click here for the English version.

要約

この分析計算プラットフォームは、細菌集団ゲノミクスに関心のある微生物学者、生態学者、疫学者に実用的なガイダンスを提供します。具体的には、ここで提示された研究は、i)階層遺伝子型の系統発生誘導マッピングを実行する方法を示した。ii)遺伝子型の周波数ベースの分析;iii)親族関係とクローン性分析iv)系統鑑別補助遺伝子座の同定。

要約

細菌の全ゲノムシーケンシング(WGS)の日常的かつ体系的な使用は、公衆衛生研究所および規制当局によって実施される疫学的調査の精度および分解能を向上させている。公開されている大量のWGSデータは、病原性集団を大規模に研究するために使用することができる。最近、細菌のWGSデータを用いた再現性、自動化、スケーラブルな階層ベースの集団ゲノム解析を可能にするために、ProkEvoと呼ばれる自由に利用可能な計算プラットフォームが公開されました。ProkEvoのこの実装は、集団の標準的な遺伝子型マッピングと、生態学的推論のためのアクセサリーゲノムコンテンツのマイニングを組み合わせることの重要性を実証しました。特に、ここで強調した研究は、Rプログラミング言語を使用した母集団スケールの階層分析にProkEvo派生出力を使用しました。主な目的は、微生物学者、生態学者、疫学者に実用的なガイドを提供することでした。ii)生態学的適合性の代理としての遺伝子型の頻度分布を評価すること。iii)特定の遺伝子型分類を用いて親族関係および遺伝的多様性を決定すること。iv)アクセサリー遺伝子座を区別する系統をマップする。再現性と移植性を高めるために、Rマークダウンファイルを使用して分析アプローチ全体を実証しました。サンプルデータセットには、人獣共通感染症の食品媒介病原体 サルモネラ・ ニューポートの2,365の分離株からのゲノムデータが含まれていました。階層的遺伝子型(Serovar -> BAPS1 -> ST -> cgMLST)の系統発生に基づくマッピングは、集団の遺伝子構造を明らかにし、配列型(ST)を分化遺伝子型の要石として強調した。最も優勢な3つの系統にわたって、ST5とST118はクローン性の高いST45系統型よりも最近になって共通の祖先を共有した。STベースの相違は、補助抗菌薬耐性(AMR)遺伝子座の分布によってさらに強調された。最後に、系統学にアンカーされたビジュアライゼーションを使用して、階層的な遺伝子型とAMRコンテンツを組み合わせて、血縁関係構造と系統特異的なゲノムシグネチャを明らかにしました。この分析アプローチを組み合わせることで、汎ゲノム情報を使用してヒューリスティック細菌集団ゲノム解析を実施するためのガイドラインがいくつか提供されます。

概要

公衆衛生研究所および規制当局による日常的なサーベイランスおよび疫学的調査の基礎としての細菌全ゲノムシーケンシング(WGS)の使用の増加は、病原体の発生調査を大幅に強化した1,2,3,4。その結果、大量の非同定WGSデータが現在公開されており、複数の貯水池、地理的領域、および環境の種類にわたる集団構造、遺伝子型頻度、および遺伝子/対立遺伝子頻度に基づく研究を含む、病原性種の集団生物学の側面を前例のない規模で研究するために使用することができます⁵.最も一般的に使用されるWGS誘導疫学的調査は、共有コアゲノムコンテンツのみを使用した分析に基づいており、共有(保存された)コンテンツのみが遺伝子型分類(例えば、バリアント呼び出し)に使用され、これらのバリアントは疫学的分析およびトレースの基礎となる¹、²^、⁶^、⁷.典型的には、細菌コアゲノムベースのジェノタイピングは、7〜数千の遺伝子座⁸^、⁹^、¹⁰を用いてマルチ遺伝子座配列タイピング(MLST)アプローチを用いて実施される。これらのMLSTベースの戦略は、事前に組み立てられたまたは組み立てられたゲノム配列を高度にキュレーションされたデータベースにマッピングし、それによって対立遺伝子情報を疫学的および生態学的分析のための再現可能な遺伝子型単位に組み合わせることを包含する^11,12。例えば、このMLSTベースの分類は、低レベルの配列タイプ(ST)またはST系統(7遺伝子座)と、より高いレベルのコアゲノムMLST(cgMLST)バリアント(〜300〜3,000遺伝子座)の2つのレベルの分解能で遺伝子型情報を生成できます¹⁰。

MLSTベースの遺伝子型分類は、実験室間で計算上移植性が高く、再現性が高いため、細菌種レベル^13,14の下の正確なサブタイピングアプローチとして広く受け入れられています。しかしながら、細菌集団は、種固有の様々な程度のクローナリティ(すなわち、遺伝子型の均質性)、遺伝子型間の階層的親族関係の複雑なパターン15,16,17、および付属ゲノム含有量の分布における広範囲の変動^18,19によって構造化されている。.したがって、より包括的なアプローチは、離散的な分類を超えてMLST遺伝子型に進み、異なる解像度のスケールでの遺伝子型の階層的関係を組み込み、アクセサリゲノムコンテンツを遺伝子型分類にマッピングし、集団ベースの推論を容易にする18,20,21。.さらに、解析は、遠縁の遺伝子型の間でも、付属ゲノム遺伝子座の遺伝の共有パターンに焦点を当てることもできる^21,22。全体として、この組み合わせアプローチは、集団構造と、地理空間的または環境的勾配間の特定のゲノム組成物(例えば、遺伝子座)の分布との間の関係の不可知論的尋問を可能にする。このようなアプローチは、特定の集団の生態学的特徴に関する基本的および実用的な情報の両方をもたらし、その結果、食用動物や人間などの貯水池全体の熱帯および分散パターンを説明することができる。

このシステムベースの階層的集団指向アプローチでは、識別可能なゲノムシグネチャを予測するのに十分な統計的検出力を得るために、大量のWGSデータが必要です。したがって、このアプローチには、何千もの細菌ゲノムを一度に処理できる計算プラットフォームが必要です。最近、ProkEvoが開発され、パンゲノムマッピング²⁰を含む統合的な階層ベースの細菌集団分析を可能にする、自由に利用可能で、自動化され、ポータブルで、スケーラブルなバイオインフォマティクスプラットフォームです。ProkEvoは、中規模から大規模の細菌データセットの研究を可能にしながら、ユーザーがカスタマイズできるテスト可能で推論可能な疫学的および生態学的仮説および表現型予測を生成するためのフレームワークを提供します。この研究は、ProkEvo 由来の出力ファイルを階層的な集団分類とアクセサリゲノムマイニングの分析と解釈のための入力として利用する方法に関するガイドを提供することで、そのパイプラインを補完します。ここで提示された症例研究は、 サルモネラ・エンテリカ 系統I人獣共通感染症血清Sの個体群を利用した。例としてニューポートは、微生物学者、生態学者、疫学者に、i)階層遺伝子型をマッピングするために自動化された系統発生依存アプローチを使用する方法についての実用的なガイドラインを提供することを特に目的としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。より広義には、この分析アプローチは、標的種に関係なく進化的および生態学的パターンを推測するために使用できる規模で集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供する。

Access restricted. Please log in or start a trial to view this content.

プロトコル

1. 入力ファイルの準備

メモ: プロトコルはこちらから入手できます - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code。このプロトコルは、研究者がこのFigshareリポジトリで利用可能な必要な出力を得るためにProkEvo(または同等のパイプライン)を特に使用していることを前提としています(https://figshare.com/account/projects/116625/articles/15097503 - ログイン資格情報が必要です - ユーザーはファイルにアクセスするために無料のアカウントを作成する必要があります)。注目すべきは、ProkEvoはNCBI-SRAリポジトリからゲノム配列を自動的にダウンロードし、入力²⁰としてゲノム同定のリストを含む.txtファイルと、 Sに関するこの作業に使用されたファイルのみを必要とすることです。ニューポートUSA分離株は、ここ(https://figshare.com/account/projects/116625/articles/15097503?file=29025729)で提供されています。この細菌ゲノミクスプラットフォームをインストールして使用する方法の詳細については、こちら(https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)^{20を参照してください。}

前述のようにコアゲノム系統発生を生成する^20, これは、バイオインフォマティクスプラットフォーム²⁰の一部ではない.FastTreeは、入力ファイルとしてRoary²⁴コアゲノムアライメントを必要とします。系統発生ファイルの名前は newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690) です。
サルモネラ菌およびcgMLSTバリアント呼び出しデータの血清変数分類に関する情報を含むSISTR²⁵出力を生成します(sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699)。
サブグループまたはハプロタイプ(fastbaps_partition_baps_prior_l6.csv〜https://figshare.com/account/projects/116625/articles/15097503?file=29025684)へのゲノムのBAPSレベル1〜6分類を含むfastbaps ^26,27によってBAPSファイルを生成する。
MLSTプログラム(https://github.com/tseemann/mlst)²⁸(salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696)を用いて、MLSTベースのゲノムのSTへの分類を生成する。
ゲノムごとにマッピングされたAMR遺伝子座を含む https://github.com/tseemann/abricate ファイルとしてABRicate(.csv)²⁹出力を生成します(sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693)。
注:ユーザーはProkEvoバイオインフォマティクスパイプラインの特定の部分をオフにすることができます(詳細については、こちらを確認してください - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo)。ここで紹介する分析アプローチは、バイオインフォマティクスパイプラインの実行後に集団ベースの分析を行う方法のガイドラインを提供します。

2. 統計ソフトウェアと統合開発環境 (IDE) アプリケーションをダウンロードしてインストールする

Linux、Mac、またはPC³⁰用のRソフトウェアの最新の無料で利用可能なバージョンをダウンロードしてください。デフォルトのインストール手順に従います。
RStudioデスクトップIDEの最新の無料版をここ^{からダウンロードしてください 31}.デフォルトの手順に従ってインストールします。
注: 次のステップは、コード使用率の詳細情報を含む、使用可能なスクリプトに含まれており、この作業 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) で提示された出力と数値を生成するために順番に実行する必要があります。ユーザーは、Pythonなどのこの分析/統計分析を実行するために別のプログラミング言語を使用することを決定できます。その場合は、スクリプトのステップをフレームワークとして使用して、分析を実行します。

3. データサイエンスライブラリのインストールとアクティベーション

分析の最初のステップとして、すべてのデータサイエンスライブラリを一度にインストールします。スクリプトを再実行する必要があるたびにライブラリをインストールしないでください。ライブラリのインストールには、install.packages() 関数を使用します。または、IDE 内の 「パッケージ」 タブをクリックして、パッケージを自動的にインストールすることもできます。必要なすべてのライブラリをインストールするために使用されるコードは、ここに示されています。
# Tidyverseをインストールする
install.packages("tidyverse")
# スキムルのインストール
install.packages("skimr")
# ビーガンをインストールする
install.packages("vegan")
# フォーキャットをインストールする
install.packages("forcats")
# ナニアールのインストール
install.packages("naniar")
# ggpubr をインストールする
install.packages("ggpubr")
# ggrepelをインストールする
install.packages("ggrepel")
# 再形成2をインストールする
install.packages("reshape2")
# RColorBrewerをインストールする
install.packages("RColorBrewer")
# ggtreeをインストールする
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ggtree")
#ggtreeのインストールはインストールに関する質問を促します - 答えはすべての依存関係をインストール/更新するための "a"です
インストール直後に、スクリプトの先頭にある library() 関数を使用して、すべてのライブラリまたはパッケージをアクティブ化します。必要なすべてのパッケージをアクティベートする方法のデモを次に示します。
# ライブラリとパッケージをアクティベートする
ライブラリ(整頓)
ライブラリ(スキムル)
図書館(ビーガン)
ライブラリ(フォーキャット)
図書館(ナニアル)
ライブラリ(グツリー)
ライブラリ(グパブ)
ライブラリ(グレペル)
ライブラリ(リシェイプ2)
ライブラリ(RColorBrewer)
次のように、コードチャックで {r, include = FALSE} を使用して、ライブラリとパッケージのインストールとアクティブ化に使用されるコードの出力を抑制します。
''' {r, include = FALSE}
# Tidyverseをインストールする
install.packages("tidyverse")
```
注: この手順はオプションですが、最終的な html、doc、または pdf レポートに不要なコードのチャンクが表示されないようにします。
すべてのライブラリの特定の機能の簡単な説明と、さらに情報を収集するための便利なリンクについては、ステップ 3.4.1 から 3.4.11 を参照してください。
1. Tidyverse - データ入力、視覚化、解析と集計、統計モデリングなど、データサイエンスに使用されるこのパッケージのコレクションを使用します。典型的には、ggplot2(データ可視化)およびdplyr(データラングリングおよびモデリング)は、このライブラリ³²に存在する実用的なパッケージである。
2. skimr - このパッケージは、欠損値³³ の識別を含むデータフレームの要約統計を生成するために使用します。
3. ビーガン - 多様性に基づく統計(アルファおよびベータ多様性など)の計算など、コミュニティ生態学の統計分析にこのパッケージを使用します³⁴。
4. forcats - このパッケージを使用して、分類の順序変更などのカテゴリ変数を操作します。このパッケージは Tidyverse ライブラリ³² の一部です。
5. naniar - このパッケージを使用して、viss_miss() 関数³⁵ を使用して、データフレーム内の変数間の欠損値の分布を視覚化します。
6. ggtree - 系統樹³⁶ の可視化にこのパッケージを使用します。
7. ggpubr - ggplot2 ベースのビジュアライゼーションの品質を向上させるために、このパッケージを使用します³⁷.
8. ggrepel - グラフ³⁸ 内のテキストラベル付けにこのパッケージを使用します。
9. reshape2 - このパッケージの melt() 関数を使用して、データフレームをワイドフォーマットからロングフォーマット³⁹ に変換します。
10. RColorBrewer - ggplot2ベースのビジュアライゼーション⁴⁰の色を管理するためにこのパッケージを使用してください。
11. 探索的データ分析には、head() を使用してデータフレーム内の最初のオブザベーションをチェックし、tail() でデータフレームの最後のオブザベーションをチェックし、is.na() でデータフレーム全体の欠損値を持つ行数をカウントし、dim() でデータセット内の行と列の数をチェックし、table() で変数全体のオブザベーションをカウントします。と sum() を使用して、オブザベーションまたはインスタンスの総数をカウントします。

4. データ入力と分析

メモ: この分析の各ステップの詳細については、使用可能なスクリプト (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) を参照してください。ただし、考慮すべき重要な点がいくつかあります。

read_csv() 関数を使用して、すべての遺伝子型分類 (serovar、BAPS、ST、および cgMLST) を含むすべてのゲノムデータ入力を行います。
複数データセットの集計の前に、名前を変更し、新しい変数を作成し、各データセットから目的の列を選択します。
独立したデータセットから欠損値を削除しないでください。すべてのデータセットが集計されるまで待って、欠損値を変更または除外します。データセットごとに新しい変数が作成されると、欠損値はデフォルトで新しく生成された分類の 1 つに分類されます。
ハイフンや尋問マークなどの誤った文字がないか確認し、NA (該当なし) に置き換えます。欠損値についても同じことを行います。
遺伝子型の階層的順序(血清->BAPS1->ST->cgMLST)に基づいてデータを集約し、個々のゲノム同定に基づいてグループ化する。
複数の戦略を使用して欠損値をチェックし、このような不整合を明示的に処理します。ゲノムを削除するか、分類が信頼できない場合にのみデータから単離してください。それ以外の場合は、分析の実行を検討し、ケースバイケースで NA を削除します。
注: このような値を 先験的に処理する戦略を確立することを強くお勧めします。すべてのゲノムや、変数全体で欠損値を持つ分離株を削除しないでください。例えば、ゲノムは、cgMLSTバリアント番号を有さずにST分類を有し得る。その場合でも、ゲノムはSTベースの解析に引き続き使用できます。
すべてのデータセットが集計されたら、それらをフォローアップ分析の複数の場所で使用できるデータフレーム名またはオブジェクトに割り当てて、用紙内のすべての図に対して同じメタデータファイルを生成する必要がなくなります。

5. 分析の実施と可視化の生成

注: すべての解析と視覚化の作成に必要な各ステップの詳細な説明は、このホワイトペーパーのマークダウンファイル (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code) に記載されています。各図のコードはチャンクで区切られ、スクリプト全体を順番に実行する必要があります。さらに、各メイン図と補足図のコードは、個別のファイルとして提供されます ( 補足ファイル 1 および 補足ファイル 2 を参照)。ここでは、各主要図と補足図を生成する際に考慮すべきいくつかの重要なポイント(コードスニペット付き)を示します。

ggtreeを使用して、遺伝子型情報とともに系統樹をプロットします(図1)。
1. xlim() 関数と gheatmap(width = ) 関数内の数値をそれぞれ変更することで、リングの直径と幅を含む ggtree 図形のサイズを最適化します (以下のコード例を参照)。
  tree_plot <- ggtree(ツリー、レイアウト= "円形") + xlim(-250, NA)
  figure_1 <- ギートマップ(tree_plot、d4、オフセット=.0、幅=20、コルネーム=FALSE)
  注:系統学的プロットに使用できるプログラムのより詳細な比較については、この研究²⁰をチェックしてください。この研究は、データセットのサイズを小さくするなど、ggtreeベースのビジュアライゼーションを改善するための戦略を特定しようとする試みを強調しましたが、枝の長さとツリートポロジはphandango⁴¹と比較してそれほど明確に区別できませんでした。
2. すべてのメタデータをできるだけ少ないカテゴリに集約して、系統樹 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd) を使用して複数のデータレイヤーをプロットするときに、色付けパネルの選択を容易にします。関心のある質問とドメインの知識に基づいてデータ集約を実行します。
棒グラフを使用して相対度数を評価します(図2)。
1. ST 系統と cgMLST バリアントの両方のデータを集約して、視覚化を容易にします。データ集約に使用する経験的または統計的なしきい値を選択しながら、質問されている質問を検討します。
2. カットオフを決定するためにSTリネージュの周波数分布を検査するために使用できるコード例については、以下を参照してください。
  st_dist <- d2 %>% group_by(ST) %>% # ST 列のグループ
  count() %>% # オブザベーションの数を数えます
  arrange(desc(n)) # カウントを降順に並べる
3. マイナー(低周波)STを集約する方法を示すコード例については、以下を参照してください。以下に示すように、5、31、45、46、118、132、または 350 として番号が付けられていない ST は、「その他の ST」としてグループ化されます。cgMLST バリアント (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd) にも同様のコードを使用します。
  d2$st <- ifelse(d2$ST == 5, "ST5", # マイナー S が [その他] として集計される新しい ST 列を作成します。
  ifelse(d2$ST == 31, "ST31",
  ifelse(d2$ST == 45, "ST45",
  ifelse(d2$ST == 46, "ST46",
  ifelse(d2$ST == 118, "ST118",
  ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs"))))))))
ネストされたアプローチを使用して、各 BAPS1 サブグループ内の各 ST 系統の割合を計算し、祖先的に関連している (同じ BAPS1 サブグループに属する) ST を特定します (図 3)。以下のコードは、BAPS1 サブグループ (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd) 全体で ST ベースの比率を計算する方法を示しています。
baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
select(baps_1, ST) %>% # baps_1列と ST 列の選択
mutate(ST = as.numeric(ST)) %>% # ST カラムを数値に変更
drop_na(baps_1、ST) %>% # NA のドロップ
group_by(baps_1、ST) %>% # baps_1とSTによるグループ化
summarise(n = n()) %>% # 観測値を数える
mutate(prop = n/sum(n)*100) # 比率を計算する
Resfinderベースの遺伝子アノテーション結果を用いて、ST系統にわたるAMR遺伝子座の分布をプロットする(図4)。
注:レスファインダーは生態学的および疫学的研究で広く使用されています⁴²。タンパク質コード遺伝子の注釈は、データベースがキュレーションおよび更新される頻度によって異なります。提案されたバイオインフォマティクスパイプラインを使用する場合、研究者は、異なるデータベース²⁰にわたってAMRベースの遺伝子座分類を比較することができる。継続的に更新されているデータベースを確認してください。誤呼び出しを避けるために、古いデータベースや厳選されていないデータベースは使用しないでください。
1. 経験的または統計的しきい値を使用して、最も重要なAMR遺伝子座を除外し、視覚化を容易にします。ここに示すような、すべてのST系統にわたるすべてのAMR遺伝子座の計算された比率を含む生の.csvファイルを提供します(https://figshare.com/account/projects/116625/articles/15097503?file=29025687)。
2. 次のコードを使用して、各STのAMR比率を計算します(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd)。
  # ST45の計算
  d2c <- data6 %>% filter(st == "ST45") # ST45データを最初にフィルタリングする
  #ST45の場合、AMR遺伝子座の比率を計算し、比率を10%より大きくするだけです
  d3c <- d2c %>% 選択(id, gene) %>% # 列の選択
  group_by(id, gene) %>% # id と遺伝子によるグループ化
  要約(カウント = n()) %>% # 観測値のカウント
  mutate(count = replace(count, count == 2, 1)) %>% # 2 に等しいカウントを 1 に置き換えて、各遺伝子のコピーを 1 つだけ考慮する (重複は信頼できないかもしれない) が、研究者はそれらを除外するか保持するかを決定できる。研究者がそれらを除外したい場合は、 filter(count != 2)関数を使用するか、そのままにしておきます
  filter(count <= 1) # フィルタカウントが 1 以下
  d4c <- d3c %>% group_by(遺伝子) %>% # 遺伝子別群
  要約(値 = n()) %>% # 観測値のカウント
  mutate(total = table(data1$st)[6]) %>% # st mutate(prop = (value/total)*100) # 比率を計算する
  d5c <- d4c %>% mutate(st = "ST45") # st カラムを作成し、ST 情報を追加する
3. すべてのSTについて計算が完了したら、次のコードを使用してデータセットを1つのデータフレームとして結合します。
  # データセットの結合
  d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # 行バインドデータセット
4. 計算された比率を含む.csvファイルをエクスポートするには、次のコードを使用します。
  # STおよびAMR遺伝子座情報を含むデータテーブルをエクスポートする
  abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
5. ST系統にわたるAMRベースの分布をプロットする前に、次に示すように、しきい値に基づいてデータをフィルタリングして視覚化を容易にします。
  # 10%以上の比率でAMR遺伝子座をフィルタリングする
  d7 <- d6 %>% filter(prop >= 10) # 経験的または統計的にしきい値を決定する
ggtreeを使用して、コアゲノム系統発生を階層的な遺伝子型分類およびAMRデータとともに単一のプロットにプロットします(図5)。
1. 上記のパラメータを使用してggtree内の図のサイズを最適化します(ステップ5.1.1を参照)。
2. 変数を集計するか、遺伝子の存在や不在などの二項分類を使用して、視覚化を最適化します。プロットに追加されるフィーチャが多いほど、色付けの選択プロセスが難しくなります (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd)。
  注: 補足図 - コード全体の詳細な説明は、こちら (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) で確認できます。
ggplot2の散布図をデータ集約なしで使用して、ST系統またはcgMLSTバリアントの分布を表示しながら、最も頻度の高い遺伝子型を強調します(補足図1)(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd)。
入れ子になった解析を行い、STベースの遺伝的多様性を垣間見ることができるように、cgMLSTバリアントの割合を通じてST系統の組成を評価し、最も頻度の高いバリアントとその遺伝的関係を特定します(つまり、同じSTに属するcgMLSTバリアントは、異なるSTに属するものよりも最近祖先を共有していました)(補足図2) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd)。
群集生態学メトリック、すなわちシンプソンの多様性のD指数を使用して、主要なST系統⁴³ の各々のクローン性または遺伝子型多様性の程度を測定する(補足図3)。
1. BAPSレベル1~6およびcgMLSTを含む遺伝子型分解能の異なるレベルで、ST系統全体の多様性の指標を計算します。以下は、遺伝子型分解能の BAPS レベル 1 (BAPS1) でこの計算を行う方法のコード例です。
  # BAPS レベル 1 (BAPS1)
  # ST と BAPS1 を NA で削除し、ST と BAPS1 でグループ化し、シンプソンのインデックスを計算します。
  baps1 <- data6 %>%
  select(st, BAPS1) %>% # 列の選択
  drop_na(st, BAPS1) %>% # ドロップ NA
  group_by(st, BAPS1) %>% # 列によるグループ化
  summarise(n = n()) %>% # 観測値を数える
  変異(シンプソン=多様性(n、"シンプソン")))%>% #多様性を計算する
  group_by(st) %>% # 列ごとにグループ化
  summarise(simpson = mean(simpson)) %>% # インデックスの平均を計算する
  melt(id.vars=c("st"), measure.vars="simpson",
  variable.name="index", value.name="value") %>% # 長いフォーマットに秘密裏に
  mutate(strat = "BAPS1") # strat カラムを作成する
  注:より遺伝的に多様な集団(すなわち、遺伝子型分解能の異なる層におけるより多くの変異体)は、cgMLSTレベルでより高い指標を有し、BAPSレベル2から6(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd)に向かう指数ベースの値を増加させる。
すべての分解能レベルにおけるBAPSサブグループの相対頻度(BAPS1-6)をプロットすることによって、ST系統の遺伝子型多様性の程度を調べる(補足図4)。母集団が多様であればあるほど、BAPS サブグループ (ハプロタイプ) の分布はまばらになり、BAPS1 (低レベルの分解能) から BAPS6 (より高いレベルの分解能) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd) に移行します。

Access restricted. Please log in or start a trial to view this content.

結果

集団ゲノミクス解析に計算プラットフォームProkEvoを利用することで、細菌WGSデータマイニングの最初のステップは、コアゲノム系統発生の文脈で階層的な集団構造を調べることからなる(図1)。 Sの場合。 エンテリカ 系統Iは、Sで例示される。ニューポートデータセットは、母集団が以下のように階層的に構造化されている:血清(最低レベルの分解?...

Access restricted. Please log in or start a trial to view this content.

ディスカッション

システムベースのヒューリスティックおよび階層的集団構造解析の利用は、ユニークな生態学的および疫学的パターンを説明する可能性のある細菌データセット内の新規ゲノムシグネチャを特定するためのフレームワークを提供する²⁰。さらに、集団構造へのアクセサリゲノムデータのマッピングは、貯水池6、²⁰、²¹^、...

Access restricted. Please log in or start a trial to view this content.

開示事項

著者らは、競合する利益は存在しないと宣言している。

謝辞

この研究は、UNL-IANR農業研究部門と国立抗菌薬耐性研究教育研究所、および食品科学技術局(UNL)のネブラスカ州食品保健センターから提供された資金によって支援された。この研究は、ネブラスカ研究イニシアチブの支援を受けているUNLのHolland Computing Center(HCC)を利用することによってのみ完了することができました。また、HCCを通じて、米国国立科学財団と米国エネルギー省の科学局が支援するオープンサイエンスグリッド(OSG)が提供するリソースにアクセスできることにも感謝しています。この研究は、国立科学財団(助成金#1664162)から資金提供を受けているPegasus Workflow Management Softwareを使用した。

Access restricted. Please log in or start a trial to view this content.

資料

Name	Company	Catalog Number	Comments
amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

参考文献

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438(2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504(2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776(2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261(2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595(2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345(2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376(2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280(2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490(2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101(2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686(2019).
rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533(2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023(2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765(2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524(2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15(2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Access restricted. Please log in or start a trial to view this content.

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

178

This article has been published

Video Coming Soon

Keep me updated: