Method Article
この記事では、研究者が分析法やスペクトルデータに簡単にアクセスできるように設計されたケモインフォマティクスアプリケーションである、ウェブベースの分析法およびオープンスペクトルデータベースであるAMOSについて説明します。
分析法は、詳細な規制文書からより単純な要約まで多岐にわたります。規制方法には、適切な分析種、サポートマトリックス、必要な試薬、統計的パフォーマンス、ラボ間バリデーション、およびその他の詳細に関する情報が含まれる場合があります。通常、サマリーには、試薬、装置、および多くの場合、分析物の短いリストの一般的な概要が記載されています。米国環境保護庁(USEPA)、米国地質調査所(USGS)、米国農務省(USDA)、食品医薬品局(FDA)などの米国政府機関の分析方法により、詳細な手続き情報が得られます。Agilent、Shimadzu、Thermo Fisher Scientific、Sciexなどの機器ベンダーも、要約方法と見なされる可能性のある数百のアプリケーションノートへのアクセスを提供しています。この研究では、分析法の文書から化学物質を抽出し、識別子(名前および/またはChemical Abstracts Service 登録番号(CASRN))を化学構造にマッピングした、ケモインフォマティクス対応のデータベースを開発しました。得られたデータベースには約 7,000 のメソッドが含まれており、識別子、化学構造、構造類似性で検索でき、約 100 万のパブリックドメインスペクトル(LC/MS、GC/MS、NMR、IR)が補完されています。このアプリケーションは、分析メソッドの検索と、分析種、機能的使用法、メソッドソース、およびその他の関連メタデータに基づくフィルタリングをサポートしています。
Webベースの化学データをコミュニティに配信することは、PubChem1、ChemSpider2、CompTox Chemicals Dashboard(CCD)3などのアプリケーションによって実証されています。分析法の詳細を、ジャーナル論文に掲載されたもの、装置ベンダーがテクニカルアプリケーションノートとして発表したもの、政府機関が標準的な操作手順書や規制方法として提供したもの、国際標準化機構(ISO)などの標準化団体が発行したものなど、さまざまな形で流通させています。これらの情報源では、数万種類の化学物質がさまざまな条件と分析技術の下で研究されてきました。この広範な情報源は、特定のマトリックス(血液など)中の単一の化学物質の定量化から、特定の作物中の農薬とその残留物の混合物、飲料水で特定された数百の化学物質まで、さまざまな物質を網羅しています。多くの分析方法は公開検索エンジン で 見つけることができますが、すべてが無料で利用できる、またはオープンアクセスであるわけではありません。
関心のある特定の情報を見つけるのは難しい場合があります。汎用検索エンジンは化学データ用に最適化されておらず、そのランキングアルゴリズムは、狭い視聴者を対象とした高品質のコンテンツを覆い隠す可能性があります。ジャーナルのウェブサイトを横断して検索すると、より的を絞った結果が得られる可能性がありますが、アクセスが制限されていることが多く、公開されている抄録のみであるため、メソッドの有用性を評価することは困難です。さらに、サンプルマトリックス、検出限界、定量などの重要なパラメーターは、構造化された形式で保存されていないことがよくあります。もう1つの大きな課題は、単一の化学物質に関連する化学物質の識別子、名前、および同義語の多様性と不一致にあります。構造化された分析法データが不足しているため、数十年にわたって蓄積された分析化学の知識や関連論文を活用できるソフトウェアツールの開発が制限されています。
これらの課題と制限の結果として、分析手法を調和させ、検索するためのキュレーションされた化学指向のアプリケーションが必要とされています。これは、他の場所では特定できなかったものです。このギャップに対処するために、米国環境保護庁は、AMOS、Analytical Methods and Open Spectraデータベース、およびWebベースのアプリケーションを開発しました。AMOSは現在、分析方法、さまざまな分析スペクトル、およびファクトシートと総称される広範なカテゴリの補足文書の3種類のデータレコードを収集し、整理しています。各レコードは、分析法のターゲット化学分析種および試薬にリンクされています。データは、テキストクエリ、化学構造、構造的またはスペクトル的類似性など、複数の方法で検索できます。
AMOS アプリケーションは、主にオープン・アクセスおよびオープン・データ・レコードの提供に重点を置いています。可能な場合、データベース内のレコードは元のソースにハイパーリンクされます。オープンライセンスではないため、データベースに直接保存されていないレコードは、他の方法が利用可能であれば、URL を介して 統合およびアクセスできます。これは、ペイウォールの背後にある分析方法(通常はEPAがアクセスできるジャーナルまたは標準化団体からのもの)と、利用可能だがログインアクセスが必要なスペクトルの2種類のレコードに適用されます。
データソースはレコードの構造によって異なるため、コンテンツを組み立てて調和させるには、抽出とキュレーションに多大な労力が必要です。ほとんどのレコードは物質識別子(CASRN、DTXSID、InChIKey、一般名など)を提供し、多くの場合、抽出は簡単です。ただし、これらの識別子を化学構造や物質の詳細と照合することは複雑になる可能性があります。一部の識別子は、EPAのDistributed Structure-Searchable Toxicity(DSSTox)データベース4のエントリと直接一致させることができます。一致が見つからない場合は、識別子が既存の物質にリンクされるか、新しい物質が登録されます。その結果、AMOSイニシアチブにより、DSSToxデータベースが拡張され、CompTox Chemicals Dashboard3などの他のEPAデータベースやアプリケーションをサポートする基本データが改善されました。
特定の貴重な追加情報については、手動キュレーションが必要です。分析法では、検出限界や定量限界、サンプルマトリックス、分析方法などの実験パラメーターが標準化された方法で整理されておらず、自動化されたツールはストレージに一貫性がないため、これらの情報を識別できません。
記録情報の 2 つの要素、つまりサンプルに関連付けられた培地と分析種の機能的使用は、汚染物質による危険性と曝露の懸念を監視するための継続的な取り組みに大きく関連しています。そのため、レコードデータ内でこれらの属性を構造化することにかなりの注意が払われました。このプロジェクトのために、機能的使用分類のオントロジーが開発されました。このオントロジーは、物質の機能的使用を、より一般的な「親」の使用からより具体的な「子」の使用まで、階層構造に整理します。オントロジーは、アプリケーションの観点から物質の調査を促進し、曝露とハザードを評価する手段として機能的使用を強調する研究イニシアチブをサポートします5,6。さらに、分析法は、EPA のマルチメディアモニタリングデータベース(MMDB)7 で指定されているように、サンプルの整合培地カテゴリーに従って標識しました。この分類により、特定の媒体中での化学物質の産出量に基づいて化学物質を検索できるようになり、特定の環境サンプルや生物学的サンプル中の化学物質の検出に焦点を当てたソリューションの開発が効率化されます。これらのアノテーションにより、EPA内で開発中の曝露指向および危険指向のワークフローへのAMOSの統合が強化されます。
スペクトルを組み立てる際には、さまざまなファイル形式(一部は名目上標準化されているだけ)を処理し、付随するメタデータの解析には、多くの場合、カスタム処理が必要になります。スペクトルコレクションがパブリケーションにリンクされている場合、パブリケーション内に文書化された詳細をデータの読み込みのために手動で抽出する必要があります。この取り組みにより、これらの異なるスペクトルを統合して構造化するデータベースが生まれ、研究者は将来の取り組みで面倒なキュレーションの必要性を回避することができました。
2025年3月現在、データベースには約935,000のスペクトルが含まれており、そのうち約99%が質量スペクトルと、NMR(~2,000)とIR(~400)の小さなコレクションです。さらに、約 770,000 の外部リンク スペクトル (SpectraBase データベース8 に接続)、~36,000 のファクト シート、~7,400 の分析方法があります。このアプリケーションに統合されている物質は、CompTox Chemicals Dashboard(CCD)に組み込まれており、120万を超える物質を含むDSSToxデータベースの物質のサブセットです。
AMOS の機能の大部分は、特定の物質のレコードの検索、特定の物質のコレクションの検索、レコードのカテゴリ間の検索の 3 つのカテゴリに分類できます。これらの機能の個々のページはすべて、各ページの上部にあるナビゲーションバーからアクセスできます。アプリケーションは現在、AMOS モジュール を介して https://hcd.rtpnc.epa.gov/#/ でデプロイされています。この調査で使用したソフトウェアツールは、 資料の表に記載されています。
1. 特定物質の記録の検索
図 1: コレステロールを含むレコードの検索結果。 「cholesterol」を一般的に検索すると、テーブル内の一致するレコードのリストが表示されます (左)。選択したレコードのマススペクトルが右側に表示されます。 この図の拡大版を表示するには、ここをクリックしてください。
図2:バッチ検索インターフェース。 検索フィールドには、DTXSIDによって識別された2つの物質が含まれています。クエリにはデフォルトの検索オプションが選択されています。 この図の拡大版を表示するには、ここをクリックしてください。
図3:1P-LSDの構造検索結果。 この表は、構造的に類似した物質を含む方法をリストしています。選択した方法が右側に表示されます。表に太字のエントリは、1P-LSDがリストされているどの方法にも現れないことを示しています。 この図の拡大版を表示するには、ここをクリックしてください。
2. 物質の探索
図4:ClassyFire分類検索結果。 結果には、物質レベルの情報と分類グループごとのレコード数が含まれます。 この図の拡大版を表示するには、ここをクリックしてください。
図5:「trazine」の部分識別子検索結果。 検索では、優先名またはサブストリング「trazine」を含むシノニムを持つ物質が取得されます。3つの結果のうち2つは、同義語にのみ「trazine」を含み、好ましい名前は含まれていません。 この図の拡大版を表示するには、ここをクリックしてください。
3. レコードの検索
図6:フィルタリングされた分析方法のリスト。 この表は、分析種とマトリックスでろ過され、水中のPFAS(パーフルオロアルキル物質およびポリフルオロアルキル物質)に関連する方法のみが表示されます。対応するファクトシートのリストは、このレイアウトとよく似ています。 この図の拡大版を表示するには、ここをクリックしてください。
図7:スペクトル類似性の検索結果。 AMOS データベースからのカフェインスペクトルが入力として使用されます。類似スペクトルは物質ごとにグループ化され、最大類似性スコアは1.0です。ミラーリングされたプロットには、入力スペクトル (上) と選択したデータベース スペクトル (下) が表示されます。水色のピークは入力に固有で、オレンジ色のピークはデータベース一致に固有で、濃い青色のピークは共有されます。 この図の拡大版を表示するには、ここをクリックしてください。
図8:機能使用分類の視覚化。 階層構造は、カーソルが「Industrial Chemicals」ノード(黄色で囲まれた部分)の上に置かれた状態で表示されます。その子クラスは緑色で囲まれています。 この図の拡大版を表示するには、ここをクリックしてください。
図9:土壌三角プロットの視覚化。 プロットには、土壌サンプルの組成データが表示されます。右上のツールチップには、現在カーソルの下にある領域の正確な構成が表示されます。 この図の拡大版を表示するには、ここをクリックしてください。
上記のAMOSのスクリーンショットは、対象物質の検索とスペクトル、ファクトシート、メソッドの両方を含む、アプリケーションの個々の検索からの典型的な結果を示しています。データベースを調査するさまざまな方法は、データとそれらが関連する物質をより深く調査できる方法で、最も可能性が高く、最も有用な種類の検索をカバーすることを目的としています。
ユーザーの検索を支援するために、多くの機能は、利用可能なデータをより深く調査することを目的とした方法で相互接続されています。ワークフローの例として、機能使用分類の視覚化は、その機能クラスに関連する方法とファクトシートのビューにリンクしており、そこから物質のリストを抽出してバッチ検索に入力したり、個々のドキュメントを調べたり、それらのドキュメント内の個々の物質をさらに調査したりできます。分析法に含まれる多くの物質は、データベースにも実験用質量スペクトルがあるため、研究者は物質のカテゴリーから、特定の物質の存在をテストできる一連の方法とスペクトルにすばやく移行できます( 図9を参照)。
結果は、検索対象と実行される検索に大きく依存するため、アプリケーション全体の代表的な結果を定義することは困難です。全体として、ユーザーエクスペリエンスの観点から「成功」を説明する方が正確かもしれません。その場合、一般的に次のことが当てはまることが望まれます:検索とフィルタリングの方法(および異なる検索とフィルター間を移動する機能)は、ユーザーが必要な情報のサブセットを特定するのに効果的であること。ユーザーが見つけた結果が正確で有用であること。 図 10 は、AMOS の機能を示すワークフローの例を示しています。
図10:AMOS機能を示すワークフローの例。 ワークフローは、機能使用分類(呼吸器系薬剤)から始まり、血液中の呼吸器系薬剤に関連する方法をフィルタリングし、1 つの特定の方法を調べ、その方法に含まれる物質のスペクトルを特定します。 この図の拡大版を表示するには、ここをクリックしてください。
多くのプロジェクトやアプリケーションは、メソッド、ファクトシート、特定の種類のスペクトルなど、単一のタイプのレコードから情報を収集し、標準化することに重点を置いていますが、AMOSは、複数のレコードタイプにわたって大量の情報をコンパイルし、統合する最初のツールとして特定されています。これらの多様なソースからのデータの統合、調和、構造化により、分析化学方法論へのアクセスを必要とするワークフローに容易に組み込むことができるデータベースが実現します。いくつかの補完的な方法でデータベースを検索する機能により、複数のWebサイトやツールで大規模な手作業が必要になる可能性のある情報を効率的に取得できます。
一般公開に先立ち、AMOSの有用性は、EPAのスタッフが幅広いプロジェクトを支援するために使用することで実証されました。EPA は、ノンターゲット分析 10,11 に対する質量分析の応用に持続的な関心を持っており、複数のイニシアチブが AMOS の実験質量スペクトルを活用して、DSSTox 化学物質12,13 から生成された大規模な in silico スペクトルライブラリに対する検索を強化しています。他のプロジェクトでは、構造的類似性検索を使用して新しい方法を開発するための出発点を特定し、既存の方法を調べて検出限界と定量限界を評価し、方法にリンクされた化学物質のコレクションを分析して化学空間のカバレッジの範囲を評価しました。
AMOSの潜在的なトレーニングデータの集約は、ノンターゲット分析(NTA)ワークフローを推進するための主要なニーズである分析方法14の適合性の定量的モデルの開発をさらにサポートします。AMOS内のキュレーションの取り組みは、方法論的カバレッジ14に関連する化学空間をモデル化、探索、視覚化するイニシアチブも促進します。
AMOSのコア機能は成熟していますが、継続的な開発はユーザーからのフィードバックによって導かれます。現在のタスクには、追加データの組み込み、フィルタリングを強化するための追加のメタデータのキュレーション、検索機能の拡張などがあります。EPAの利害関係者と協力して、グラフィカルユーザーインターフェース(GUI)が非効率的である可能性のあるユースケースに対処するために、プログラムによるアクセスを可能にするアプリケーションプログラミングインターフェース(API)を開発中です。リリース ノート ページがアプリケーションに統合され、コードの更新を経時的に追跡および伝達できます。
現在、新しいデータレコードと化学物質は毎週追加されています。ただし、一般公開後はリリーススケジュールが遅くなることが予想されます。レコードと関連するメタデータの正確性を確保するために多大な努力が払われていますが、データの多くは公開データベースから取得されています。そのため、すべてのレコードを完全に検証することは不可能であり、ユーザーは絶対的なデータ精度が保証されないことに注意する必要があります。
本稿は、必ずしも米国環境保護庁の見解や政策を代表するものではありません。
著者らは、データベースの化学物質のキュレーションに尽力してくれたキュレーションチームに感謝し、AMOSの構築と展開における技術サポートを提供してくれたJoshua Powell氏、Asif Rashid氏、Freddie Valone氏に感謝しています。また、原稿の査読をしてくださったCharles Lowe氏にも感謝します。
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved