Method Article
В этой статье описывается AMOS, веб-база данных Analytical Methods and Open Spectra, приложение для химинформатики, предназначенное для предоставления исследователям легкого доступа к аналитическим методам и спектральным данным.
Аналитические методы могут варьироваться от подробных нормативных документов до более простых резюме. Методы регулирования могут включать информацию о поддающихся аналитах, поддерживаемых матрицах, требуемых реагентах, статистических характеристиках, межлабораторной валидации и других особенностях. Резюме обычно содержат общий обзор реагентов, приборов и часто краткий список аналитов. Аналитические методы, разработанные государственными органами США, включая Агентство по охране окружающей среды США (АООС США), Геологическую службу США (USGS), Министерство сельского хозяйства США (USDA), Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (FDA) и другие, предоставляют подробную процедурную информацию. Поставщики приборов, такие как Agilent, Shimadzu, Thermo Fisher Scientific, Sciex и другие, также предоставляют доступ к сотням указаний по применению, которые можно считать краткими методами. В рамках этого исследования была разработана база данных методов с поддержкой химинформатики, в которой химические вещества извлекаются из методических документов, а идентификаторы (названия и/или регистрационные номера Службы химических рефератов (CASRN)) сопоставляются с химическими структурами. Полученная база данных, содержащая около 7000 методов, доступна для поиска по идентификатору, химической структуре и структурному сходству, а также дополнена примерно одним миллионом спектров, находящихся в общественном достоянии (LC/MS, GC/MS, ЯМР и IR). Приложение поддерживает поиск аналитических методов и фильтрацию на основе аналитов, функционального использования, источников методов и других связанных метаданных.
Веб-доставка химических данных сообществу иллюстрируется такими приложениями, как PubChem1, ChemSpider2 и CompTox Chemicals Dashboard (CCD)3. Были предприняты усилия по распространению информации об аналитических методах, опубликованных в журнальных статьях, выпущенных поставщиками приборов в качестве технических указаний по применению, предоставленных государственными учреждениями в качестве стандартных операционных процедур или методов регулирования, а также выпущенных организациями по стандартизации, такими как Международная организация по стандартизации (ISO). Десятки тысяч химических веществ были изучены этими источниками в широком диапазоне условий и аналитических методов. Этот обширный массив источников охватывает различные вещества и включает в себя сценарии, варьирующиеся от количественной оценки одного химического вещества в конкретной матрице (например, крови) до смесей пестицидов и их остатков в конкретных культурах, до сотен химических веществ, идентифицированных в питьевой воде. Несмотря на то, что многие аналитические методы можно найти с помощью общедоступных поисковых систем, не все из них находятся в свободном доступе или открытом доступе.
Поиск конкретной информации, представляющей интерес, может быть сложной задачей. Поисковые системы общего назначения не оптимизированы для данных по химии, и их алгоритмы ранжирования могут скрывать высококачественный контент, предназначенный для узкой аудитории. Поиск на веб-сайтах журналов может дать более целенаправленные результаты, но доступ к ним часто ограничен, в открытом доступе находятся только рефераты, что затрудняет оценку полезности метода. Кроме того, критические параметры, такие как матрицы образцов, пределы обнаружения и количественная оценка, часто не хранятся в структурированном формате. Еще одна серьезная проблема заключается в вариациях и несогласованности химических идентификаторов, названий и синонимов, связанных с одним и тем же химическим веществом. Отсутствие структурированных данных методов ограничивает разработку программных инструментов, которые могли бы использовать накопленные за десятилетия знания в области аналитической химии и связанные с ними публикации.
В результате этих проблем и ограничений существует потребность в специально отобранном, ориентированном на химию приложении для гармонизации и поиска аналитических методов, которое не было выявлено в других местах. Чтобы восполнить этот пробел, Агентство по охране окружающей среды США разработало AMOS, базу данных аналитических методов и открытых спектров, а также веб-приложение. В настоящее время AMOS собирает и систематизирует три типа записей данных: аналитические методы, различные аналитические спектры и широкую категорию дополнительных документов, которые в совокупности называются фактологическими бюллетенями. Каждая запись связана с целевыми химическими аналитами и реагентами метода. Данные можно искать различными способами, в том числе по текстовым запросам, химической структуре и структурному или спектральному сходству.
Приложение AMOS в первую очередь ориентировано на предоставление открытого доступа и открытых данных. Там, где это возможно, записи в базе данных имеют гиперссылки на их первоисточники. Записи, не находящиеся под открытым лицензированием и, следовательно, не хранящиеся непосредственно в базе данных, по-прежнему могут быть интегрированы и доступны через URL, при условии, что они доступны в противном случае. Это относится к двум типам записей: аналитические методы, которые находятся за платным доступом, обычно из журналов или организаций по стандартизации, к которым EPA имеет доступ, и спектры, которые доступны, но требуют доступа для входа в систему.
Источники данных различаются по структуре записей, что требует значительных усилий по извлечению и курированию для сбора и гармонизации контента. Большинство записей содержат идентификаторы веществ (например, CASRN, DTXSID, InChIKey, общие названия), и во многих случаях извлечение является простым. Однако сопоставление этих идентификаторов с химическими структурами и деталями вещества может быть сложной задачей. Некоторые идентификаторы могут быть непосредственно сопоставлены с записями в базе данных EPA Distributed Structure-Searchable Toxicity (DSSTox)4; Когда совпадения не найдены, идентификаторы привязываются к существующим веществам или регистрируются новые вещества. Инициатива AMOS привела к расширению базы данных DSSTox, улучшив базовые данные, поддерживающие другие базы данных и приложения EPA, такие как CompTox Chemicals Dashboard3.
Для получения определенной ценной дополнительной информации требуется ручное курирование. Для аналитических методов экспериментальные параметры, такие как пределы обнаружения и количественной оценки, матрица образцов и аналитическая методология, не организованы стандартизированным образом, и автоматизированные инструменты не могут идентифицировать эту информацию из-за ее несогласованного хранения.
Два элемента регистрационной информации – среда, связанная с образцом, и функциональное использование аналита – имеют большое значение для текущих усилий по мониторингу опасностей опасности и подверженности воздействию загрязняющих веществ. В связи с этим значительное внимание уделялось структурированию этих атрибутов в рамках данных записи. Для данного проекта была разработана онтология классификаций функционального использования. Эта онтология организует функциональное использование веществ в иерархическую структуру, варьирующуюся от более общего «родительского» использования до более конкретного «дочернего» использования. Онтология облегчает изучение веществ с точки зрения их применения, поддерживая исследовательские инициативы, подчеркивающие функциональное использование в качестве средства оценки воздействия и опасности 5,6. Кроме того, методы были помечены в соответствии с категорией гармонизированных сред образцов, как указано в базе данных мультимедийного мониторинга EPA (MMDB)7. Такая категоризация позволяет искать химические вещества на основе их присутствия в конкретных средах, оптимизируя разработку решений, ориентированных на обнаружение химических веществ в конкретных экологических или биологических образцах. Эти аннотации улучшают интеграцию AMOS в рабочие процессы, ориентированные на воздействие и риски, разрабатываемые в рамках EPA.
При сборке спектров задача обработки различных форматов файлов, некоторые из которых лишь номинально стандартизированы, и разбора сопутствующих метаданных часто требует пользовательской обработки. В случаях, когда спектральные коллекции связаны с публикацией, может потребоваться вручную извлечь детали, задокументированные в публикации, для загрузки данных. Результатом этих усилий стала база данных, которая интегрирует и структурирует эти разрозненные спектры, что позволяет исследователям избежать необходимости трудоемкого курирования в будущих начинаниях.
По состоянию на март 2025 года база данных содержит около 935 000 спектров, из которых почти 99% составляют масс-спектры и меньшие коллекции ЯМР (~2 000) и ИК (~400). Кроме того, существует около 770 000 внешне связанных спектров (подключенных к базе данных SpectraBase8), ~36 000 информационных бюллетеней и ~7 400 аналитических методов. Вещества, интегрированные в приложение, являются подмножеством веществ из базы данных DSSTox, которая включена в CompTox Chemicals Dashboard (CCD) и содержит более 1,2 миллиона веществ.
Большую часть функционала AMOS можно разделить на три категории: поиск записей по заданным веществам, поиск по определенным коллекциям веществ или поиск среди категорий записей. Доступ к отдельным страницам для этих функций можно получить с панели навигации в верхней части каждой страницы. В настоящее время приложение развернуто в https://hcd.rtpnc.epa.gov/#/ через модуль AMOS. Программные инструменты, использованные в данном исследовании, перечислены в Таблице материалов.
1. Поиск записей по конкретным веществам
Рисунок 1: Результаты поиска записей, содержащих холестерин. При общем поиске по слову «холестерин» отображается список совпадающих записей в таблице (слева). Масс-спектр выбранной записи показан справа. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 2: Интерфейс пакетного поиска. Поле поиска содержит два вещества, идентифицированных по их DTXSID. Для запроса выбираются параметры поиска по умолчанию. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 3: Результаты поиска структуры для 1P-LSD. В таблице перечислены методы, содержащие структурно сходные вещества. Выбранный метод отображается справа. Отсутствие выделенных жирным шрифтом записей в таблице указывает на то, что 1P-LSD не фигурирует ни в одном из перечисленных методов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
2. Поиск веществ
Рисунок 4: Результаты поиска классификации ClassyFire. Результаты включают информацию об уровне вещества и количество записей по каждой классификационной группе. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 5: Результаты поиска по частичному идентификатору для слова "trazine". В результате поиска извлекаются вещества с предпочтительными названиями или синонимами, содержащими подстроку «тразин». Два из трех результатов включают слово «тразин» только в синонимах, а не в предпочитаемых названиях. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
3. Поиск по записям
Рисунок 6: Отфильтрованный список аналитических методов. Таблица отфильтрована по аналиту и матрице, отображая только методы, относящиеся к PFAS (пер- и полифторалкильным веществам) в воде. Соответствующий список информационных бюллетеней очень похож на эту схему. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 7: Результаты поиска по сходству спектра. В качестве входных данных используется спектр кофеина из базы данных AMOS. Похожие спектры сгруппированы по веществам, с максимальным показателем сходства 1,0. На зеркальном графике показан входной спектр (вверху) и выбранный спектр базы данных (внизу). Светло-голубые пики уникальны для входных данных, оранжевые пики соответствуют базе данных, а темно-синие пики являются общими. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 8: Визуализация классификации функционального использования. Иерархическая структура отображается с наведением курсора на узел «промышленные химикаты» (обведен желтым цветом). Его дочерние классы обведены зеленым цветом. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 9: Визуализация почвенного троичного участка. На графике отображаются данные о составе образцов почвы. Всплывающая подсказка в правом верхнем углу показывает точный состав области, находящейся в данный момент под курсором. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
На скриншотах AMOS, показанных выше, показаны типичные результаты отдельных поисков в приложении, включая как поиск интересующих веществ, так и среди спектров, информационных бюллетеней и методов. Разнообразие способов опроса базы данных призвано охватить наиболее вероятные и наиболее полезные виды поиска таким образом, чтобы обеспечить более глубокое изучение данных и веществ, к которым они относятся.
Чтобы облегчить пользователю поиск, большая часть функций взаимосвязана таким образом, чтобы способствовать более глубокому изучению доступных данных. В качестве примера рабочего процесса визуализация классификации функционального использования связана с представлениями методов и информационных бюллетеней, относящихся к этому функциональному классу, из которых можно извлечь списки веществ и ввести их в пакетный поиск, или изучить отдельные документы, а также дополнительно исследовать отдельные вещества в этих документах. Поскольку многие вещества в методах также имеют экспериментальные масс-спектры в базе данных, это может позволить исследователю быстро перейти от категории веществ к набору методов и спектров, которые могут проверить наличие конкретного вещества (см. рис. 9).
Поскольку результаты будут в значительной степени зависеть от того, что ищется и какой поиск или поиски выполняются, репрезентативные результаты для всего приложения определить сложно. В целом, возможно, более точным было бы описать «успех» с точки зрения пользовательского опыта; В этом случае можно надеяться, что в целом будет справедливо следующее: что методы поиска и фильтрации (а также возможность переключения между различными поисковыми запросами и фильтрами) эффективны для определения того, какие подмножества информации нужны пользователю; что результаты, которые находит пользователь, являются точными и полезными. На рисунке 10 показан пример рабочего процесса, демонстрирующий функциональные возможности AMOS.
Рисунок 10: Пример рабочего процесса, демонстрирующий функциональные возможности AMOS. Рабочий процесс начинается с классификации функционального использования (респираторные препараты), фильтруются методы, связанные с респираторными препаратами в крови, изучается один конкретный метод и определяются спектры вещества, включенного в этот метод. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
В то время как многие проекты и приложения сосредоточены на сборе и стандартизации информации из одного типа записей, таких как методы, информационные бюллетени или определенный вид спектров, AMOS является первым инструментом, который компилирует и интегрирует большие объемы информации по нескольким типам записей. Унификация, гармонизация и структурирование данных из этих различных источников приводят к созданию базы данных, которую можно легко включить в рабочие процессы, требующие доступа к методологиям аналитической химии. Возможность поиска в базе данных несколькими взаимодополняющими способами обеспечивает эффективное извлечение информации, которая в противном случае потребовала бы значительных ручных усилий на нескольких веб-сайтах или инструментах.
Перед публичным выпуском полезность AMOS была продемонстрирована на примере его использования сотрудниками EPA для поддержки широкого спектра проектов. EPA проявляет устойчивый интерес к применению масс-спектрометрии для нецелевого анализа10,11, и в рамках многочисленных инициатив экспериментальные масс-спектры в AMOS были использованы для улучшения поиска по большой спектральной библиотеке in silico, созданной из химических веществ DSSTox12,13. В других проектах использовался поиск структурного сходства для определения отправных точек для разработки новых методов, изучались существующие методы для оценки пределов обнаружения и количественной оценки, а также анализировались коллекции химических веществ, связанные с методами оценки степени охвата химического пространства.
Агрегация потенциальных обучающих данных AMOS также поддерживает разработку количественных моделей податливости для аналитических методов14, что является основной потребностью для продвижения рабочих процессов нецелевого анализа (NTA). Усилия по курированию в рамках AMOS также способствуют инициативам по моделированию, исследованию и визуализации химических пространств, связанных с методологическим охватом14.
Несмотря на то, что основная функциональность AMOS является зрелой, текущая разработка основывается на отзывах пользователей. Текущие задачи включают в себя включение дополнительных данных, курирование дополнительных метаданных для улучшенной фильтрации и расширение возможностей поиска. В сотрудничестве с заинтересованными сторонами EPA в настоящее время разрабатываются интерфейсы прикладного программирования (API) для обеспечения программного доступа, устраняя случаи использования, в которых графический пользовательский интерфейс (GUI) может быть неэффективным. В приложение интегрирована страница примечаний к выпуску для отслеживания и информирования об обновлениях кода с течением времени.
Новые записи данных и химических веществ в настоящее время добавляются еженедельно; Тем не менее, ожидается, что после публичного запуска график выпуска будет более медленным. Несмотря на значительные усилия, предпринимаемые для обеспечения точности записей и связанных с ними метаданных, большая часть данных поступает из общедоступных баз данных. Таким образом, полная проверка каждой записи невозможна, и пользователи должны знать, что абсолютная точность данных не может быть гарантирована.
Этот документ не обязательно отражает точку зрения или политику Агентства по охране окружающей среды США.
Авторы благодарят команду кураторов за всю их работу по курированию химических веществ для базы данных, а также Джошуа Пауэлла, Асифа Рашида и Фредди Валоне за техническую поддержку в создании и развертывании AMOS. Мы также благодарим Чарльза Лоу за его рецензию на рукопись.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены