Method Article
Запустив Pathway Association Study Tool (PAST), либо через приложение Shiny, либо через консоль R, исследователи могут получить более глубокое понимание биологического значения результатов своего общегеномного ассоциативного исследования (GWAS), исследуя вовлеченные метаболические пути.
Недавно была разработана и выпущена новая реализация ранее описанного метода интерпретации данных общегеномного ассоциативного исследования (GWAS) с использованием анализа метаболических путей. Инструмент исследования Ассоциации Pathway (PAST) был разработан для решения проблем, связанных с удобством для пользователя и медленным анализом. Этот новый удобный инструмент был выпущен на Bioconductor и Github. В тестировании PAST проводил анализы менее чем за один час, что ранее требовало двадцати четырех или более часов. В этой статье мы представляем протокол для использования приложения Shiny или консоли R для запуска PAST.
Общегеномные ассоциативные исследования (GWAS) являются популярным методом изучения сложных признаков и связанных с ними геномныхобластей 1,2,3. В этом типе исследования сотни тысяч маркеров однонуклеотидного полиморфизма (SNP) проверяются на их связь с признаком, и оценивается значимость ассоциаций. Ассоциации маркеров-признаков, которые соответствуют порогу ложного уровня обнаружения (FDR) (или какому-либо другому типу порога значимости), сохраняются для исследования, но истинные ассоциации могут быть отфильтрованы. Для сложных полигенных признаков эффект каждого гена может быть небольшим (и, следовательно, отфильтрованным), а некоторые аллели экспрессируются только в определенных условиях, которые могут отсутствовать в исследовании3. Таким образом, хотя многие SMP могут быть сохранены как связанные с признаком, каждый из них может иметь очень небольшой эффект. Слишком много вызовов SNP будет отсутствовать, а интерпретация биологического значения и генетической архитектуры признака может быть неполной и запутанной. Анализ метаболических путей может помочь решить некоторые из этих проблем, сосредоточив внимание на комбинированных эффектах генов, сгруппированных в соответствии с их биологической функцией4,5,6.
Несколько исследований были завершены с использованием предыдущей реализации метода, описанного в этой статье. Накопление афлатоксина7,резистентность к кукурузному ушному червю8и биосинтез масла9 были изучены с предыдущей реализацией. Хотя эти анализы были успешными, процесс анализа был сложным, трудоемким и громоздким, потому что инструменты анализа были написаны в комбинации R, Perl и Bash, а конвейер не был автоматизирован. Из-за специализированных знаний, необходимых для модификации этого метода для каждого анализа, в настоящее время разработан новый метод, которым можно поделиться с другими исследователями.
Инструмент изучения Pathway Association (PAST)10 был разработан для устранения недостатков предыдущего метода, требуя меньшего знания языков программирования и проводя анализ за более короткий период. Хотя метод был протестирован на кукурузе, PAST не делает никаких видовых предположений. PAST можно запускать через консоль R, как приложение Shiny, и ожидается, что онлайн-версия скоро будет доступна на MaizeGDB.
1. Настройка
2. Настройка блестящего анализа (опционально)
Рисунок 1. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
3. Загрузка данных GWAS
ПРИМЕЧАНИЕ: Убедитесь, что данные GWAS разделены табуляцией. Убедитесь, что файл ассоциации содержит следующие столбцы: признак, имя маркера, локус или хромосома, положение на хромосоме, значение p и значениеR2 для маркера. Убедитесь, что файл эффектов содержит следующие столбцы: признак, имя маркера, локус или хромосома, положение на хромосоме и эффект. Порядок этих столбцов не важен, так как пользователь может указать имена столбцов при загрузке данных. Все дополнительные столбцы игнорируются. TASSEL13 может быть использован для создания этих файлов.
Рисунок 2. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
4. Данные о неравновесии связей нагрузки (LD)
ПРИМЕЧАНИЕ: Убедитесь, что данные неравновесия связи (LD) разделены табуляцией и содержат следующие типы данных: Locus, Position1, Site1, Position2, Site2, Distance in base pairs between Position1 и Position2 и значение R2.
Рисунок 3. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
5. Назначение SFP генам
ПРИМЕЧАНИЕ: Загрузите или найдите аннотации в формате GFF. Эти аннотации часто можно найти в онлайн-базах данных для конкретных организмов. Будьте осторожны с аннотациями низкого качества, так как качество данных аннотаций повлияет на качество анализа пути. Подтвердите, что первый столбец этих аннотаций (хромосома) соответствует формату локуса/хромосомы в данных ассоциации, эффектов и LD. Например, аннотации не должны называть первую хромосому «chr1», если файлы данных GWAS и LD называют первую хромосому «1».
Рисунок 4. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
6. Откройте для себя важные пути
ПРИМЕЧАНИЕ: Убедитесь, что файл pathways содержит следующие данные в формате с разделителями табуляции, с одной строкой для каждого гена в каждом пути: pathway ID - идентификатор, такой как "PWY-6475-1"; описание пути - более длинное описание того, что делают пути, такие как «биосинтез транс-ликопина»; gene - ген в пути, который должен соответствовать названиям, приведенным в аннотациях. Информацию о путях распространения, вероятно, можно найти в онлайновых базах данных для конкретных организмов, таких как MaizeGDB. Второй параметр, заданный пользователем, — это режим. «Увеличение» относится к фенотипам, которые отражают, когда желательно увеличение значения измеряемого признака, например, урожайность, в то время как «уменьшение» относится к признаку, где снижение измеренных значений полезно, например, рейтинги повреждения насекомыми. Значимость путей проверяется с помощьюранееописанных методов4,6,14.
Рисунок 5. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
ПРИМЕЧАНИЕ: На этом шаге используется количество ядер и режим, установленный в начале анализа PAST Shiny (шаг 2.2). Стандартное количество генов в настоящее время установлено на уровне 5 генов, поэтому пути с меньшим количеством известных генов будут удалены. Пользователь может понизить это значение до 4 или 3, включив в него более короткие пути, но это может привести к ложноположительным результатам. Увеличение этого значения может увеличить мощность анализа, но удалит больше путей из анализа. Изменение количества используемых перестановок увеличивает и уменьшает мощность теста.
7. Просмотр Rugplots
Рисунок 6. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 7. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Если результаты не получены после запуска программного средства PAST, убедитесь, что все входные файлы правильно отформатированы. Успешный запуск с использованием примера данных в пакете PAST, которые основаны на GWAS кукурузы зернового цвета, показан на рисунке 8. Эту таблицу и полученное изображение можно загрузить с помощью кнопки Загрузить результаты. Пример загруженного изображения показан на рисунке 210. Неправильные настройки могут привести к результатам, которые не имеют биологического смысла, но определение неправильности должно быть на стороне исследователя, который должен дважды проверить достоверность выбранных настроек и рассмотреть все известные доказательства относительно интересующей черты.
На рисунке 910 показан рудглот, полученный в результате анализа путей результатов GWAS, созданных с помощью кукурузной панели из 288 инбредных линий, которые были фенотипированы для цвета зерна. Этот упрощенный пример, где фенотипы были либо «белыми», либо «желтыми», был использован, потому что путь, ответственный за создание ярко-желтых каротиноидных пигментов, известен и должен отвечать за большую часть фенотипа. Таким образом, мы ожидали увидеть, что путь биосинтеза транс-ликопина (который производит каротиноиды) будет значительно связан с цветом зерна, которым он является. Идентификатор и имя пути перечислены в верхней части графика. Горизонтальная ось графа ранжирует все гены, которые были включены в анализ, расположенные слева направо в порядке наибольшего влияния на признак к наименьшему. Однако отмечены только гены в пути биосинтеза транс-ликопина (в верхней части графика, как метки хэтча, появляющиеся в генном ранге их эффекта по сравнению со всеми другими генами в анализе). В этом пути есть 7 генов. Показатель бегущего обогащения (ES) строится вдоль вертикальной оси. ES для каждого гена добавляется в ходовую сумму в порядке эффекта, а общая сумма корректируется на количество проанализированных генов. Таким образом, оценка изменяется по мере движения вправо вдоль горизонтальной оси и имеет тенденцию увеличиваться по мере включения генов большего эффекта, но в какой-то момент увеличение эффекта меньше, чем корректировка на добавление другого гена, и вся оценка начинает уменьшаться. Вершина бегущей линии ES отмечена пунктирной вертикальной линией; это ES для всего пути и используется программой для определения того, выбран ли путь и представлен ли он как rugplot.
Рисунок 8:Завершенный запуск PAST Shiny. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 9:Изображение пути из завершенного запуска PAST (или загруженное из Shiny). Эта цифра была приведена из Thrash et al.10. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Основной целью PAST является доведения анализа метаболических путей данных GWAS до более широкой аудитории, особенно для нечеловеческих и неживотных организмов. Альтернативными методами PAST часто являются программы командной строки, которые фокусируются на людях или животных. Удобство использования было основной целью в разработке PAST, как при выборе разработки приложения Shiny, так и при выборе использования R и Bioconductor для выпуска приложения. Пользователям не нужно учиться компилировать программы, чтобы использовать PAST.
Как и в большинстве типов аналитического программного обеспечения, результаты PAST хороши настолько, насколько хороши входные данные; если входные данные имеют ошибки или неправильно отформатированы, PAST не будет запущен или выдать неинформативные результаты. Обеспечение правильного форматирования данных GWAS, данных LD, аннотаций и путей имеет решающее значение для получения правильных выходных данных от PAST. PAST анализирует только двухаллельные маркеры и может выполнять только один признак для каждого набора входных данных. Кроме того, данные GWAS, полученные в результате плохого генотипирования или неправильного или неточного фенотипирования, также вряд ли приведут к четким или повторяемым результатам. PAST может помочь в биологической интерпретации результатов GWAS, но вряд ли прояснит хаотические наборы данных, если изменения окружающей среды, экспериментальные ошибки или структура популяции не были должным образом учтены.
Пользователи могут изменить некоторые параметры анализа, как в приложении Shiny, так и путем передачи этих параметров функциям PAST в консоли R. Эти параметры могут изменять результаты, сообщаемые PAST, и пользователи должны проявлять осторожность при изменении их по умолчанию. Поскольку LD измеряется пользователями, как правило, с использованием того же набора маркерных данных, который также использовался в GWAS, измерения LD специфичны для населения. Для всех исследований, особенно для других видов, кроме кукурузы (особенно самоопыляющихся, полиплоидных или сильно гетерогенных видов), могут быть оправданы изменения в значениях по умолчанию.
Авторам нечего раскрывать.
Никакой.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены