Method Article
Мы представляем веб-портал CorExplorer, ресурс для исследования факторов секвенирования РНК опухоли, найденный алгоритмом машинного обучения CorEx (Объяснение корреляции), и показываем, как факторы могут быть проанализированы относительно выживания, аннотации базы данных, белково-белковых взаимодействий, и друг с другом, чтобы получить представление о биологии опухоли и терапевтических вмешательств.
Дифференциальный анализ экспрессии генов является важным методом для понимания состояния болезни. Алгоритм машинного обучения CorEx показал полезность в анализе дифференциальной экспрессии групп генов в опухолевой РНК-сек таким образом, что это может быть полезно для продвижения точной онкологии. Тем не менее, CorEx производит много факторов, которые могут быть сложными для анализа и подключения к существующему пониманию. Для облегчения таких подключений мы создали веб-сайт CorExplorer, который позволяет пользователям интерактивно изучать данные и отвечать на общие вопросы, связанные с его анализом. Мы обучили CorEx данным экспрессии генов РНК-сек для четырех типов опухолей: яичников, легких, меланомы и колоректального. Затем мы включили соответствующие выживания, белково-белковые взаимодействия, Ген онтологии (GO) и Киото Энциклопедия генов и геномов (KEGG) пути обогащения, и тепловые карты на веб-сайте для связи с фактором граф визуализации. Здесь мы используем примеры протоколов, чтобы проиллюстрировать использование базы данных для осмысления значения изученных факторов опухоли в контексте этих внешних данных.
С момента своего введения чуть более десяти лет назад, РНК-сек стал вездесущим инструментом для измерения экспрессиигенов 1. Это потому, что она позволяет быстро и дешево de novo профилирования всего транскриптома образца. Тем не менее, данные о опухолях РНК-сек отражают биологию, которая по своей сути сложна и часто недостаточно пробы, в то время как сами данные являются высокомерными и шумными. Это представляет собой серьезную проблему для извлечения надежных сигналов. Алгоритм CorEx использует многовариантную взаимную информацию, чтобы найти тонкие закономерности в таких ситуациях2,3 . Этот метод был ранее адаптирован для анализа опухоли яичников РНК-сек образцов из атласа генома рака (TCGA) и в этом контексте, как представляется, имеют значительные преимущества по сравнению с более часто используемых методов анализа4.
Хотя использование РНК-сек чрезвычайно широко распространено в научно-исследовательских приложениях, в том числе в онкологии, эти усилия не привели к широкому использованию для целей клинических вмешательств5. Одной из причин этого является отсутствие удобных для пользователя алгоритмов и программного обеспечения, предназначенных для этих конкретных проблем. Чтобы помочь преодолеть этот пробел, мы разработали веб-портал CorExplorer, чтобы позволить исследователям из различных слоев общества изучать факторы экспрессии генов образцов РНК-сек опухоли, найденные алгоритмом машинного обучения CorEx. Портал CorExplorer поддерживает интерактивную визуализацию и запрос факторов из нескольких различных типов опухолей, включая легкие, толстой кишки, меланомы и яичников6,7,8,9, 10, с целью помочь исследователям просеять через данные корреляции и определить кандидат пути для расслоения пациентов в терапевтических целях.
Мы ожидаем, что портал CorExplorer может быть полезен нескольким типам пользователей. Портал был разработан с учетом пользователя, который хочет понять общие факторы, приводя к различиям в экспрессии генов в публичных базах данных и, возможно, также разместить отдельные профили экспрессии генов в контексте опухолей с аналогичными Характеристики. В дополнение к репрезентативным протоколам, изложенным здесь, исследования CorExplorer могут служить отправной точкой для высказывающих гипотезы для дальнейшего тестирования, для сравнения и контрастации выводов CorEx на наборах данных за пределами CorExplorer, а также для подключения патологические экспрессионные подписи одного или нескольких генов в отдельной опухоли к более крупным группам, которые могут быть координантно затронуты. Наконец, он может служить удобным введением в приложение машинного обучения к RNA-seq для тех, кто начинает работать в этой области.
1. Изучение факторов, содержащих интересующий ген
2. Фильтрация и интерпретация факторов CorEx с использованием данных о весе, выживаемости и аннотации генов
3. Использование аннотаций о выживании и базы данных для поиска перспективных терапевтических комбинаций
4. Поиск общих черт и различий вариации экспрессии генов по типам опухолей с помощью страницы поиска
Поиск гена 'BRCA1' в наборе данных рака легких показывает, что он наиболее тесно связан с фактором CorEx 26 (Рисунок 2). GO срок обогащения для этого фактора считается чрезвычайно высоким, с репарации ДНК выставке FDR только 1 х 10-19. Выбор также обращает внимание на кластер второго уровня L2'8, который имеет шесть тесно связанных факторов, как дети. Выбор "ДНК ремонт" либо в GO срок аннотации или фактор графика GO обогащенных dropdown подчеркивает связанных генов в каждом из факторов, с фактором 26, имеющих на сегодняшний день большинство, как и ожидалось11. Сеть взаимодействия протеиново-протеинового взаимодействия сильно соединена, более добавочно поддерживая плотно соединенную функциональность генов в факторе 26. Связанный график выживания предполагает возможную связь с выживанием пациентов, но это должно быть подтверждено в более широком наборе данных.
Начиная с выживания может позволить вскрытие причин для улучшения выживания, связанные с конкретными группами экспрессии генов. Например, главным фактором, влияющим на выживание рака яичников, считается номер 39, который сильно обогащен для генов, связанных с иммунной системой (Рисунок 3). Пять других факторов, связанных с тем же узлом 2 уровня, также указываются на иммунные связи, однако воздействие на выживание, как представляется, сильно изменчиво среди них, причем 39 из них являются самыми высокими, а 52 - самыми низкими. Добавление белка-белка взаимодействия окно для фактора показывает немедленное взаимодействие сети и позволяет ссылку на сайт StringDB12 для запроса различных обогащений для генов сети PPI. Делая это для каждого из факторов L2'14, в свою очередь, можно обнаружить, что обогащение StringDB для генов сети PPI предлагает следующее возможное объяснение ассоциаций с выживанием. Фактор 32 содержит гены, которые составляют основной комплекс гистосовместимости (MHC) класса I белковый комплекс, который признается цитотоксических Т-лимфоцитов. Фактор 39 соответствует цитокиновой сигнализации и связыванию рецепторов CXCR3, связанным с ЛИмфоцитами CD8'T. Оба этих фактора, как представляется, дают значительное преимущество выживания для пациентов, демонстрирующих относительно высокую экспрессию соответствующих генов. Цитотоксические ЛИмфоциты CD8' T в первую очередь отвечают за противоопухолевый иммунитет. Фактор 52, с другой стороны, состоит из генов кодирования белков в комплексе класса MHC II, которые признаются в первую очередь CD4 "T клетки-помощники, а не непосредственно цитотоксических Т лимфоцитов. Остальные факторы L2-14 отражают обобщенную активацию иммунной системы, которая не дифференцирует два типа популяций лимфоцитов. Ассоциация выживания, специфичная для цитотоксического Т-лимфоцита распознавания MCH класса I клеточных антигенов согласуется с нашим пониманием противоопухолевого иммунитета в целом и от других видов рака, таких как меланома13,14.
Веб-портал поддерживает открытие пар факторов с дополнительными функциями, которые могут предложить эффективные опухолевые комбинированные методы лечения. Обзор набора данных можно отсканировать на факторы, которые показывают корреляцию с выживанием, но имеют различные обогатительств GO. Для меланомы (ТКГАЗСКМ; Рисунок 4), видно, что верхний фактор выживания 171 является иммунной связи, в то время как фактор 88 вниз список показывает обогащение для генов, связанных с организацией митохондриона. Действительно, это было предложено в качестве мишени в меланоме15. Добавление окон выживания на страницу CorExplorer позволяет сравнить стратификации с помощью факторной пары к паре каждого фактора в отдельности, показывая, что благоприятные модели экспрессии генов из обеих групп демонстрируют тенденцию выживания лучше, чем для любого фактор в одиночку. Верхний слой, как представляется, не улучшается однако, предполагая, иммунотерапия только может быть лучшим вариантом для некоторых пациентов.
Общие черты и различия между опухолями можно увидеть путем поиска через наборы данных для генов или GO терминов(рисунок 5). В качестве примера, FLT1 (ака VEGFR1) является хорошо изученным про-ангиогенный маркер16,17. Когда он ставится в панель поиска, все опухоли имеют факторы, в которых FLT1 играет важную роль. И наоборот, когда термин GO 'ангиогенез' ввода на странице поиска, 5 из 6 групп FLT1 появляются с этим обогащением. Все факторы FLT1, за исключением SKCM-195, перечислены как статистически обогащенные для генов «ангиогенеза». Шестой фактор, по сути, имеет аннотацию, но ниже порога по умолчанию 10-8. Когда взвешивание в списке факторов используется в альтернативном калькуляторе обогащения, например, Gene Set Enrichment Analysis (GSEA)18, шестой фактор оказывается значительно обогащенным для генов «ангиогенеза».
Важно проверить тепловые карты, чтобы убедиться, что модель экспрессии генов имеет адекватное качество для поддержки биологических интерпретаций. Тепловые карты, которые показывают сильные четкие изменения могут проявлять либо скоординированное выражение генов фактора, начиная от низких до высоких или более сложных моделей с некоторыми генами, имеющими низкую экспрессию, коррелирующую с другими, имеющимивысокий (Рисунок 6). Ключевым маркером высококачественной группировки является наличие нескольких генов с плавной разноявлением экспрессии в качестве функции факторного балла. Фактор heatmaps показать образцы приказал в соответствии с фактором оценка, таким образом, не должно быть гладкой градиент движется слева направо. Тем не менее, это может не произойти, по крайней мере двумя различными способами. Чаще всего корреляции могут быть чрезвычайно шумными(рисунок 5C),ставя под сомнение надежность и полезность любых выводов относительно выживания и/или биологической функции. Кроме того, шаблоны, которые происходят только в небольшом меньшинстве образцов, могут не соответствовать модели трех состояний выражения, принятых алгоритмом CorEx, что приводит к вводящей в заблуждение классификации образцов (правая сторона рисунка 5D).
Рисунок 1: CorExplorer титульная страница. После нажатия на кнопку «Рядом с раком яичников» под быстрыми ссылкамипоказаны детали факторного графика. Иерархическая модель CorEx состоит из входных переменных (экспрессия генов в данном случае) на нижнем слое и выводных скрытых факторов в более высоких слоях. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Рисунок 2: Использование имени гена для руководства разведкой. На рисунке показана серия скриншотов, иллюстрирующих исследование факторов рака легких CorEx, сильно связанных с BRCA1. Во-первых, выбор 'BRCA1' в поле для снижения числа факторов приводит к увеличению представления графика на фактор, для которого BRCA1 имеет наибольший вес. Масштабирование немного кадры слой два узла L2'8 подключения этого фактора к другим связанным с ними из них. Выживание и аннотации можно сравнить: нажав на GO срок репарации ДНК подчеркивает аннотированные гены. Добавлено окно PPI, чтобы показать сетевые взаимодействия генов в факторе. Использование кнопки Добавить окно, чтобы добавить тепловую карту показывает связь моделей выражения с выживанием, предполагая, что увеличение экспрессии генов репарации ДНК может быть связано с снижением выживаемости. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Рисунок 3: Использование клинических данных (выживание) для руководства разведкой. Изучение верхней выживаемости связанных фактор (39) для рака яичников показывает интересные отношения между соседними факторами. После выбора фактора 39 в графике фактора и масштабирования немного, слой два фактора, связанные с фактором 39, как представляется, пять других связанных факторов. Дополнительное окно выживания позволяет прямо едить связанные различия в выживаемости. Факторы 39 и 32 показывают положительную корреляцию выживания, в отличие от фактора 52, который этого не делает. Сети взаимодействия белково-белковых все четко определены. Связь с StringDB позволяет сравнивать аннотации GO (не показано): Фактор 39 связан с цитокинов сигнализации сети, связанные с цитотоксическимCD8 "T лимфоцитов активации и фактор 32 доминируют MHC класса I антиген представления белков, которые вызвать признание такими лимфоцитами; соседние факторы, однако, доминируют другие компоненты иммунной системы, такие как CD4 "помощник Т-клеток и не показывают корреляции выживания. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Рисунок 4: Изучение основных факторов выживания предполагает потенциальные терапевтические комбинации. Ссылка 'Datasets' в панели меню главной страницы приводит к краткой таблице факторов выживания, заказанных p-value, наряду с верхней аннотацией GO (не показана). Используя эту информацию для меланомы, сочетание фактора 171 для иммунной функции с фактором 88 для организации митохондриона кажется взаимодополняемым. На рисунке показаны окна аннотации для каждого из факторов, чтобы противопоставить их. Кривые выживания для пациентов, стратифицированных двумя факторами по отдельности или вместе, указывают на то, что комбинация увеличивает дифференциал выживаемости по сравнению с любым фактором в одиночку. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Рисунок 5: Страница поиска облегчает анализ рака. Гены или УСЛОВИЯ биологического процесса GO можно искать во всех наборах данных с помощью ссылки поиска с главной страницы. На рисунке показаны результаты поиска гена FLT1 и термина GO «ангиогенез». Результаты показывают наличие FLT1 в факторах, аннотированных с термином "ангиогенез" через рак. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Рисунок 6: Тепловые карты могут быть использованы для качественной оценки корреляций между генами и образцами в соответствии с коэффициентом. Высокое качество отношений экспрессии генов проявляется гладкой градации, когда пациенты приказал фактор оценка в тепловые карты. Leftmost heatmap для фактора 18 является одним из примеров. Шаблоны могут также включать сложные подписи выражения вверх и вниз, как в средней большой тепловой карте для фактора 11. Более низкие модели качества иногда показывают резкие изменения в выражении для подгруппы пациентов, как в факторе 9 тепловой карты справа или простой очень шумной корреляции, как в факторе 161 тепловой карты в правом нижнем правом. Пожалуйста, нажмите здесь, чтобы просмотреть большую версию этой цифры.
Мы представили сайт CorExplorer, общедоступный веб-сервер для интерактивного исследования максимально коррелированных факторов экспрессии генов, извлеченных из опухолевых РНК-сек по алгоритму CorEx. Мы показали, как веб-сайт может быть использован для расслоения пациентов в соответствии с экспрессией генов опухоли, и как такое стратификация соответствует биологической функции и выживанию.
Были построены другие веб-серверы для анализа РНК-сек. Дифференциальный и коэкспрессиальный анализ опухолей может быть исследован и интегрирован с другими типами данных в cbioPortal19,20. Серверы GenePattern21, Mev22и Morpheus23включают в себя установленные методы кластеризации, такие как анализ основных компонентов (PCA), kmeans или самоорганизующиеся карты (SOM). Более инновационные усилия включают CamurWeb24, на основе автоматизированного классификатора, генерирующего правила, и TACCO25, который реализует случайные классификаторы лесов и lassos. Используемый здесь алгоритм CorEx оптимизирует многовариантную информацию, чтобы найти иерархию факторов, объясняющие закономерности в данных. Нелинейный и иерархический фактор обучения, как представляется, дают улучшенную интерпретацию по отношению к линейным глобальным факторам, найденным через PCA4. Кроме того, тонкозернистый анализ пробных сигналов метода позволяет точно сравнивать опухоли по сравнению с более часто используемыми широкими подтипами. Такое сочетание перекрывающегося и иерархического анализа факторов отличает CorExplorer от большинства других подходов и требует новых инструментов для визуализации и обобщения.
Важной частью анализа факторов CorExplorer является возможность исследовать не только несколько, но и более 100 факторов с информативными генными моделями, которые находятся в перекрывающейся иерархии. CorExplorer облегчает добычу этих множества факторов для биологических и клинических ассоциаций и позволяет исключительно подробную характеристику отдельных опухолей. Неконтролируемое изучение такого большого количества факторов означает, что не все будут иметь отношение к биологии болезней. В таком случае, важно либо использовать аннотации или известные гены, чтобы вытащить факторы интереса или поиск факторов, связанных с клиническими данными, такими как выживание. Таким образом, CorExplorer позволяет пользователям реализовать этот очень важный шаг фильтрации. Наличие факторных генных моделей в опухоли может даже предложить подход к персонализированному лечению онкологии. Кроме того, многообразие коэффициентов для каждой опухоли позволяет обнаружить потенциально полезные терапевтические комбинации.
Иногда бывает так, что не появляется никаких значительных аннотаций GO для факторов, сильно коррелированных с выживанием. Хотя это может произойти из-за шумных или под выборочными данными, есть и другие возможные причины, такие как размер кластера, который слишком мал, чтобы регистрировать значительные оценки обогащения или группа является «корзиной» отдельных генов из различных путей без согласованных биологических Ассоциации. Кроме того, может быть уместно йенотации, отличающиеся от биологического процесса KEGG и GO, например, клеточный отсек. К ним можно получить доступ, связавшись с StringDB, как показано в протоколе. Анализ обогащения генонологии на сайте CorExplorer в настоящее время не учитывает взвешивание гена в факторе, хотя это, вероятно, будет исправлено в ближайшем будущем. Обратите внимание, что опция списка генов доступна в рамках "Добавить окно", что позволяет скачать полный список генов фактора для дальнейшего анализа с помощью внешних инструментов.
Для целей веб-сайта CorEx запускался на каждом из наборов данных пять раз, и запуск, который привел к наибольшему общему общему корреляции, был сохранен. Наличие статистического представления результатов нескольких запусков может быть более информативным и является целью будущей работы. Кроме того, набор типов опухолей, доступных на сервере, довольно мал, но мы ожидаем, что это будет расширяться с течением времени в зависимости от интереса пользователей.
Как указано выше, CorExplorer визуализирует CorEx РНК-сек фактор отношений наряду с клинической и базы данных информации, что позволяет целый ряд различных способов допроса. Мы надеемся, что этот инструмент приведет к дальнейшей работе по использованию силы анализа РНК-сек для открытия и клинического применения в онкологии.
Авторы заявляют, что у них нет конкурирующих финансовых интересов.
GV была поддержана наградой DARPA W911NF-16-0575.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены