Этот протокол описывает биоинформативные шаги для исследования молекулярной эволюции и экспрессии генов-кандидатов. Здесь мы предоставляем подробные инструкции, чтобы любой человек с минимальным биоинформатическим опытом мог пройти через этот протокол. Этот конвейер может быть применен к любому организму и любому семейству генов.
Одной из распространенных проблем при выполнении биоинформатики является сбой сценариев оболочки. При попытке использования этого протокола убедитесь, что у вас есть самое современное программное обеспечение, прочитайте файлы ошибок и внимательно проверьте руководство. Для начала войдите в учетную запись кластера компьютеров в окне терминала или приложения PuTTY.
На терминале загрузите SRA Toolkit версии 2.8.1 с помощью Wget, после чего завершите установку программы. Выполните поиск NCBI по номеру присоединения SRA для требуемых образцов, а затем получите данные последовательности РНК в окне терминала. Получите два файла FASTQ для парного типа файлов.
Найдите эталонный геном онлайн, если он существует. Чтобы получить эталонную сборку, введите wget в окне терминала и вставьте адрес ссылки. Если доступно, также скопируйте файл GTF и файл белка FASTA для эталонного генома.
Индексируйте геном, затем считывает карту и вычисляет экспрессию для каждого образца. Переименуйте файл результатов во что-то описательное и создайте матрицу всех счетчиков. Откройте окно интернет-браузера и перейдите в NCBI GenBank.
В строке поиска введите название интересуемого гена и название близкородственных видов, которые были секвенированы. В левой части строки поиска выберите Белок, затем нажмите Кнопка Поиск. Извлеките последовательности, нажав кнопку Отправить, а затем выберите Файл.
В разделе Формат выберите FASTA, затем нажмите Создать файл. Переместите файл гомологов FASTA в кластер компьютеров с помощью локального окна терминала или FileZilla. Затем найдите гены-кандидаты с помощью BLAST+ On компьютерного кластера, сделайте базу данных BLAST из генома или транскриптом-транскриптомного белка, FASTA.
BLAST гомологичные последовательности генов из NCBI в базу данных интересующих видов, затем просмотрите выходной файл с помощью команды more. Скопируйте уникальные идентификаторы генов интересующих видов в новый текстовый файл. Извлеките последовательности генов-кандидатов.
Чтобы подтвердить аннотацию гена с помощью Reciprocal BLAST, перейдите в инструмент поиска локального выравнивания BLAST, выберите BLASTP, затем вставьте последовательности-кандидаты, выберите базу данных неизбыточных белковых последовательностей и нажмите кнопку BLAST. Откройте MEGA, нажмите «Выровнять», затем «Изменить выравнивание сборки», выберите «Создать новое выравнивание» и нажмите «ОК». Выберите Белок. Когда откроется окно Выравнивание, нажмите кнопку Изменить.
Нажмите Кнопку Вставить последовательности из файла и выберите FASTA с белковыми последовательностями генов-кандидатов и вероятными гомологами. Выберите Все последовательности. Найдите символ руки и наведите на него курсо.
Следует сказать, выровнять последовательности с помощью мышечного алгоритма. Щелкните символ руки, а затем щелкните Выровнять белок, чтобы выровнять последовательности Изменить параметры, или нажмите кнопку ОК, чтобы использовать параметры по умолчанию. Этот протокол был применен к тканям Hydra vulgaris, которая является пресноводным беспозвоночным, принадлежащим к типу Cnidaria.
Гены опсина были исследованы, чтобы получить представление об эволюции глаз и обнаружении света у животных. Последовательности для генов H.vulgaris и других видов, связанных с опсином, были извлечены в файл FASTA из NCBI GenBank. Гены опсина были выровнены в MEGA, что позволило идентифицировать опсины гидры, в которых отсутствовала аминокислота с сохраненным лизином, необходимая для связывания светочувствительной молекулы.
Дерево максимальной вероятности было сгенерировано с использованием последовательностей опсина от Hydra vulgaris и других видов. Филогенез предполагает, что гены опсина развиваются путем специфических для линии дупликации у книдариев и, возможно, путем тандемной дупликации у H.vulgaris. Затем в edgeR был проведен дифференциальный экспрессионный анализ для исследования абсолютной экспрессии генов опсина.
Чтобы определить, регулируется ли один или несколько опсинов в гипостоме или голове, были проведены парные сравнения гипостома с колонкой тела, зоной почкония, стопой и щупальцами. Было обнаружено, что 1 774 транскрипта были дифференциально выражены между гипостомой и колонкой тела. Были определены гены, которые регулировались в ходе нескольких сравнений, и было выполнено функциональное обогащение в Blast2GO.
Наконец, абсолютная экспрессия генов опсина исследовалась в разных тканях на разных стадиях бутонации и в разные временные точки регенерации. Визуальный осмотр выравнивания и дерева подтвердит, принадлежат ли гены-кандидаты к интересующее семейство. Гены, которые слишком отличаются по последовательности или группе вне всего остального, вероятно, являются частью другого семейства генов.
Результаты этого протокола можно считать гипотезообразующими. Этот конвейер может выделить гены-кандидаты для функционального изучения в будущих исследованиях. После изучения экспрессии опсина гидры мы теперь используем аналогичные методы для исследования родственных генов у разных видов, чтобы определить сходства и различия в функциях.