Роман последовательности открытия субтрактивный геномика

Kathryn C. Asalone; Megan M. Nelson; John R. Bracht

doi:10.3791/58877

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

Резюме
Аннотация
Введение
протокол
Результаты
Обсуждение
Раскрытие информации
Благодарности
Материалы
Ссылки
Перепечатки и разрешения

Резюме

Целью настоящего Протокола является использование комбинации вычислительной и коллегия исследовательской найти Роман последовательностей, которые нельзя легко отделяться от совместно очищения последовательность, которая может быть лишь частично известна.

Аннотация

Субтрактивный геномики может использоваться в любых исследований, где цель заключается в том, чтобы определить последовательность генов, белка, или общего региона, который встроен в более широком контексте геномной. Субтрактивный геномики позволяет исследователю изолировать последовательности целевых объектов, представляющих интерес (T), всеобъемлющей последовательности и вычитая из известных генетических элементов (ссылка, R). Этот метод может использоваться для выявления роман последовательности, например митохондрий, хлоропласты, вирусы, или микрофлорой ограничено хромосом и особенно полезен, когда T не может быть легко изолированы от р., начиная с всеобъемлющей геномных данных (R + T), метод использует основной инструмент поиска местных выравнивание (взрыв) против ссылка последовательности или последовательности, чтобы удалить сопоставления известных последовательностей (R), оставив позади цели (T). Для вычитания работать лучше R должно быть относительно полный проект, который отсутствует т. Начиная с последовательностями, оставшиеся после вычитания проверяются через количественные полимеразной цепной реакции (ПЦР) R не нужно быть полным для работы метода. Здесь мы связываем вычислительных шагов с экспериментальной шаги в цикл, который может быть итерация по мере необходимости, последовательно удаление нескольких ссылка последовательности и уточнения поиска для T. Преимуществом субтрактивный геномики является, что полностью Роман последовательности могут быть определены даже в тех случаях, в которых физической очистки является трудным, невозможно или дорого. Недостатком метода найти подходящую ссылку для вычитания и получение T-положительные и отрицательные образцов для испытаний ПЦР. Мы описываем нашу реализацию метода в определении первый ген от ограничено микрофлорой хромосома зебры Финч. В этом случае вычислительная фильтрации участвуют три ссылки (R), последовательно удалены более трех циклов: неполная геномной Ассамблеи, сырые геномных данных и транскриптомики данных.

Введение

Этот метод предназначен для выявления роман целевой (T) геномной последовательности, ДНК или РНК, от геномной контекста, или ссылку (R) (рис. 1). Этот метод наиболее полезен, если цель не может быть разделены физически, или это будет дорого делать это. Только в нескольких организмов прекрасно закончили геномов для вычитания, поэтому ключевых инноваций нашего метода является сочетание вычислительных и методы скамейке в цикл позволяет исследователям изолировать последовательности, когда ссылка является несовершенным, или проект геном-модель организма. В конце цикла ПЦР тестирование используется для определения того, требуются ли дополнительные вычитание. Проверенных кандидатов T последовательности покажет статистически более обнаружения в известных T-позитивных образцов, ПЦР.

Воплощений метода были реализованы в открытие новых целей бактериального препарата, которые не имеют хост гомолог¹^,²^,³^,⁴ и идентификации новых вирусов из зараженных узлов⁵^,⁶. Помимо идентификации T метод может улучшить R: мы недавно использовали метод для идентификации 936 отсутствует генов генома ссылка зебры Финч и новый ген хромосомы (T) микрофлорой только⁷. Субтрактивный геномики особенно ценно, когда T-видимому, очень отличается от известных последовательностей, или когда личность T не определен широко, как зебры Финч ограничено микрофлорой хромосома⁷.

Не требуя позитивное определение T заранее, основным преимуществом субтрактивный геномики, что это беспристрастной. В недавнем исследовании Readhead et al. рассмотрел взаимосвязь между вирусной изобилия в четырех регионах мозга и болезни Альцгеймера. Для вирусный идентификации Readhead et al. создал базу данных 515 вирусов⁸, серьезно ограничивая вирусных агентов, которые могут определить их исследование. Субтрактивный геномики можно было используется для сравнения здоровых и Альцгеймера геномов для того, чтобы изолировать возможные Роман вирусы, связанные с болезнью, независимо от их сходство с известных инфекционных агентов. Хотя есть 263 известных вирусов, ориентация человека, было подсчитано, что примерно 1,67 млн неоткрытых вирусный видов существуют, с 631,000-827,000 из них имеют потенциал, чтобы заразить людей⁹.

Изоляция Роман вирусы — это область, в которой субтрактивный геномики является особенно эффективным, но некоторые исследования может не такой строгий метод. Например исследования, выявления роман вирусы использовали беспристрастной высок объём последовательности следуют обратной транскрипции и BLASTx для вирусных последовательности⁵ или обогащения вирусных нуклеиновых кислот для извлечения и обратить вспять транскрибировать вирусный последовательности⁶. Хотя эти исследования использовали секвенирование de novo и Ассамблеи, вычитания не использовалось, потому что последовательности были идентифицированы путем взрыва. Если вирусы были полностью Роман и не связанные с (или отдаленно связанные) для других вирусов, субтрактивный геномики была бы полезной техникой. Преимуществом субтрактивный геномики является, что последовательности, которые являются совершенно новыми могут быть получены. Если известен геном организма, он может быть вычтен из оставить любой вирусный последовательности. Например в нашем опубликованном исследовании мы изолированы Роман вирусный последовательность от зебры Финч посредством субтрактивного геномики, хотя он был не наш оригинальный намерения⁷.

Субтрактивный геномики также оказался полезным в определении целей бактериальные вакцины, мотивированные резкий рост антибиотикорезистентности¹^,²^,³^,⁴. Чтобы свести к минимуму риск аутоиммунные реакции, исследователи сузили потенциальных целей вакцины, вычитая любые белки, которые имеют гомолог в человека-хозяина. Одно исследование, глядя на Corynebacterium pseudotuberculosis, выполняется вычитание позвоночных хост геномов из нескольких бактериальных геномов обеспечить, что возможно наркотиков цели не будет затрагивать белков в узлы, ведущие к побочные эффекты ¹. основной рабочий поток этих исследований является скачать бактериальных протеом, определить жизненно важных белков, удаления избыточных белков, использовать BLASTp для изоляции эфироносных протеинов и BLASTp против принимающей протеома удалить любые белки с принимающей гомолог ¹ ^, ² ^, ³ ^, ⁴. В этом случае субтрактивный геномики убедиться, что вакцин разработал не будет иметь каких-либо эффектов пробить в узел¹^,²^,³^,⁴.

Мы использовали субтрактивный геномика для идентификации первого белка кодирование гена ограничено микрофлорой хромосоме (GRC) (в данном случае, T), который находится в germlines, но не соматических ткани обоих полов¹⁰. До этого исследования только геномной информации, что было известно о GRC был повторяющихся региона¹¹. De novo Ассамблея была исполнена на РНК последовательности из яичника и Тэст тканей (R + T) от взрослых Зебра зябликов. Вычислительных ликвидации последовательностей была выполнена с использованием опубликованных соматические (мышцы) геном последовательности (Р₁)¹², ее сырье (Сэнгер) чтения данных (R₂) и соматические (мозга) транскриптом (R₃)¹³. Последовательное использование трех ссылок был обусловлен ПЦР, тестирование на шаге 5 каждого цикла (рисA), показаны, что требуется дополнительная фильтрация. Обнаружили ген α-SNAP было подтверждено путем ПЦР ДНК и РНК и клонирование и секвенирование. Мы покажем в нашем примере, что этот метод является гибким: это не зависит от соответствия нуклеиновых кислот (ДНК и РНК), и что вычитание могут быть выполнены с ссылками (R), которые состоят из сборки или сырые читает.

протокол

1. de novo собрать начиная последовательности

Примечание: Любые данные следующего поколения последовательности (НГС) может использоваться, как сборки могут быть изготовлены из этих данных. Подходящие входные данные включают Illumina, PacBio, или Оксфорд Нанопор читает собранные в файл fasta. Для конкретности, этот раздел описывает сборку на основе Illumina транскриптомики для исследования зебры Финч, мы провели⁷; Однако имейте в виду, что специфика будет зависеть от проекта. Для нашего примера проекта сырые данные были получены из MiSeq и парных читает примерно 10 миллионов были получены от каждого образца.

Использование Trimmomatic 0,32¹⁴ для удаления Illumina адаптеров и низкого качества баз. В командной строке введите:
Java-jar PE trimmomatic-0.32.jar-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-MINLEN:40 SLIDINGWINDOW:4:20 заднего: 3 Ведущий: 3 PE.fa:2:30:10
Для создания высокого качества слияния читает из trimmomatic вывода паре гласит, используя параметры по умолчанию используйте PEAR¹⁵ v. 0.9.6. В командной строке введите:
Груша -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
Использование рептилий v. 1.1¹⁶ ошибка-исправить читает производится через PEAR. Следуйте шаг за шагом протокол, описанный в¹⁷.
Использование Троицы v. 2.4.0¹⁸ в режиме по умолчанию, чтобы собрать исправленные последовательности. Для нити конкретные библиотеки, используйте параметр - SS_lib_type. Результат представляет собой fasta файл (your_assembly.fasta). В командной строке введите:
Fq Троицы--seqType--SS_lib_type FR – max_memory 10G – выход Trinity_output--оставил quality_and_adaptor_trimmed_forward_paired_reads.fq – правый quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10
Примечание: Выходные данные будут помещены в новый каталог, Trinity_output, и Ассамблея будет называться «Trinity.fasta», который может быть переименован в Your_assembly.fasta, при желании. Троицы веб-сайт для получения более подробной информации: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. взрыв Ассамблея против ссылка последовательности

Примечание: Используйте этот шаг, если ссылка сборки или длинный читает как Сэнгер; Если она состоит из сырья Illumina читает, см. шаг 3 ниже для сопоставления считывает запрос. Все шаги взрыва были завершены с версии 2.2.29+, хотя команды должен работать на любой версии недавнего взрыва.

Сделать базу данных взрыва Ссылка последовательности (nucleotide_reference.fasta) в командной строке. Введите в командной строке следующее:
makeblastdb - dbtype атом-в nucleotide_reference.fasta-, nucleotide_reference.db
ДОМЕННАЯ матч запроса Ассамблеи (созданного на шаге 1) справочной базы данных. Для получения выходного файла, используйте [-BLAST_results.txt из] и для создания табличного вывода (требуется для последующей обработки шагов с Python скриптов), используйте [-outfmt 6]. Эти опции могут быть скомбинированы в любом порядке, поэтому пример выполнения команды [blastn-запроса your_assembly.fasta - db nucleotide_reference.db-, BLAST_results.txt - outfmt 6]. Если e значение параметра, используйте параметр - evalue с соответствующим числом, например [1e-evalue-6]. Помните, однако, субтрактивный цикла эффективно инвертирует evalue, установив в, как описано в ходе обсуждения.
Для увеличения жесткости использование белковых последовательностей от Ассамблеи как взрыв запрос с переведенные нуклеотидов взрыва (tBLASTn), который выполняет перевод 6-путь (нуклеотидов) базы данных. Этот метод рекомендуется для большинства систем-модель, избегая проблема неполной белка аннотации.
1. Убедитесь, правильно генетического кода выбран для организма, учился, используя параметр - db_gencode. Чтобы получить белковых последовательностей для запроса, выполните команду TransDecoder.LongOrfs (из пакета TransDecoder v. 3.0.1) для выявления длинных открытых чтение кадры из сборных запросов последовательностей. Команда является [TransDecoder.LongOrfs -t your_assembly.fasta]; выходные данные будут помещены в директорию с именем «transcripts.transdecoder_dir» и будет содержать файл с именем longest_orfs.pep, содержащий длинная предсказал белковых последовательностей от каждой последовательности в your_assembly.fasta.
2. Чтобы использовать tBLASTn, запустите команду [tblastn-запроса longest_orfs.pep - db nucleotide_reference.db-, BLAST_results.txt - outfmt 6]. Если ссылка высококачественного белка, используйте протеин протеина, совпадающие с BLASTp вместо tBLASTn.
3. Сделать взрыв базы данных ссылки на белок [makeblastdb - dbtype prot-в protein_reference.fasta-вне protein_reference.db] и затем [blastp-запроса longest_orfs.pep - db protein_reference.db-, BLAST_results.txt - outfmt 6]. Убедитесь в том сохранить результаты в файл для последующей обработки и использовать табличный (outfmt 6) чтобы убедиться, что Python скриптов можно разобрать их правильно.

3. карта читает на Ассамблее

Примечание: Этот метод можно использоваться, если эталонный набор данных состоит из сырья геномной читает, а не собран последовательности или последовательности Сэнгер, в котором случае использования взрыва (шаг 2.1).

С помощью АДЖ-MEM v. 0.7.12¹⁹ или bowtie2²⁰, карта загруженные сырой читает (raw_reads.fastq) на запрос Ассамблеи. Вывод будет .sam формат. Команды являются следующие: первый индекс Ассамблея: [АДЖ индекс your_assembly.fasta] и затем сопоставить читает [bwa мем your_assembly.fasta raw_reads.fastq > mapped.sam]. (Примечание ' >' символ здесь не является больше-знак; вместо этого он поручает вывода вдаваться в файле mapped.sam).

4. Используйте сценарий Python для удаления любых соответствующих последовательностей

Примечание: Предусмотрено сценарии работы с Python 2.7.

После шага 2 Используйте субтрактивный сценарий Python, используя команду [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Перед запуском скрипта, убедитесь, что взрыв выходной файл в формате 6 (табличных). Сценарий будет выходной файл с несовпадающим последовательности в формате fasta именем your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta и также соответствие последовательности записей, как your_assembly.fasta_matching_sequences_BLAST_ results.txt.Fasta. несоответствующие файл будет, самое главное, как источник потенциальных T последовательностей для тестирования и далее циклов субтрактивный геномики.
После шага 3, запустить removeUnmapped.py сценарий Python в качестве ввода .sam от шаг 3.1 и определяет имена последовательности запросов без каких-либо сопоставления считывает и сохраняет их в новый текстовый файл. Использовать команду [./removeUnmapped.py mapped.sam], и результат будет mapped.sam_contigs_with_no_reads.txt. (Программа будет генерировать файл sam сократившиеся с все несопоставленные читает удалены; этот файл может быть проигнорировано для целей настоящего Протокола, но может быть полезным для других анализов).
Как предыдущий шаг выводится список имен последовательности в текстовый файл с именем mapped.sam_contigs_with_no_reads.txt, извлечь файл fasta с этих последовательностей: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Вывод будет файл с названием mapped.sam_contigs_with_no_reads.txt.fasta.

5. дизайн праймеров для последовательности, остается

Примечание: на данный момент существует fasta файл, содержащий кандидат T последовательности. В этом разделе описывается ПЦР экспериментально проверить ли они приходят от T или из ранее неизвестных регионов р. Если операция вычитания в шаге 4 удалены все последовательности, затем либо первоначальной сборки не удалось включить T, или вычитания, возможно, был слишком строгими.

Для определения оптимального грунтовка последовательности вручную используйте Geneious²¹ .
1. Выделите последовательность кандидат 21-28 bp для вперед грунтовки. Избегайте работает 4 или более базы. Попытаться целевой регион с довольно равномерное сочетание всех basepairs. Одного G или C в конце 3' является полезным, помогая стать на якорь в грунт.
2. Щелкните на вкладке Статистика в правой части экрана для просмотра последовательности оценивается температуры плавления (Tm) как регионе кандидат будет выделена. Смотреть получить температуру плавления между 55-60 ° C, избегая повторов и длинные G/C.
3. Выполните шаги 5.1.1. и 5.1.2 выбрать обратный грунтовка, 150-250 пар 3' вперед праймера. В то время как длины праймера не нужно соответствовать, предсказал Tm должно быть как можно ближе к ТМ вперед грунтовка. Будьте уверены, чтобы отменить дополнения последовательности (если правой кнопкой мыши в Geneious, в то время как последовательность выделена это меню).
Используйте функцию Конструкции праймера , который находится в верхней панели инструментов в окне последовательности.
1. Нажмите на кнопку Конструкции праймера . Вставка области для того чтобы усилить в Целевом регионе.
2. На вкладке характеристики Вставьте желаемый размер, температура плавления (Tm) и % GC (см. шаг 5.1.1.).
3. Нажмите кнопку ОК , чтобы иметь праймеров созданных. Закажите праймеры через службу пользовательских oligo.
Проверка грунты с контролем ДНК (кодирования T и R) для оптимизации времени ТМ и расширение. Использовать регулярные Taq и электрофорез геля, чтобы увидеть размер группы, но оптимизации могут быть выполнены с ПЦР следующие методы в шаге 6.
1. Сделайте 10 X разведений праймеров вперед и назад, так что праймеры имеют концентрацию 10 мкм.
2. Используйте смесь ПЦР 0.5 мкл dNTP, 0.5 мкл вперед грунтовки, 0.5 мкл обратный грунтовки, 0.1 мкл полимеразы Taq, 2 мкл шаблона, 0,75 мкл магния, 2.5 мкл буфера и 18.15 мкл воды, так что есть 25 мкл в шаблон с концентрацией 5 нг / МКЛ.
3. Испытания грунтов на разные температуры плавления в программе ПЦР. Оптимальной производительности обычно наблюдаемых расплава температуру немного ниже прогнозируемого ТМ праймеров, но обычно не выше 60 ° C. Также тест для оптимального расширения раз, используя это руководство: 1 мин на 1000 bp (таким образом, обычно 10-30 секунд в зависимости от длины ампликон).
4. Выполняйте концевой электрофорез геля для подтверждения, что праймеры усилить ожидаемой последовательности. Запустите 25 мкл продукта ПЦР, смешанного с 5 мкл 6 X глицерин красителя на 2% TAE агарозном геле на 200 V на 20 мин.

6. ПЦР проверки оставшихся последовательности

Примечание: Этот шаг требует грунтовки проверяются и ПЦР условий, установленных в шаге 5.

Запустите каждый шаблон в трех экземплярах с следующей смеси; 12,5 мкл PowerSYBR Green мастер смеси, 0.5 мкл вперед грунт с концентрацией 10 мкм, 0.5 мкл обратный грунт с концентрацией 10 мкм, 10.5 мкл воды и 1 мкл шаблона ДНК (в концентрации 2 нг/мкл) , так что каждый хорошо содержит 25 мкл общего объема.
Запустите программу ПЦР, сообщил проверяемого температуры и времени расширение из шага 4. Разработаны и проверены все грунты совместимы с двух этапов цикла, 95 ° C для первоначального расплава 10 мин, затем 40 циклов 95 ° C за 30 s-60 ° C в течение 1 мин. Однако три этапа (расплава отжиг расширить) программа может быть более оптимальным для грунтовки и при необходимости должны быть адаптированы. Мы рекомендуем, что окончательные кривые денатурируя создаваться по крайней мере в первый раз праймеры используются в ПЦР для проверки амплификации ДНК одного продукта.
Мера ПЦР/SYBR зеленый сигналов относительно актина (или любой другой элемент управления подходящего «R») КТ для всех случаях вычислить среднее и стандартное отклонение 2^{-(ген Ct - β-актина Ct)}.
(Необязательно) Выполняйте электрофорез геля концевой подтвердить определение размера продукта ПЦР. Здесь запустить 25 мкл продукта ПЦР, смешанного с 5 мкл 6 x глицерин красителя на 2% TAE агарозном геле на 200 V на 20 мин.

7. повторите с новой ссылкой на СЦВК вниз данные.

Примечание: Если шаг 6 проверку определенных последовательностей от T, конец цикла здесь (рисA). Однако целый ряд соображений может стимулировать продолжение цикла, например если много R последовательностей остаются в файле или если ни один из кандидатов T последовательностей были подтверждены ПЦР в шаге 6.

Получите новую ссылку. Этот шаг включает новую итерацию цикла и может включать в себя сырье геномных данных, необработанных данных РНК seq или других сборных наборов данных. Ценные ресурсы для справочных данных включают базы данных генома в Национальный центр биотехнологической информации (https://www.ncbi.nlm.nih.gov/genome) какие магазины собрал геномов доступны через FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), и Омнибус выражение гена (https://www.ncbi.nlm.nih.gov/geo/), где хранятся считывает необработанные следующего поколения последовательности. Геном проекты могут обеспечить их необработанные данные о последовательности через другие проекта связанных веб-сайтов и баз данных.

Результаты

После запуска BLAST, выходной файл будет иметь список последовательностей из запроса, которые соответствуют базе данных. После вычитания Python количество несовпадающих последовательностей будет получен и проверены ПЦР. Результаты этого и последующие шаги, обсуждаются н?...

Обсуждение

Хотя субтрактивный геномики является мощным, это не печенье резец подход, требующий настройки на нескольких ключевых шагов и тщательный отбор ссылка последовательности и испытательных образцов. Если запрос Ассамблея имеет низкое качество, фильтрация шаги только изолировать Ассамбле...

Раскрытие информации

Авторы не имеют ничего сообщать.

Благодарности

Авторы признают Мишель Бидерман, Alyssa Педерсен и Колин J. Saldanha, за их помощь в проекте геномики зебры Финч на различных этапах. Мы также признаем Евгений Bisk для вычисления Системное администрирование кластера и низ Грант 1K22CA184297 (для J.R.B.) и низ NS 042767 (для C.J.S).

Материалы

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki