Мобильные элементы являются одним из основных источников генетической нестабильности человека. Понимание их экспрессии в различных тканях и условиях имеет решающее значение для понимания их влияния на геном. Обширные L1 стенограммы являются результатом пассивного включения L1 связанных последовательностей в других стенограммах, которые не играют никакой роли в жизненном цикле L1.
Наш подход устраняет этот нерелевантный фон. Этот протокол может быть адаптирован к исследованиям любого мобильного элемента или даже вирусов в любом геноме последовательности. Там должно быть по крайней мере некоторые изменения последовательности, чтобы дискриминация между локусами.
Визуальная демонстрация этого метода имеет решающее значение для иллюстрации строгости и заботы, необходимых для уверенного выявления выраженных повторяющихся элементов L1 на уровне локуса. Начните эту процедуру с цитоплазмической извлечения РНК и секвенирования следующего поколения, как описано в текстовом протоколе. При выборе цитоплазмической РНК, L1 связанных читает найти в выраженных итронных мРНК в ядре значительно исчерпаны.
В подготовке библиотеки секвенирования еще один шаг, предпринятый для уменьшения транскрипционных шумов, не связанных с L1s включает в себя выбор полиаденилатных стенограмм. Это удаляет L1 связанных с транскрипцией шума, найденного в не-мРНК видов. Вы запустите парадигму выравнивания секвенирования файлов FAST с образцом RNA seq, представляющим интерес, используя bowtie1, введя командную строку в терминале Linux.
Эта стратегия выравнивания требует, чтобы стенограммы были уникальными и collinearly выровнены с исчерпывающим геномным поиском. Эта стратегия обеспечивает уверенность в вызове читает отображение конкретно на один локус L1. Strand отделить выходные файлы BAM Использование SAMtools и Linux команды, чтобы выбрать для верхней нити и нижней нити.
Обратите внимание, что фактические значения флага могут варьироваться, если не использовать стандартные протоколы последовательности следующего поколения. Этот шаг разделения нити работает, чтобы отфильтровать транскрипционные шум, генерируемый в L1 последовательностей, которые не связаны с L1 ретротранспозиции путем устранения потенциальных антисенс L1 связанных отображенных читает. Создание чтения рассчитывает против аннотации для L1 локусов с помощью bedtools.
Первый тип командной строки для генерации чтения рассчитывает на L1s в смысле направления на верхней нити, а затем ввените командную строку для создания чтения рассчитывать на L1s в смысле направления на нижней нити. Аннотации, используемые для идентификации L1s обозначают полную длину L1s с функциональными регионами промоутера, которые работают, чтобы устранить фоновый шум, который в противном случае происходит от усеченных L1s. Создайте электронную таблицу для чтения, отображенного на каждый аннотированный локус L1.
Копия над сгенерированным считывому тексту файлу, который был создан для нижней нити, и помечтируйте страницу как minus_bottom. Сортировать все столбцы на основе от самого высокого до наименьшего числа читает найти в столбце J.Copy над сгенерированных читать рассчитывает текстовый файл, который был создан для верхней нити. Сортировать все столбцы на основе от самого высокого до наименьшего числа читает найти в столбце J.And пометить страницу как top_plus.
Создайте третью страницу, помеченную как объединенная, и добавьте все локусы с 10 или более minus_bottom и plus_top страниц. Сортировать все столбцы на основе самого высокого и наименьшего числа считывания, найденных в столбце J.To помочь mappability геномных регионов, в частности, в или вблизи L1 локусов, весь геном в паре и секвенирования файлов видов, представляющих интерес были загружены из NCBI и преобразованы в файлы FAST, как описано в текстовом протоколе. Теперь индексировать файлы BAM, чтобы сделать их для просмотра в интегративной геномики Viewer, сокращенно IGV, перед загрузкой файлов.
В IGV загружают эталонный геном, представляющий интерес для визуализации аннотированных генов. Также загрузите файл аннотации для элементов L1 полной длины, чтобы визуализировать аннотацию L1, файл BAM для экспрессии РНК человека, чтобы визуализировать отображенные стенограммы из образца, представляющий интерес, и файл BAM для mappability генома человека для оценки mappability геномных областей. Удалите строки покрытия и соединения, связанные с каждым файлом BAM.
Сжать файлы BAM для экспрессии РНК человека и для mappability генома человека, так что все IGV треки подходят на одном экране. Последним важным шагом в устранении транскрипционных шумов последовательностей L1, не связанных с ретротранспозицией L1, является ручное создание полноформатных L1, которые, как было установлено, нанесли на карту стенограммы поиска РНК. Ручное кураторирование включает визуализацию каждого выраженного локуса L1 в контексте окружающей его геномной среды, чтобы подтвердить, что выражение происходит от промоутера L1.
Используя координаты локусов L1, перечисленные на комбинированной странице таблицы, вручную курируют каждый локус L1 с уникальными картографами, изучая окружающую геномную среду в IGV. Курировать локус, чтобы быть достоверно выражены покинуть свои собственные, если Есть нет читает вверх по течению в направлении L1 до пяти килобазы. Этикетка строки зеленого цвета и обратите внимание, почему это достоверно выраженный L1. Исключение из этого правила существует, если область вверх по течению L1 не является mappable.
Если это так, отметь строку красным цветом и отметить, что выражение региона вверх по течению от L1 промоутер не может быть оценена, и поэтому выражение L1 не может быть уверенно определены. Курировать локус, чтобы не быть достоверно выражены покинуть свой собственный промоутер, если Есть читает вверх по течению до пяти килоба баз. Этикетка строки красного цвета и обратите внимание, почему это не достоверно выраженный L1. Курировать локус как ложный, если он выражается в интроне выраженного гена в том же направлении, с читает вверх по течению L1, если он находится ниже по течению от выраженного гена в том же направлении с читает вверх по течению L1, или для неанотации выражения моделей с читает вверх по течению L1. Исключение из этого правила применяется, когда есть минимальные чтения непосредственно перекрывающихся L1 промоутер стартовый сайт, но немного вверх по течению от L1. Если нет других читает вверх по течению случае L1, как это, считают, что это L1 быть достоверно выражены.
Этикетка строки зеленый и обратите внимание, почему это достоверно выраженный L1. Курировать L1 локус, как вероятно, будет ложным, если шаблон отображенных читает локус не коррелируют с конкретными регионами L1 mappability. Если L1 очень mappable, но только имеет кучу читает в сжатом регионе в L1, это менее вероятно, будет связано с L1 выражение от своего собственного промоутера и, скорее всего, будет из неот аннотированных источников, как exons или LTRs. В таких случаях, курировать локусы, как оранжевый и обратите внимание, почему локус является подозрительным.
Проявите источники подозрительных свай, проверив местоположение L1 в браузере генома UCSC. Курировать локус, чтобы не быть достоверно выражены, если он находится в геномной среде спорадически выраженных не аннотированных регионов. Чтения могут быть выражены 10 килобазы вверх по течению от L1. Но каждые 10 килобазы или около того, Есть на карте читает и некоторые из этих читает согласовать с L1. Эти L1, вероятно, нанесли на карту чтения из-за неанотации моделей геномного выражения.
В таких случаях, курировать локусы, как красный и обратите внимание, почему локус является подозрительным. Для оказания помощи mappability каждого L1 локусы определить количество однозначно отображены читает L1 локусов с помощью программы bedtools, FL-L1 аннотации и выровнены геномной последовательности данных. Назначить L1 локус, чтобы иметь полное покрытие mappability, когда 400 уникальных читает выровнены к нему.
Определите фактор, необходимый для масштабирования вверх или вниз геномной ДНК выровнены читает до 400 для каждого человека L1. Чтобы иметь масштабированную меру выражения в соответствии с отдельными L1 локус mappability, умножить фактор на количество РНК стенограммы читает, что выровнять с индивидуальными достоверно выраженные L1s. Каждый шаг используется для выделения различий между элементами L1, выраженными от их собственного промоутера, и всеми способами, которыми элементы L1 могут быть включены в другие стенограммы, которые не связаны с жизненным циклом L1. Показано здесь стенограмма гласит, что карта однозначно по всей длине нетронутыми L1s в геноме человека, выраженных в DU145 опухолевых клеток линии.
В черном — это специфические локусы, идентифицированные как подлинно выраженные после ручного кураторства. И в красном являются конкретные локусы отклонены как достоверно выраженные читает после ручного кураторства. В серых локусы с менее чем 10 читает отображение для каждого.
Поскольку эти локусы представляют собой небольшую часть стенограммы читает, они не были вручную куратором. Приблизительно 4500 локусов не отображаются графически, так как они имеют нулевой отображенный читает. После ручного кураторства, количество читает, что карта однозначно достоверно выражены конкретные L1 локусов в DU145 диапазоне от 175 читает произвольно выбранный минимум отрезать 10 читает.
После того, как чтения были скорректированы для оценки mappability в каждом локусе, квантиция для выражения для большинства локусов увеличилась. Количество считывания, наносимых исключительно на достоверно выраженные специфические локусы L1 с коррекцией mappability в DU145, варьировалось от 612 до четырех считывания, а также было переупорядочено от самого высокого до самого низкого выражения локусов. Каждый шаг играет решающую роль в снижении высокого уровня транскрипционные фоновый шум.
Тем не менее, наиболее важным шагом является ручное кураторирование каждого L1 локуса, чтобы подтвердить транскрипцию его собственного промоутера. Приблизительно 50% локусов L1, идентифицированных биоинформативно в клетках DU145, были отвергнуты как фоновый шум L1, исходящий из других транскрипционных источников, подчеркивая строгость, необходимую для получения надежных результатов. Чтобы определить самого молодого из L1s, мы предлагаем использовать пяти-премьер RACE выбор L1 стенограммы и технологии секвенирования, как PacBio, которые используют более длинные чтения и позволяет более уникальное отображение.
При этом подходе мы можем строго и уверенно выявлять и количественно определять модели выражения L1. Это прокладывает путь к лучшему пониманию регулирования отдельных локусов L1 и потенциального воздействия.