9.7K Views
•
11:04 min
•
May 19th, 2019
DOI :
May 19th, 2019
•Transcrição
Elementos móveis são uma das principais fontes de instabilidade genética humana. Entender sua expressão em diferentes tecidos e condições é fundamental para entender seu impacto no genoma. A vasta das transcrições L1 são o resultado da inclusão passiva de sequências relacionadas ao L1 em outras transcrições que não têm papel no ciclo de vida L1.
Nossa abordagem elimina esse fundo irrelevante. Este protocolo pode ser adaptado a estudos de qualquer elemento móvel, ou mesmo vírus em qualquer genoma sequencial. É preciso que haja pelo menos alguma variação de sequência para permitir a discriminação entre loci.
A demonstração visual deste método é fundamental para ilustrar a stringency e os cuidados necessários para identificar com confiança elementos repetitivos L1 expressos no nível específico do lócus. Inicie este procedimento com extração de RNA citoplasmático e sequenciamento de próxima geração, conforme descrito no protocolo de texto. Ao selecionar para RNA citoplasmático, as leituras relacionadas ao L1 encontradas no mRNA intronic expresso no núcleo são significativamente esgotadas.
Na preparação da biblioteca de sequenciamento, outro passo dado para reduzir o ruído transcricional não relacionado aos L1s inclui a seleção de transcrições poliadenylated. Isso remove o ruído da transcrição relacionada ao L1 encontrado em espécies não-mRNA. Execute o paradigma de alinhamento sequenciando arquivos FASTQ com a amostra de interesse RNA seq usando bowtie1 digitando a linha de comando no terminal Linux.
Esta estratégia de alinhamento exige que as transcrições sejam únicas e estejam quase alinhadas com uma busca genômica exaustiva. Esta estratégia fornece confiança no mapeamento de leituras especificamente para um único lócus L1. Strand separe os arquivos BAM de saída Usando samtools e comandos Linux para selecionar para o fio superior e o fio inferior.
Observe que os valores reais da bandeira podem variar se não estiver usando protocolos de sequenciamento padrão de próxima geração. Esta etapa de separação da vertente funciona para filtrar o ruído transcricional gerado dentro das sequências L1 que não estão relacionadas à retrotransposição L1, eliminando potenciais leituras mapeadas relacionadas ao Antísceno L1. Gerar contagem de leituras contra anotações para L1 loci usando ferramentas de cama.
Primeiro digite a linha de comando para gerar leitura conta para L1s na direção do sentido no fio superior e, em seguida, digite a linha de comando para gerar contagem de leitura para L1s na direção do sentido no fio inferior. As anotações usadas para identificar L1s denotam L1s de comprimento total com regiões de promotores funcionais que trabalham para eliminar ruídos de fundo que de outra forma se originam de L1s truncados. Crie uma planilha para leituras mapeadas para cada lócus L1 anotado.
Copiar sobre o arquivo de texto gerado conta leitura que foi criado para a cadeia inferior e rotular a página como minus_bottom. Classifique todas as colunas com base no maior número de leituras encontradas na coluna J.Copy sobre o arquivo de texto gerado que foi criado para a cadeia superior. Classifique todas as colunas com base no maior número de leituras encontradas na coluna J.E rotule a página como top_plus.
Crie uma terceira página rotulada como combinada e adicione todos os loci com 10 ou mais leituras de minus_bottom e páginas plus_top. Classificar todas as colunas com base no maior número de leituras encontradas na coluna J.To auxiliar a maplicabilidade de regiões genômicas, especificamente dentro ou perto de L1 loci, arquivos de genoma inteiro emparelhados e sequenciamento das espécies de interesse foram baixados do NCBI e convertidos em arquivos FASTQ, conforme descrito no protocolo de texto. Agora, indexe os arquivos BAM para torná-los visualizados no Visualizador de Genômica Integrativa, abreviado IGV, antes de carregar os arquivos.
No IGV carregue o genoma de referência de interesse para visualizar genes anotados. Também carregue o arquivo de anotação para elementos L1 de comprimento total para visualizar a anotação L1, o arquivo BAM para expressão RNA humana, para visualizar transcrições mapeadas a partir da amostra de interesse e o arquivo BAM para mappability genoma humano para avaliar a mappability de regiões genômicas. Remova as linhas de cobertura e junção associadas a cada arquivo BAM.
Comprimir os arquivos BAM para a expressão RNA humana e para a mlicabilidade do genoma humano para que todas as faixas de IGV se encaixem em uma tela. O último passo crítico para eliminar o ruído transcricional de sequências L1 não relacionadas à retrotransposição L1 é a criação manual de L1s de comprimento completo identificados como mapeados RNA buscar transcrições. A curadoria manual envolve a visualização de cada lócus L1 expresso no contexto de seu ambiente genômico circundante para confirmar que a expressão se origina do promotor L1.
Usando coordenadas de L1 loci listadas na página combinada da planilha, faça a curadoria manual de cada lócus L1 com transcrições exclusivamente mapeadas examinando seu ambiente genômico circundante no IGV. Faça a curadoria de um lócus para ser autenticamente expresso por conta própria se não houver leituras rio acima na direção L1 até cinco quilobases. Rotule a linha de cor verde e observe por que é um L1 autenticamente expresso. Existe uma exceção a esta regra se a região a montante do L1 não for mappable.
Se esse for o caso, rotule a linha de cor vermelha e note que a expressão da região a montante do promotor L1 não pode ser avaliada e, portanto, a expressão do L1 não é capaz de ser determinada com confiança. Faça a curadoria de um lócus para não ser expresso autenticamente de seu próprio promotor se houver leituras rio acima de cinco quilobases. Rotule a linha de cor vermelha e observe por que não é um L1 autenticamente expresso. Faça a curadoria de um lócus como falso se for expresso dentro de um intron de um gene expresso na mesma direção, com leituras a montante do L1, se for a jusante de um gene expresso na mesma direção com leituras a montante do L1, ou para padrões de expressão não anotados com leituras a montante da L1. Uma exceção a esta regra se aplica quando há leituras mínimas sobrepondo diretamente o site de início do promotor L1, mas ligeiramente a montante do L1. Se não houver outras leituras a montante de um caso L1 como este, considere este L1 como expresso autenticamente.
Rotule a linha verde e note por que é um L1 autenticamente expresso. Cura de um lócus L1 como provável que seja falso se o padrão de leituras mapeadas para o lócus não se correlacionar com as regiões específicas de Mappability L1. Se um L1 é altamente mappable, mas só tem um acúmulo de leituras em uma região condensada dentro do L1, é menos provável que esteja relacionado com a expressão L1 de seu próprio promotor e mais provável de ser de fontes não anotadas como exons ou LTRs. Em casos como este, faça a curadoria do loci como laranja e note por que o lócus é suspeito.
Verifique as fontes de acúmulos suspeitos verificando a localização L1 no Navegador de Genomas UCSC. Cura um lócus para não ser expresso autenticamente se estiver dentro de um ambiente genômico de regiões esporadicamente expressas não notadas. As leituras podem ser expressas a 10 quilobases a montante do L1. Mas a cada 10 quilobases ou mais, há leituras mapeadas e algumas dessas leituras se alinham com o L1. Estes L1s provavelmente têm leituras mapeadas devido a padrões não anotados de expressão genômica.
Em casos como este, faça a curadoria do loci como vermelho e note por que o lócus é suspeito. Para ajudar a mappability de cada loci L1 determinar o número de leituras exclusivamente mapeadas para L1 loci usando o programa bedtools, a anotação FL-L1 e os dados de sequência genômica alinhada. Designe um lócus L1 para ter cobertura completa quando 400 leituras exclusivas estiverem alinhadas a ele.
Determine o fator necessário para escalar para cima ou para baixo leituras genômicas alinhadas a 400 para cada L1 individual. Para ter uma medida de expressão dimensionada de acordo com a mapibilidade de locus L1 individual, multiplique o fator pelo número de leituras de transcrição de RNA que se alinham aos L1s expressos autenticamente. Cada passo é usado para destacar diferenças entre elementos L1 expressos em seu próprio promotor, e todas as maneiras que os elementos L1 podem ser incluídos em outras transcrições que não estão relacionadas com o ciclo de vida L1. Aqui estão as leituras de transcrição que mapeiam exclusivamente todos os L1s intactos de comprimento total no genoma humano expressos na linha celular tumoral da próstata DU145.
Em preto estão os loci específicos identificados como autenticamente expressos após a curadoria manual. E em vermelho estão os loci específicos rejeitados como leituras autenticamente expressas após a curadoria manual. Em cinza estão loci com menos de 10 leituras mapeando para cada um.
Como esses loci representam uma pequena fração de leituras de transcrição, eles não foram curados manualmente. Aproximadamente 4500 loci não são mostrados graficamente, pois não tinham leituras mapeadas. Após a curadoria manual, o número de leituras que mapeiam exclusivamente para loci L1 específico expresso autenticamente em DU145 variam de 175 leituras a um corte mínimo arbitrariamente escolhido de 10 leituras.
Uma vez que as leituras foram ajustadas para escores de mappability em cada lócus, a quantitação para expressão para a maioria dos loci aumentou. O número de leituras que mapearam exclusivamente para loci L1 específico expresso autenticamente com correções de mappability em DU145 variou de 612 a quatro leituras e houve uma reordenação de loci de maior a menor expressagem. Cada passo desempenha um papel crucial na redução do alto nível de ruído de fundo transcricional.
No entanto, o passo mais crítico é a curadoria manual de cada lócus L1 para confirmar a transcrição de seu próprio promotor. Aproximadamente 50% de L1 loci identificado bioinformáticamente em células DU145 foram rejeitados como ruído de fundo L1 originário de outras fontes transcricionais, enfatizando o rigor necessário para produzir resultados confiáveis. Para identificar o mais novo dos L1s, sugerimos usar a seleção RACE cinco-prime de transcrições L1 e tecnologia de sequenciamento como o PacBio que fazem uso de leituras mais longas e permite mapeamento mais exclusivo.
Com esta abordagem, podemos identificar e quantificar com rigor e confiança os padrões de expressão L1. Isso abre caminho para uma melhor compreensão da regulação do loci L1 individual e do impacto potencial.
Aqui, apresentamos uma abordagem Bioinformatica e análises para identificar a expressão da linha 1 no nível específico do locus.
Capítulos neste vídeo
0:04
Title
0:52
Read Alignment Pipeline to Identify Expressed L1s
2:48
Manual Curation
7:48
Assess Mappability of Each L1 Loci to Factor in a Transcription Level Correction Score
8:42
Results: Identification of Full-length L1 Retroelements in the Human Prostate Tumor Cell Line, DU145
10:01
Conclusion
Vídeos relacionados
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados