9.7K Views
•
11:04 min
•
May 19th, 2019
DOI :
May 19th, 2019
•Trascrizione
Gli elementi mobili sono una delle principali fonti di instabilità genetica umana. Comprendere la loro espressione in diversi tessuti e condizioni è fondamentale per comprenderne l'impatto sul genoma. La vasta delle trascrizioni L1 è il risultato dell'inclusione passiva di sequenze correlate all'L1 in altre trascrizioni che non hanno alcun ruolo nel ciclo di vita L1.
Il nostro approccio elimina questo contesto irrilevante. Questo protocollo può essere adattato agli studi di qualsiasi elemento mobile, o anche virus in qualsiasi genoma di sequenza. Ci deve essere almeno qualche variazione di sequenza per consentire la discriminazione tra loci.
La dimostrazione visiva di questo metodo è fondamentale per illustrare il rigore e la cura necessari per identificare con sicurezza gli elementi ripetitivi L1 espressi a livello specifico del locus. Iniziare questa procedura con l'estrazione dell'RNA citoplasmatico e il sequenziamento di nuova generazione come descritto nel protocollo di testo. Selezionando per l'RNA citoplasmatico, le letture relative all'L1 trovate all'interno dell'mRNA intronico espresso nel nucleo sono significativamente esaurite.
Nella preparazione della libreria di sequenziamento un altro passo fatto per ridurre il rumore trascrizionale non correlato a L1s include la selezione di trascrizioni poliadenilate. In questo modo viene rimosso il rumore di trascrizione correlato all'L1 presente nelle specie non mRNA. Eseguire il paradigma di allineamento sequenziando i file FASTQ con il campione di RNA seq di interesse utilizzando bowtie1 digitando la riga di comando nel terminale Linux.
Questa strategia di allineamento richiede che le trascrizioni siano allineate in modo univoco e collinearly con una ricerca genomica esaustiva. Questa strategia fornisce fiducia nella chiamata della mappatura delle letture specificamente a un singolo locus L1. Strand separa i file BAM di output Utilizzando i comandi SAMtools e Linux per selezionare per il filamento superiore e il filamento inferiore.
Si noti che i valori effettivi dei flag possono variare se non si utilizzano protocolli di sequenziamento standard di nuova generazione. Questo passaggio di separazione del filamento funziona per filtrare il rumore trascrizionale generato all'interno di sequenze L1 non correlate alla retrotrasposizione L1 eliminando potenziali letture mappate correlate all'antisense L1. Genera conteggi di lettura rispetto alle annotazioni per loci L1 usando bedtools.
Digitare innanzitutto la riga di comando per generare i conteggi di lettura per L1 nella direzione del senso sul filamento superiore, quindi digitare la riga di comando per generare il conteggio delle lette per L1 nella direzione del senso sul filamento inferiore. Le annotazioni utilizzate per identificare gli L1 denotano L1 a figura intera con regioni promotore funzionali che funzionano per eliminare il rumore di fondo che altrimenti ha origine da L1 troncati. Creare un foglio di calcolo per le letture mappate a ogni locus L1 annotato.
Copiare sul file di testo dei conteggi di lettura generato creato per il filo inferiore ed etichettare la pagina come minus_bottom. Ordinare tutte le colonne in base al numero di letture dal più alto al più basso trovato nella colonna J.Copy sul file di testo dei conteggi di lettura generato creato per il filamento superiore. Ordinare tutte le colonne in base al numero più alto e più basso di letture trovate nella colonna J.Ed etichettare la pagina come top_plus.
Creare una terza pagina etichettata come combinata e aggiungere tutti i loci con 10 o più letture da minus_bottom e plus_top pagine. Ordinare tutte le colonne in base al numero più alto o più basso di letture trovate nella colonna J.To assistere la mappabilità delle regioni genomiche, in particolare nei loci L1 o nei pressi di esso, i file accoppiati e di sequenziamento dell'intero genoma delle specie di interesse sono stati scaricati da NCBI e convertiti in file FASTQ come descritto nel protocollo di testo. Ora, indicizza i file BAM per renderli visualizzabili nel Visualizzatore genomica integrativo, abbreviato IGV, prima di caricare i file.
Nell'IGV caricare il genoma di riferimento di interesse per visualizzare i geni annotati. Caricare anche il file di annotazione per gli elementi L1 a figura intera per visualizzare l'annotazione L1, il file BAM per l'espressione dell'RNA umano, per visualizzare le trascrizioni mappate dal campione di interesse e il file BAM per la mappabilità del genoma umano per valutare la mappabilità delle regioni genomiche. Rimuovere le righe di copertura e giunzione associate a ogni file BAM.
Comprimi i file BAM per l'espressione dell'RNA umano e per la mappabilità del genoma umano in modo che tutte le tracce IGV si adattino a uno schermo. L'ultimo passo critico nell'eliminazione del rumore trascrizionale delle sequenze L1 non correlate alla retrotrasposizione L1 è la creazione manuale di L1 a figura intera identificati per aver mappato le trascrizioni della ricerca dell'RNA. La cura manuale prevede la visualizzazione di ogni locus L1 espresso nel contesto del suo ambiente genomico circostante per confermare che l'espressione ha origine dal promotore L1.
Utilizzando le coordinate di L1 loci elencate nella pagina combinata del foglio di calcolo, cura manualmente ogni locus L1 con trascrizioni mappate in modo univoco esaminando l'ambiente genomico circostante in IGV. Curare un luogo da esprimere autenticamente da solo se non ci sono letture a monte nella direzione L1 fino a cinque kilobase. Etichettare la riga di colore verde e notare perché è un L1 autenticamente espresso. Esiste un'eccezione a questa regola se l'area a monte dell'L1 non è mappabile.
In tal caso, etichettare la riga di colore rosso e notare che l'espressione dell'area a monte del promotore L1 non può essere valutata e quindi l'espressione dell'L1 non è in grado di essere determinata con sicurezza. Curare un luogo per non essere autenticamente espresso dal proprio promotore se ci sono letture a monte fino a cinque kilobase. Etichettare la riga di colore rosso e notare perché non è un L1 autenticamente espresso. Curare un locus come falso se è espresso all'interno di un introne di un gene espresso nella stessa direzione, con letture a monte dell'L1, se è a valle di un gene espresso nella stessa direzione con letture a monte dell'L1, o per schemi di espressione senza preavviso con letture a monte dell'L1. Un'eccezione a questa regola si applica quando ci sono letture minime che si sovrappongono direttamente al sito iniziale del promotore L1, ma leggermente a monte dell'L1. Se non ci sono altre letture a monte di un caso L1 come questo, considera questo L1 autenticamente espresso.
Etichettare la riga verde e notare perché è un L1 autenticamente espresso. Curare un locus L1 come probabile che sia falso se il modello di letture mappate al locus non è correlato con le specifiche regioni di mappabilità di L1. Se un L1 è altamente mappabile, ma ha solo un mucchio di letture in una regione condensata all'interno dell'L1, è meno probabile che sia correlato all'espressione L1 dal proprio promotore e più probabilmente da fonti senza preavviso come esoni o LR. In casi come questo, cura i loci come arancione e nota perché il locus è sospetto.
Verificare le fonti di accumuli sospetti controllando la posizione L1 nel browser del genoma UCSC. Curare un luogo per non essere autenticamente espresso se si trova all'interno di un ambiente genomico di regioni sporadicamente espresse senza preavviso. Le letture possono essere espresse 10 kilobase a monte dell'L1. Ma ogni 10 kilobase o così, ci sono letture mappate e alcune di queste letture si allineano con l'L1. È probabile che questi L1 abbiano mappato le letture a causa di modelli senza preavviso di espressione genomica.
In casi come questo, cura i loci come rossi e nota perché il locus è sospettoso. Per facilitare la mappabilità di ogni loci L1 determinare il numero di letture mappate in modo univoco su L1 loci utilizzando il programma bedtools, l'annotazione FL-L1 e i dati della sequenza genomica allineati. Designare un locus L1 per avere una mappabilità di copertura completa quando 400 letture univoce sono allineate ad esso.
Determinare il fattore necessario per scalare verso l'alto o verso il basso le letture allineate al DNA genomico a 400 per ogni singolo L1. Per avere una misura scalata dell'espressione in base alla singola mappabilità del locus L1, moltiplicare il fattore per il numero di letture di trascrizione dell'RNA che si allineano ai singoli L1 autenticamente espressi. Ogni passaggio viene utilizzato per evidenziare le differenze tra gli elementi L1 espressi dal proprio promotore e tutti i modi in cui gli elementi L1 possono essere inclusi in altre trascrizioni non correlate al ciclo di vita L1. Qui sono mostrate le letture della trascrizione che mappano in modo univoco a tutti gli L1 intatti a tutta lunghezza nel genoma umano espressi nella linea cellulare del tumore alla prostata DU145.
In nero sono i loci specifici identificati come autenticamente espressi dopo la cura manuale. E in rosso sono i loci specifici respinti come si legge autenticamente dopo la cura manuale. In grigio ci sono loci con meno di 10 letture mappate a ciascuna.
Poiché questi loci rappresentano una piccola frazione delle letture della trascrizione, non sono stati curati manualmente. Circa 4500 loci non sono mostrati graficamente, in quanto avevano zero letture mappate. Dopo la cura manuale, il numero di letture che mappano in modo univoco a loci L1 specifici autenticamente espressi in DU145 varia da 175 letture a un taglio minimo scelto arbitrariamente di 10 letture.
Una volta regolate le letture per i punteggi di mappabilità in ogni luogo, la quantificazione per l'espressione per la maggior parte dei loci è aumentata. Il numero di letture mappate in modo univoco a loci L1 specifici autenticamente espressi con correzioni di mappabilità in DU145 variava da 612 a quattro letture e c'era un riordino dei loci espressi più alti a più bassi. Ogni fase svolge un ruolo cruciale nel ridurre l'alto livello di rumore di fondo trascrizionale.
Tuttavia, il passaggio più critico è la cura manuale di ogni locus L1 per confermare la trascrizione del proprio promotore. Circa il 50% dei loci L1 identificati bioinformaticamente nelle cellule DU145 sono stati respinti come rumore di fondo L1 proveniente da altre fonti trascrittivi, sottolineando il rigore necessario per produrre risultati affidabili. Per identificare il più giovane degli L1, ti consigliamo di utilizzare la selezione race a cinque numeri primi di trascrizioni L1 e la tecnologia di sequenziamento come PacBio che utilizzano letture più lunghe e consentono una mappatura più unica.
Con questo approccio, siamo in grado di identificare e quantificare in modo rigoroso e sicuro i modelli di espressione L1. Ciò apre la strada a una migliore comprensione della regolazione dei singoli loci L1 e del potenziale impatto.
Qui presentiamo un approccio bioinformatico e analisi per identificare l'espressione LINE-1 al livello specifico del locus.
Capitoli in questo video
0:04
Title
0:52
Read Alignment Pipeline to Identify Expressed L1s
2:48
Manual Curation
7:48
Assess Mappability of Each L1 Loci to Factor in a Transcription Level Correction Score
8:42
Results: Identification of Full-length L1 Retroelements in the Human Prostate Tumor Cell Line, DU145
10:01
Conclusion
Video correlati