Ottimizzazione per il sequenziamento e l'analisi di campioni FFPE-RNA degradati

Yelena Levin; Keyur Talsania; Bao Tran; Jyoti Shetty; Yongmei Zhao; Monika Mehta

doi:10.3791/61060

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

Method Article

Ottimizzazione per il sequenziamento e l'analisi di campioni FFPE-RNA degradati

DOI:

10.3791/61060

⸱

June 8th, 2020

Yelena Levin*¹, Keyur Talsania*¹^,², Bao Tran¹, Jyoti Shetty¹, Yongmei Zhao¹^,², Monika Mehta¹

¹NCI CCR Sequencing Facility, Frederick National Laboratory for Cancer Research, ²Advanced Biomedical and Computational Sciences, Frederick National Laboratory for Cancer Research

* Questi autori hanno contribuito in egual misura

Please note that all translations are automatically generated. Click here for the English version.

Riepilogo

Questo metodo descrive i passaggi per migliorare la qualità e la quantità dei dati di sequenza che possono essere ottenuti da campioni di RNA incorporati in paraffina fissata alla formalina (FFPE). Descriviamo la metodologia per valutare in modo più accurato la qualità dei campioni di FFPE-RNA, preparare le librerie di sequenziamento e analizzare i dati provenienti da campioni DI FFPE-RNA.

Abstract

L'analisi dell'espressione genica mediante il sequenziamento dell'RNA (RNA-seq) consente informazioni uniche su campioni clinici che possono potenzialmente portare a una comprensione meccanicistica della base di varie malattie, nonché ai meccanismi di resistenza e/o suscettibilità. Tuttavia, i tessuti FFPE, che rappresentano il metodo più comune per preservare la morfologia dei tessuti nei campioni clinici, non sono le migliori fonti per l'analisi della profilazione dell'espressione genica. L'RNA ottenuto da tali campioni è spesso degradato, frammentato e modificato chimicamente, il che porta a librerie di sequenziamento non ottimali. A loro volta, questi generano dati di sequenza di scarsa qualità che potrebbero non essere affidabili per l'analisi dell'espressione genica e la scoperta della mutazione. Al fine di sfruttare al meglio i campioni FFPE e ottenere i migliori dati possibili da campioni di bassa qualità, è importante prendere alcune precauzioni durante la pianificazione della progettazione sperimentale, la preparazione delle librerie di sequenziamento e durante l'analisi dei dati. Ciò include l'uso di metriche appropriate per un controllo qualità di esempio preciso (QC), l'identificazione dei metodi migliori per i vari passaggi durante la generazione della libreria di sequenziamento e un'attenta libreria QC. Inoltre, l'applicazione di strumenti software e parametri corretti per l'analisi dei dati di sequenza è fondamentale per identificare gli artefatti nei dati RNA-seq, filtrare la contaminazione e leggere di bassa qualità, valutare l'uniformità della copertura genica e misurare la riproducibilità dei profili di espressione genica tra le repliche biologiche. Questi passaggi possono garantire un'elevata precisione e riproducibilità per la profilazione di campioni di RNA molto eterogenei. Qui descriviamo i vari passaggi per il QC di esempio, la preparazione della libreria e il QC, il sequenziamento e l'analisi dei dati che possono contribuire ad aumentare la quantità di dati utili ottenuti da RNA di bassa qualità, come quello ottenuto dai tessuti FFPE-RNA.

Introduzione

L'uso di approcci di sequenziamento di nuova generazione ci ha permesso di ottenere una grande quantità di informazioni da vari tipi di campioni. Tuttavia, i campioni vecchi e mal conservati rimangono inutilizzabili per i metodi comunemente utilizzati per generare dati di sequenza e spesso richiedono modifiche a protocolli consolidati. I tessuti FFPE rappresentano un tale tipo di campione che è stato ampiamente utilizzato per i campioni clinici¹^,²^,³. Mentre la conservazione FFPE mantiene la morfologia dei tessuti, gli acidi nucleici nei tessuti FFPE di solito presentano una vasta gamma di danni e degradazione, rendendo difficile recuperare le informazioni genomiche che possono portare a importanti intuizioni sui meccanismi molecolari alla base di vari disturbi.

I dati sull'espressione genica generati dal sequenziamento dell'RNA sono spesso fondamentali per studiare i meccanismi di malattia e resistenza e integrano l'analisi della mutazione del DNA. Tuttavia, l'RNA è più suscettibile alla degradazione, il che rende più difficile generare dati accurati sull'espressione genica dai tessuti FFPE. Inoltre, poiché l'ampia disponibilità e convenienza del sequenziamento è relativamente recente, gli esemplari più vecchi spesso non sono stati immagazzinati nelle condizioni necessarie per preservare l'integrità dell'RNA. Alcuni dei problemi per i campioni di FFPE includono la degradazione dell'RNA a causa dell'incorporamento in paraffina, la modifica chimica dell'RNA che porta alla frammentazione o alla refrattanza ai processi enzimatici necessari per il sequenziamento e la perdita delle code poli-A, limitando l'applicabilità dell'oligo-dT come primer per la tranciatura inversa⁴. Un'altra sfida è la manipolazione/archiviazione di campioni di FFPE in condizioni non ottimali, che può portare a un'ulteriore degradazione delle molecole labili come l'RNA nei tessuti⁵. Ciò è particolarmente rilevante per i campioni più vecchi che potrebbero essere stati raccolti in un momento in cui l'analisi dell'espressione genica mediante il sequenziamento dell'RNA non era prevista per i campioni. Tutto ciò porta a una diminuzione della qualità e della quantità dell'RNA estratto disponibili per la generazione di dati di sequenza utili. La bassa probabilità di successo, combinata con l'alto costo del sequenziamento, ha dissuaso molti ricercatori dal cercare di generare e analizzare i dati dell'espressione genica da campioni FFPE potenzialmente utili. Alcuni studi negli ultimi anni hanno dimostrato l'usabilità dei tessuti FFPE per l'analisi dell'espressione genica²^,⁶^,⁷^,⁸^,⁹, anche se per meno campioni e/o più recenti.

Come studio di fattibilità, abbiamo utilizzato l'RNA estratto da campioni di tessuto tumorale FFPE da tre repository di tessuti residui da registri di sorveglianza, epidemiologia e risultati finali (SEER) per il sequenziamento dell'RNA e l'analisi dell'espressione genica¹⁰. Procurati da laboratori di patologia clinica, i tessuti FFPE da adenocarcinomi sigillanti ovarici di alta qualità sono stati conservati da 7 a 32 anni in condizioni variabili prima dell'estrazione dell'RNA. Poiché nella maggior parte dei casi questi blocchi erano stati immagazzinati in siti diversi per anni senza l'aspettativa di alcuna analisi genetica sensibile in futuro, non era stata prestata molta attenzione per preservare gli acidi nucleici. Così, la maggior parte dei campioni esibivano RNA di scarsa qualità, con una grande percentuale di campioni contaminati da batteri. Tuttavia, siamo stati in grado di eseguire la quantificazione genica, misurare l'uniformità e la continuità della copertura genica ed eseguire l'analisi della correlazione di Pearson tra repliche biologiche per misurare la riproducibilità. Sulla base di una serie di pannelli genetici chiave, abbiamo confrontato i campioni nel nostro studio con i dati di The Cancer Genome Atlas (TCGA) e abbiamo confermato che circa il 60% dei campioni aveva profili di espressione genica comparabili¹¹. In base alla correlazione tra vari risultati QC e metadati di esempio, abbiamo identificato le metriche chiave di Controllo qualità che hanno un buon valore predittivo per identificare i campioni che hanno maggiori probabilità di generare dati di sequenza utilizzabili¹¹.

Qui descriviamo la metodologia utilizzata per la valutazione della qualità FFPE-RNA, la generazione di librerie di sequenziamento a partire da campioni di RNA estratti e l'analisi bioinformatica dei dati di sequenziamento.

Protocollo

1. Quantità di RNA e valutazione della qualità

Selezionare i campioni FFPE in base a criteri predefiniti ed estrarre l'RNA utilizzando un metodo appropriato (ad esempio, kit di estrazione acido FFPE-nuclei, tabella dei materiali).
NOTA: Ci sono diversi metodi disponibili per l'estrazione FFPE-RNA, tra cui i metodi di microdissezione più recenti che possono funzionare con pochissimi tessuti ed estrarre RNA di buona qualità¹²^,¹³^,¹⁴.
La massima attenzione deve essere presa per preservare l'integrità dell'RNA in tutte le fasi. Ciò include la collaborazione con l'acqua deionizzata libera da RNase, l'utilizzo di plastica senza RNase e la pulizia di tutti gli strumenti che entrano in contatto con i blocchi FFPE con reagenti di decontaminazione RNase.
L'RNA deve sempre essere maneggiato con attenzione e tenuto nel ghiaccio, salvo diversa specifica per ridurre al minimo la degradazione durante la manipolazione.
Se è disponibile abbastanza materiale, estrarre l'RNA da più di una regione nel blocco FFPE per generare repliche biologiche dal maggior numero possibile di campioni. Per alcuni dei campioni con un'ampia resa dell'RNA, dividere l'RNA estratto in due per elaborarlo come repliche tecniche.
Se possibile, raccogliere una piccola quantità di campione separatamente dopo l'estrazione per il QC (cioè un QC) per evitare ripetuti cicli di manipolazione e congelamento del campione che probabilmente porteranno alla degradazione dell'RNA.
Controllare la qualità dell'RNA (preferibilmente dal QC) eseguendolo su un sistema RNA QC (ad esempio, il sistema Agilent Bioanalyzer utilizzando un chip RNA Nano, Table of Materials) secondo le istruzioni del produttore.
Analizzare la distribuzione dei frammenti di RNA nei campioni (ad esempio, utilizzando il software Bioanalyzer 2100 Expert) calcolando i valori DV₂₀₀ e DV₁₀₀ come percentuale di frammenti di dimensioni superiori a 200 nt (DV₂₀₀) o 100 nt (DV₁₀₀).
Tra DV₂₀₀ e DV₁₀₀, identificare la metrica con una maggiore diffusione dei valori per il set di campioni specificato e selezionarla per raggruppare i campioni in base al loro grado di intattabilità.
NOTA: per i set di campioni con molecole di RNA più intatte (ad esempio, valori dV₂₀₀ elevati, tutti o la maggior parte con DV₂₀₀ > 40%), DV₂₀₀ è probabilmente un'utile metrica QC. Tuttavia, per i set di campioni con trascrizioni più degradate (ad esempio, valori DV₂₀₀ bassi, tutti o la maggior parte con DV₂₀₀ < 40%), DV₁₀₀ è più probabile che sia utile.
In base alle metriche Di Controllo/InBase, identificare i campioni con DV₁₀₀ < 40%. Poiché è molto probabile che questo grado di degradazione non generi dati di sequenziamento utili¹¹, è consigliabile evitare l'elaborazione di tali campioni. Se sono disponibili sostituzioni per tali campioni, la loro qualità deve essere controllata in modo da includere idealmente solo i campioni con DV₁₀₀ > 50%.

2. Preparazione della libreria di sequenziamento

In base alla qualità dei campioni valutati nella sezione 1, identificare un metodo appropriato per la generazione delle librerie di sequenziamento.
1. Per set di campioni con valori di dV 200 molto bassi e dV₂₀₀ elevati, utilizzare il sequenziamento dell'mRNA (cioè la cattura di trascrizioni poliadenilate), il sequenziamento mirato dell'RNA (cioè, l'uso di sonde di cattura per specifici geni di interesse, il sequenziamento dell'esoma dell'RNA (cioè l'uso di sonde di cattura per arricchire per il trascrittoma codificante) o il sequenziamento totale dell'RNA (cioè l'uso di primer casuali per la trascrizione inversa per sequenziare l'intera popolazione di RNA dopo aver rimosso l'RNA ribosomico dai campioni). Tuttavia, è importante notare che il processo di fissazione può introdurre pregiudizi nell'RNA estratto. Pertanto, gli approcci di acquisizione potrebbero non funzionare bene in tutti i casi, anche con valori DV₂₀₀ elevati.
2. Se il set di campioni include campioni ad alta degradazione (DV₂₀₀ < 30%), utilizzare un metodo di preparazione della libreria RNA totale e non uno che dipende dall'acquisizione di aree specifiche delle trascrizioni, poiché tali aree specifiche potrebbero mancare nei campioni degradati. L'uso di primer casuali per la generazione di cDNA porta a una maggiore rappresentazione dell'RNA utilizzabile nella libreria finale, ed è, quindi, più adatto per i campioni di FFPE-RNA.
3. Per l'esaurimento dell'RNA ribosomico per set di campioni ad alta degradazione, utilizzare metodi basati su RNaseH. Questi sono metodi in cui le sonde dna specifiche del rRNA si legano al rRNA, le molecole a doppio filamento vengono digerite da RNaseH e le sonde rimanenti vengono ripulite da DNase (ad esempio, kit di deplezione rRNA NEBNext, Tabella dei materiali). Questi metodi funzionano meglio per i campioni degradati rispetto ad altri metodi⁸.
Per la generazione di librerie di sequenziamento, utilizzare quantità di input più elevate (se possibile) per campioni con RNA più degradato (DV₁₀₀ < 60%). Mentre i campioni con RNA di qualità ragionevolmente buona (DV₁₀₀ > 60%) può produrre buoni dati di sequenza anche a quantità di ingresso inferiori (il più basso testato per questo protocollo con FFPE-RNA è stato di 20 ng), per un RNA più degradato (DV₁₀₀ < 60%), è meglio iniziare con quantità di ingresso più elevate (ad esempio, >100 ng).
NOTA: Se è disponibile un campione sufficiente (ad esempio, >500 ng), si consiglia di salvare almeno la metà del campione per ripetere la preparazione della libreria, se necessario. Per i campioni di input bassi (ad esempio, <100 ng), è in genere preferibile utilizzare l'intera quantità e generare una libreria di sufficiente diversità.
Dopo aver selezionato un kit di preparazione della libreria adatto per la generazione di librerie di seq di RNA totali da campioni ad alta degradazione (ad esempio, NEBNext Ultra II RNA Library Prep Kit per Illumina, vedere Tabella dei materiali), seguire le istruzioni del produttore per generare le librerie.
NOTA: Durante la preparazione della libreria, è importante saltare la fase di frammentazione dell'RNA per i campioni degradati e garantire l'uso di primer casuali per la sintesi cDNA del primo filamento.
Per migliorare l'efficienza e la velocità, in particolare per i campioni a basso input, utilizzare rack magnetici appropriati con forti magneti fissi per la purificazione basata sul tallone e le fasi di selezione delle dimensioni (vedere Tabella dei materiali).
Per l'arricchimento PCR del DNA ligato dell'adattatore, regolare il numero di cicli di amplificazione in base alla quantità di DNA di input per garantire la massima rappresentazione evitando inutili duplicazioni delle molecole della libreria. Per i campioni FFPE-RNA a basso input (<100 ng), si consigliano 16-18 cicli di amplificazione, mentre i campioni di input elevati (1.000 ng) di solito generano quantità sufficienti di libreria in 12-14 cicli di amplificazione.
Seguendo l'amplificazione e la pulizia della PCR in base alle istruzioni del produttore, valuta la qualità della libreria analizzando la concentrazione della libreria e la distribuzione delle molecole su una piattaforma appropriata (ad esempio, Agilent Bioanalyzer DNA Chip, vedi Tabella dei materiali). Per i campioni con picchi di primer (80 bp) o picchi adapter-dimer (128 bp), ripetere la pulizia per rimuovere tali picchi.
Calcolare la dimensione media della libreria per ogni libreria (ad esempio, utilizzando il software Bioanalyzer 2100 Expert).

3. Sequenziamento libreria QC

Una volta che è stato accertato che le librerie sono prive di primer in eccesso e adattatori-dimer e hanno una concentrazione sufficiente per il successivo sequenziamento, quantificano ulteriormente da qPCR.
NOTA: a causa della sensibilità della generazione di cluster verso la concentrazione della libreria, una quantificazione accurata è fondamentale per evitare che il sequenziamento costoso esegua una sottoperformance o un sovraccarico. I metodi di PCR (qPCR) in tempo reale sono utili per migliorare la densità dei cluster sulle piattaforme Illumina senza comportare un superamento eccessivo. Il metodo qPCR è più preciso e più sensibile rispetto ai metodi basati sull'analisi qualitativa e/o quantitativa di tutte le molecole della libreria (ad esempio, Agilent Bioanalyzer), perché misura i modelli che hanno entrambe le sequenze di adattatori su entrambe le estremità che formeranno cluster sulla cella di flusso. Le dimensioni della libreria devono tuttavia essere note in anticipo come correzione delle dimensioni deve essere applicata a tutti i campioni in modo che i risultati possano essere confrontati con una curva standard.
NPE': I cappotti e i guanti da laboratorio devono essere sempre indossati quando si esegue qPCR e la procedura deve essere eseguita in un armadietto di biosicurezza seguendo le istruzioni del produttore.
1. Impostare una piastra di 96 pozze con tre repliche per ogni campione per la prevenzione degli errori utilizzando un kit adatto (ad esempio, KAPA SYBR FAST qPCR Master Mix per le librerie Illumina, una parte del kit di quantificazione della libreria, vedere Tabella dei materiali), insieme agli standard, un controllo positivo (ad esempio, un controllo PhiX, vedere Tabella dei materiali) e un controllo senza modello (NTC). Il NTC è qPCR mix senza libreria di DNA. Il controllo positivo può essere qualsiasi libreria con concentrazione nota e dimensione del frammento.
  1. Preparare un minimo di sei diluizioni degli standard seguendo il protocollo del fornitore.
2. Dopo aver aggiunto tutti i componenti (ad esempio, qPCR master mix, librerie, standard), coprire la piastra con pellicola di sigillazione e utilizzare uno squeegee per garantire che la pellicola faccia un contatto uniforme e sicuro con la piastra.
3. Vorticare e girare verso il basso la piastra a 1.500 rpm per almeno 1 min. Ispezionare visivamente la piastra per assicurarsi che non ci siano bolle d'aria sul fondo dei pozzi.
4. Impostare la piastra sul ciclore termico (ad esempio CFX96 Touch System, vedere Table of Materials) utilizzando le impostazioni consigliate dal produttore.
5. Salvare la cartella di esecuzione in cui è possibile accedervi per l'analisi dei dati.
6. Durante l'analisi dei dati, verificare che la pendenza sia compresa tra -3,1 e -3,6, efficienza dal 90% al 110% e R² (coefficiente di correlazione ottenuto per la curva standard) non inferiore a 0,98.
Pooling: Una volta ottenuta la concentrazione qPCR delle librerie pronte per la sequenziamento, si accumulano quantità di equimolar di ciascuna delle librerie, a seconda del numero di letture di sequenziamento richieste per campione e dell'output di sequenziamento dello strumento.
QC dei pool: Quantitate i pool di librerie nuovamente da qPCR seguendo lo stesso protocollo descritto nel passaggio 3.1.

4. Sequenziamento

A seconda dei parametri di esecuzione, estrarre i kit di reagente di sequenziamento e scongelarli seguendo la guida utente. Si prega di controllare il sito Web Illumina per le ultime versioni di tutte le guide utente per la sequenza su strumenti Illumina.
Assicurarsi che i reagenti siano completamente sconlorosi e posizionare il vassoio dei reagenti a 4 gradi centigradi. La corsa dovrebbe essere avviata entro e non oltre 2 h dopo che i reagenti sono stati scongelate. Non facendo che potrebbe influenzare la qualità dei risultati di esecuzione.
Invertire la cartuccia 5x per mescolare i reagenti e toccare delicatamente sul banco per ridurre le bolle d'aria.
Mettere da parte il pacchetto della cella di flusso non avvolto a temperatura ambiente per 30 min.
Srotolare il pacchetto della cella di flusso e pulire la superficie di vetro della cella di flusso con una pulizia dell'alcool senza lafote. Asciugare il vetro con un tessuto da laboratorio a bassa lanella.
Aprire l'applicazione Illumina "Experiment Manager". Scegli "Crea foglio di esempio", quindi scegli Sequencer e fai clic su "Avanti".
Creare e caricare il foglio di esempio in base ai criteri del sequenziatore Illumina (ad esempio, Illumina Experiment Manager, guida software).
Quando richiesto, eseguire la scansione nel codice a barre del kit di reagenti e immettere i parametri di impostazione dell'esecuzione (ad esempio, per una singola esecuzione del ciclo PE 75 indicizzata, immettere 76-8-76).
Denatura e diluire il pool di librerie in base alla raccomandazione della guida utente del sequencer (ad esempio, NextSeq 500 System guide di Illumina, vedere Tabella dei materiali).
Denatura e diluire la libreria di controllo PhiX (vedi Tabella dei materiali) alla concentrazione appropriata (ad esempio, 1,8 pM per NextSeq).
Mescolare la libreria di campioni e il controllo PhiX per ottenere un rapporto di volume di controllo PhiX dell'1%.
Caricare il campione denaturato e diluito nella cartuccia del reagente nel serbatoio designato.
Caricare la cella di flusso, la cartuccia del buffer e la cartuccia del reagente.
Eseguire un controllo e una revisione automatizzati per assicurarsi che i parametri di esecuzione superino il controllo del sistema.
Al termine del controllo automatico, selezionare Avvia per avviare l'esecuzione della sequenza.

5. Analisi dei dati e valutazione della qualità

NOTA: un tipico flusso di lavoro di analisi dei dati dell'RNA -seq (Figura 1) include la pre-elaborazione e il QC, l'allineamento al genoma e il QC post-allineamento, la quantificazione genica e trascrizione, l'analisi della correlazione dei campioni, l'analisi differenziale tra diversi gruppi di campioni, le condizioni di trattamento e l'arricchimento dei geni e l'analisi del percorso.

I dati dell'RNA-seq possono avere problemi di qualità che possono influenzare l'accuratezza della profilazione genica e portare a conclusioni errate. Pertanto, i controlli QC iniziali per la qualità di sequenziamento, contaminazione, distorsione della sequenza e altre fonti di artefatti sono molto importanti. L'applicazione di una pipeline RNA-Seq QC simile al flusso di lavoro descritto di seguito è consigliata per rilevare gli artefatti e applicare il filtraggio o la correzione prima dell'analisi a valle.

Preelaborazione
NOTA: questo include il demultiplexing, la valutazione della qualità di lettura della sequenza, il contenuto GC, la presenza di adattatori di sequenza, k-mer sovrarappresentati e letture duplicate PCR. Queste informazioni consentono di rilevare errori di sequenza, artefatti PCR o contaminazione.
1. Demultiplex Illumina sequencing viene eseguito utilizzando lo strumento software Illumina bcl2fastq2 per generare file FASTQ non elaborati per ogni campione definito nel foglio campione. Consentire una mancata corrispondenza nei codici a barre dell'indice di esempio per tollerare errori di sequenza in caso di mancata collisione del codice a barre.
2. Eseguire lo strumento software FASTQC¹⁵ per eseguire un controllo di qualità sui file FASTQ non elaborati per rilevare eventuali scarse qualità o anomalie nelle letture di sequenziamento.
3. Per il taglio di adattatori e basi di bassa qualità, tagliare gli adattatori di sequenziamento e le basi di bassa qualità utilizzando gli strumenti software Cutadapt¹⁶ o Trimmomatic^17. Salvare le letture tagliate nei file fastq a coppie.
4. Schermo di contaminazione
  1. Eseguire FASTQ_screen¹⁸ per rilevare possibili contaminazioni incrociate con altre specie.
  2. Eseguire miniKraken di Kraken2¹⁹ per identificare le tassonomie delle specie contaminanti.
Allineamento al genoma di riferimento e QC post-allineamento
1. Le letture tagliate possono essere allineate a una sequenza genomica di riferimento (GRCh Build hg19 o hg38) utilizzando l'aligner STAR²⁰. Applicare il file GTF di annotazione Gencode per guidare l'allineamento della trascrizione con giunzione. Si consiglia di eseguire STAR 2-pass per aumentare la sensibilità alle nuove giunzioni di giunzione. Nel secondo passaggio, tutte le letture saranno rimappate utilizzando geni annotati e trascrizioni e nuove giunzioni dal primo passaggio.
2. Eseguire il Controllo di controllo post-allineamento.
  1. Eseguire I²¹MarkDuplicates di Picard per valutare la complessità della libreria determinando la quantità di letture univoche o non duplicate negli esempi.
  2. Esegui il programma CollectRnaSeqMetrics di Picard per raccogliere percentuali di mappatura su code, regioni introniche, intergeniche, UTR e copertura genica del corpo.
  3. Eseguire RSeQC²² per determinare la distanza interna della coppia di lettura, la distribuzione di lettura tra gli esoni CDS, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, leggere il contenuto GC, la saturazione della giunzione e le informazioni sul filamento della libreria.
  4. Eseguire multi-QC²³ per generare un report aggregato in formato HTML.
Analisi della quantificazione e della correzione genica
1. Eseguire RSEM²⁴ per ottenere il conteggio delle materie prime e il conteggio di lettura normalizzato su geni e trascrizioni. La misurazione del conteggio delle letture come RPKM (letture per chilobase di modello esonizzato per milione di letture), FPKM (frammenti per kilobase di modelli di exon per milione di letture mappate) e TPM (trascrizioni per milione) sono i valori di espressione genica RNA-seq più frequentemente segnalati. I geni espressi al di sotto di una soglia rumorosa (ad esempio TPM < 1 o conteggio non elaborato <5) possono essere filtrati.
2. Eseguire la quantificazione della trascrizione per aggregare i conteggi non elaborati delle letture mappate a ogni sequenza di trascrizioni utilizzando programmi come HTSeq-count o featureCounts.
3. Eseguire Principal Components Analysis (PCA) utilizzando uno script R per determinare gli effetti batch e valutare una mappa di qualità del set di dati specificato²⁵. L'analisi della correlazione dei campioni può essere effettuata utilizzando la correlazione di Pearson tra diverse metriche.
Analisi dell'espressione genica differenziale
1. Eseguire l'analisi differenziale genica tra le condizioni del campione utilizzando il programma edgeR²⁶^,²⁷ e/o limma-Voom²⁸ e utilizzare metodi di normalizzazione tra cui TPM, TMM, DESeqo UpperQuartile.
2. Si consiglia di eseguire almeno due strumenti software di analisi differenziale per chiamare due set di elenchi DEG per il confronto e ottenere i DEG finali per migliorare la sensibilità e l'accuratezza del rilevamento.
Arricchimento dei set genici e analisi del percorso
1. Eseguire Gene Set Enrichment Analysis (GSEA)²⁹^,³⁰ in base alla classificazione delle trascrizioni in base a una misurazione dell'elenco dei geni espressi in modo differenziale (DEG) per determinare se i DEG mostrano differenze statisticamente significative e concordanti tra le condizioni biologiche.
2. Eseguire l'analisi delle funzioni utilizzando risorse quali Gene Ontology³¹, DAVID³²^,³³o altri strumenti software disponibili.

Risultati

La metodologia descritta in precedenza è stata applicata a 67 campioni di FFPE che erano stati conservati in una varietà di condizioni diverse per 7-32 anni (il tempo di conservazione dei campioni mediani era di 17,5 anni). I dati del set di dati e dell'analisi qui presentati sono stati descritti in precedenza e pubblicati in^. Per controllare la qualità del campione come descritto in precedenza (ad esempio, le tracce di esempio nella figura 2),DV₁₀₀ è r...

Discussione

Il metodo descritto qui descrive i passaggi principali necessari per ottenere buoni dati di sequenza da campioni di FFPE-RNA. I punti principali da considerare con questo metodo sono: (1) Assicurarsi che l'RNA sia preservato al meglio dopo l'estrazione riducendo al minimo la manipolazione del campione e il congelamento e lo scongelamento dei cicli. Aliquote QC separate sono molto utili. (2) Utilizzare una metrica QC che è migliore per il set di campioni specificato. I valori RIN e DV₂₀₀ spesso non sono utili ...

Divulgazioni

Questo lavoro è stato finanziato dal National Cancer Institute (NCI), National Institutes of Health (NIH). è l'appaltatore delle operazioni e del supporto tecnico del Frederick National Laboratory for Cancer Research, interamente finanziato dalla NIH. Diversi autori (Yz, MM, KT, YL, JS, BT) sono affiliati a Leidos Biomedical Research, Inc., ma tutti gli autori sono completamente finanziati dall'Istituto Nazionale per il Cancro, compresi gli stipendi degli autori e i materiali di ricerca. non ha fornito stipendio agli autori (Yz, MM, KT, YL, JS, BT) o materiale per lo studio, né ha avuto alcun ruolo nella progettazione dello studio, nella raccolta di dati, nell'analisi, nella pubblicazione o nella preparazione del manoscritto.

Riconoscimenti

Siamo grati alla Dott.ssa Danielle Carrick (Division of Cancer Control and Population Sciences, National Cancer Institute) per l'aiuto continuo, in particolare per l'introduzione di questo studio, fornendoci i campioni e per suggerimenti utili durante l'analisi dei dati. Ringraziamo sinceramente tutti i membri del CCR Sequencing Facility presso il Frederick National Laboratory for Cancer Research per il loro aiuto durante la preparazione del campione e il sequenziamento, in particolare Brenda Ho per l'assistenza nel campione QC, Oksana German per la biblioteca QC, Tatyana Smirnova per l'esecuzione dei sequencer. Vorremmo anche ringraziare Tsai-wei Shen e Ashley Walton presso Sequencing Facility Bioinformatics Group per aver contribuito con l'analisi dei dati e l'implementazione della pipeline RNA-seq. Ringraziamo anche CCBR e NCBR per assistenza con la pipeline di analisi RNaseq e lo sviluppo di best practice.

Materiali

Name	Company	Catalog Number	Comments
2100 Bioanalyzer	Agilent	G2939BA
Agilent DNA 7500 Kit	Agilent	5067-1506
Agilent High Sensitivity DNA Kit	Agilent	5067-4626
Agilent RNA 6000 Nano Kit	Agilent	5067-1511
AllPrep DNA/RNA FFPE Kit	Qiagen	80234
CFX96 Touch System	Bio-Rad	1855195
Library Quantification kit v2-Illumina	KapaBiosystems	KK4824
NEBNext Ultra II Directional RNA Library Prep Kit for Illumina	New England Biolabs	E7765S	https://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)	New England Biolabs	E6310L
NextSeq 500 Sequencing System	Illumina	SY-415-1001	NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control Kit	Illumina	FC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)	Illumina	20024907
10X Genomics Magnetic Separator	10X Genomics	120250
Rotator Multimixer	VWR	13916-822
C1000 Touch Thermal Cycler	Bio-Rad	1851197
Sequencing reagent kit	Illumina	20024907
Flow cell package	Illumina	20024907
Buffer cartridge and the reagent cartridge	Illumina	20024907
Sodium hydroxide solution (0.2N)	Millipore Sigma	SX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0	Fisher Scientific	50-151-871

Riferimenti

Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
. Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019)
Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
. Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019)
Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
Evaluating RNA Quality from FFPE Samples. Illumina Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016)

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Genetica Numero 160 Sequenziamento dell RNA paraffina fissa in formalina incorporata FFPE sequenziamento di nuova generazione NGS analisi RNA seq

This article has been published

Video Coming Soon

Keep me updated: