JoVE Logo

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

  • Résumé
  • Résumé
  • Introduction
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Cette méthode décrit les étapes pour améliorer la qualité et la quantité de données de séquence qui peuvent être obtenues à partir d’échantillons d’ARN formalin-fixes paraffin-embedded (FFPE). Nous décrivons la méthodologie pour évaluer plus précisément la qualité des échantillons FFPE-ARN, préparer des bibliothèques de séquençage et analyser les données des échantillons FFPE-ARN.

Résumé

L’analyse de l’expression génique par séquençage de l’ARN (ARN-seq) permet un aperçu unique des échantillons cliniques qui peuvent potentiellement mener à une compréhension mécaniste de la base de diverses maladies ainsi que des mécanismes de résistance et/ou de susceptibilité. Cependant, les tissus ffPE, qui représentent la méthode la plus commune pour préserver la morphologie des tissus dans les spécimens cliniques, ne sont pas les meilleures sources pour l’analyse de profilage d’expression génique. L’ARN obtenu à partir de tels échantillons est souvent dégradé, fragmenté et chimiquement modifié, ce qui conduit à des bibliothèques de séquençage sous-optimales. À leur tour, ceux-ci génèrent des données de séquence de mauvaise qualité qui peuvent ne pas être fiables pour l’analyse de l’expression des gènes et la découverte de la mutation. Afin de tirer le meilleur parti des échantillons de la FFPE et d’obtenir les meilleures données possibles à partir d’échantillons de mauvaise qualité, il est important de prendre certaines précautions tout en planifiant la conception expérimentale, en préparant les bibliothèques de séquençage et lors de l’analyse des données. Cela comprend l’utilisation de mesures appropriées pour un contrôle précis de la qualité de l’échantillon (QC), l’identification des meilleures méthodes pour diverses étapes au cours de la génération de bibliothèque de séquençage, et la bibliothèque soigneuse QC. En outre, l’application d’outils logiciels et de paramètres corrects pour l’analyse des données de séquence est essentielle afin d’identifier les artefacts dans les données ARN-seq, filtrer la contamination et les lectures de faible qualité, évaluer l’uniformité de la couverture génétique et mesurer la reproductibilité des profils d’expression génique parmi les répliques biologiques. Ces étapes peuvent assurer une grande précision et une reproductibilité pour le profilage d’échantillons d’ARN très hétérogènes. Ici, nous décrivons les différentes étapes pour l’échantillon QC, la préparation de bibliothèque et QC, le séquençage, et l’analyse de données qui peuvent aider à augmenter la quantité de données utiles obtenues à partir de l’ARN de mauvaise qualité, comme celui obtenu à partir de tissus FFPE-ARN.

Introduction

L’utilisation d’approches de séquençage de nouvelle génération nous a permis de glaner une mine d’informations provenant de divers types d’échantillons. Cependant, les échantillons anciens et mal conservés restent inapplicables pour les méthodes couramment utilisées pour générer des données de séquence et nécessitent souvent des modifications à des protocoles bien établis. Les tissus FFPE représentent un tel type d’échantillon qui a été largement utilisé pour les spécimens cliniques1,2,3. Tandis que la préservation de FFPE maintient la morphologie de tissu, les acides nucléiques dans les tissus de FFPE présentent habituellement un large éventail de dommages et de dégradation, rendant difficile de récupérer l’information génomique qui peut mener aux informations importantes au sujet des mécanismes moléculaires sous-jacents à divers désordres.

Les données d’expression génique générées par le séquençage de l’ARN sont souvent déterminantes dans l’étude des mécanismes de maladie et de résistance et complètent l’analyse de mutation de l’ADN. Cependant, l’ARN est plus sensible à la dégradation, ce qui rend plus difficile de générer des données précises d’expression génique à partir de tissus FFPE. De plus, étant donné que la grande disponibilité et l’abordabilité du séquençage sont relativement récentes, les spécimens plus anciens n’étaient souvent pas entreposés dans des conditions nécessaires pour préserver l’intégrité de l’ARN. Certains des problèmes pour les échantillons ffPE comprennent la dégradation de l’ARN due à l’intégration dans la paraffine, la modification chimique de l’ARN conduisant à la fragmentation ou la réfractabilité aux processus enzymatiques nécessaires pour le séquençage, et la perte des queues poly-A, limitant l’applicabilité de l’oligo-dT comme amorce pour la transcriptase inverse4. Un autre défi est la manipulation /stockage des échantillons FFPE dans des conditions sous-optimales, ce qui peut conduire à une dégradation supplémentaire des molécules de laboratoire telles que l’ARN dans les tissus5. Ceci est particulièrement pertinent pour les échantillons plus anciens qui peuvent avoir été prélevés à un moment où l’analyse de l’expression génique par séquençage de l’ARN n’était pas prévue pour les échantillons. Tous ces éléments conduisent à une diminution de la qualité et de la quantité de l’ARN extrait disponible pour générer des données de séquence utiles. La faible probabilité de succès, combinée au coût élevé du séquençage, a dissuadé de nombreux chercheurs d’essayer de générer et d’analyser les données sur l’expression des gènes à partir d’échantillons potentiellement utiles de la FFPE. Certaines études menées ces dernières années ont démontré la facilité d’utilisation des tissus FFPE pour l’analyse de l’expression génique2,6,7,8,9, mais pour des échantillons moins nombreux et/ou plus récents.

Comme étude de faisabilité, nous avons utilisé l’ARN extrait des spécimens de tissu tumoral FFPE de trois dépôts de tissus résiduels de surveillance, d’épidémiologie et de résultats finaux (SEER) registres du cancer pour le séquençage de l’ARN et l’analyse de l’expression génique10. Achetés des laboratoires cliniques de pathologie, les tissus de FFPE des adénocarcinomes séreux ovariens de haute qualité ont été stockés de 7 à 32 ans dans des conditions variables avant l’extraction d’ARN. Parce que dans la plupart des cas, ces blocs avaient été stockés dans différents sites pendant des années sans attendre une analyse génétique sensible à l’avenir, peu de soin n’avait été pris pour préserver les acides nucléiques. Ainsi, la plupart des échantillons présentaient de l’ARN de mauvaise qualité, avec une grande proportion d’échantillons contaminés par des bactéries. Néanmoins, nous avons été en mesure d’effectuer la quantification des gènes, de mesurer l’uniformité et la continuité de la couverture génétique et d’effectuer l’analyse de corrélation Pearson entre les répliques biologiques pour mesurer la reproductibilité. Sur la base d’un ensemble de panneaux génétiques de signature clé, nous avons comparé les échantillons de notre étude avec les données de l’Atlas du génome du cancer (TCGA) et confirmé qu’environ 60 % des échantillons avaient des profils d’expression géniquecomparables 11. En nous basant sur la corrélation entre les divers résultats de QC et les métadonnées de l’échantillon, nous avons identifié des mesures clés de QC qui ont une bonne valeur prédictive pour identifier les échantillons qui sont plus susceptibles de générer des données de séquence utilisables11.

Ici, nous décrivons la méthodologie utilisée pour l’évaluation de la qualité de l’ARN FFPE, la génération de bibliothèques de séquençage à partir d’échantillons d’ARN extraits, et l’analyse bioinformatique des données de séquençage.

Protocole

1. Évaluation de la quantité et de la qualité de l’ARN

  1. Sélectionnez les échantillons FFPE selon des critères prédéfinis et extrayez l’ARN selon une méthode appropriée (p. ex., kit d’extraction d’acide FFPE-nuclei, Tableau des matériaux).
    REMARQUE: Il existe plusieurs méthodes différentes disponibles pour l’extraction FFPE-ARN, y compris les méthodes de microdissection plus récentes qui peuvent travailler avec très peu de tissu et d’extraire l’ARN de bonne qualité12,13,14.
  2. Il faut faire le plus grand soin de préserver l’intégrité de l’ARN à toutes les étapes. Il s’agit notamment de travailler avec de l’eau déionisée gratuite RNase, d’utiliser des plastiques sans RNase, et de nettoyer tous les instruments qui entrent en contact avec les blocs FFPE avec des réactifs de décontamination RNase.
  3. L’ARN doit toujours être manipulé avec soin et conservé dans la glace à moins qu’il ne soit spécifié autrement pour minimiser la dégradation pendant la manipulation.
  4. Si suffisamment de matériel est disponible, extraire l’ARN de plus d’une région du bloc FFPE pour générer des répliques biologiques à partir du plus grand nombre possible d’échantillons. Pour certains des échantillons avec un rendement suffisant d’ARN, divisez l’ARN extrait en deux pour traiter comme réplique technique.
  5. Si possible, recueillir une petite quantité d’échantillon séparément après l’extraction pour QC (c.-à-d., un aliquot DE QC) pour éviter les cycles répétés de manipulation et de gel-dégel de l’échantillon qui mèneront probablement à la dégradation de l’ARN.
  6. Vérifiez la qualité de l’ARN (de préférence à partir de l’aliquot QC) en l’exécutant sur un système d’ARN QC (p. ex., système Agilent Bioanalyzer à l’aide d’une puce Nano ARN, Tableau des matériaux)selon les instructions du fabricant.
  7. Analyser la distribution de fragments d’ARN dans les échantillons (p. ex., à l’aide du logiciel Bioanalyzer 2100 Expert) en calculant les valeurs DV200 et DV100 comme le pourcentage de fragments de plus de 200 nt (DV200) ou 100 nt (DV100) de taille.
  8. Parmi DV200 et DV100, identifier la mesure qui a une plus grande propagation des valeurs pour l’ensemble d’échantillons donnés, et choisir que pour regrouper les échantillons en fonction de leur degré de intacte.
    REMARQUE : Pour les ensembles d’échantillons avec des molécules d’ARN plus intactes (c.-à-d. des valeurs élevées de DV200, la totalité ou la plupart avec DV200 'gt; 40%), DV200 est susceptible d’être une mesure utile QC. Toutefois, pour les ensembles d’échantillons avec des relevés de notes plus dégradés (c.-à-d. les valeurs basses DV200, la totalité ou la plupart avec DV200 'lt; 40%), DV100 est plus susceptible d’être utile.
  9. Sur la base des mesures QC, identifier les échantillons qui ont DV100 'lt; 40%. Étant donné que ce degré de dégradation est très susceptible de ne pas générer de données de séquençageutiles 11, il est conseillé d’éviter le traitement de tels échantillons. Si des remplacements pour de tels échantillons sont disponibles, leur qualité devrait être vérifiée pour inclure idéalement seulement des échantillons avec DV100 'gt; 50%.

2. Préparation de la bibliothèque de séquençage

  1. En fonction de la qualité des échantillons évalués à la section 1, identifiez une méthode appropriée pour générer les bibliothèques de séquençage.
    1. Pour les ensembles d’échantillons avec une dégradation très faible et des valeurs élevées DV200, utilisez le séquençage de l’ARNm (c.-à-d. capture de transcriptions polyadenylated), séquençage ciblé de l’ARN (c.-à-d. l’utilisation de sondes de capture pour des gènes spécifiques d’intérêt), le séquençage d’exome d’ARN (c.-à-d. l’utilisation de sondes de capture pour enrichir pour le transcriptome de codage), ou le séquençage total d’ARN (c.-à-d. l’utilisation d’amorçage aléatoires pour la transcription inverse pour séquencer toute la population d’ARN après avoir retiré l’ARN ribosomal des échantillons). Cependant, il est important de noter que le processus de fixation peut introduire un biais dans l’ARN extrait. Ainsi, les approches de capture peuvent ne pas fonctionner bien dans tous les cas, même avec des valeurs élevées DV200.
    2. Si l’ensemble de l’échantillon comprend des échantillons à forte dégradation (DV200 et 30 %), utilisez une méthode totale de préparation de la bibliothèque d’ARN et non une méthode qui dépend de la capture de régions spécifiques des transcriptions, parce que ces régions spécifiques peuvent manquer dans des échantillons dégradés. L’utilisation d’amorces aléatoires pour la génération de l’ADNC conduit à une plus grande représentation de l’ARN utilisable dans la bibliothèque finale, et est, par conséquent, plus adapté pour les échantillons FFPE-ARN.
    3. Pour l’épuisement de l’ARN ribosomal pour les ensembles d’échantillons avec une dégradation élevée, utilisez des méthodes basées sur RNaseH. Ce sont des méthodes où les sondes d’ADN spécifiques à l’ARR se lient à l’ARR, les molécules à double brin sont digérées par RNaseH, et les sondes restantes sont nettoyées par DNase (par exemple, kit d’épuisement de l’ARNNNnext NEBNext, Tableau des matériaux). Ces méthodes fonctionnent mieux pour les échantillons dégradés que certaines autres méthodes8.
  2. Pour générer des bibliothèques de séquençage, utiliser des montants d’intrants plus élevés (si possible) pour les échantillons qui ont plus d’ARN dégradé (DV100 et lt; 60%). Alors que les échantillons avec l’ARN de qualité raisonnable (DV100 -gt; 60%) peut donner de bonnes données de séquence, même à des quantités d’entrée plus faibles (le plus bas testé pour ce protocole avec FFPE-ARN était de 20 ng), pour plus dégradée ARN (DV100 'lt; 60%), il est préférable de commencer avec des quantités d’entrée plus élevées (par exemple, 'gt;100 ng).
    REMARQUE : Si suffisamment d’échantillons (p. ex., 500 ng) sont disponibles, il est conseillé d’économiser au moins la moitié de l’échantillon pour répéter la préparation de la bibliothèque, si nécessaire. Pour les échantillons à faible entrée (p. ex., lt;100 ng), il est généralement préférable d’utiliser la totalité de la quantité et de générer une bibliothèque d’une diversité suffisante.
  3. Après avoir sélectionné une trousse de préparation de bibliothèque appropriée pour générer des bibliothèques totales de seq d’ARN à partir d’échantillons à forte dégradation (p. ex., kit de préparation de bibliothèque d’ARN Ultra II de NEBNext Ultra II pour Illumina, voir Tableau des matériaux), suivez les instructions du fabricant pour générer les bibliothèques.
    REMARQUE : Pendant la préparation de la bibliothèque, il est important de sauter l’étape de fragmentation de l’ARN pour les échantillons dégradés et d’assurer l’utilisation d’amorces aléatoires pour la synthèse de l’ADNC de premier brin.
  4. Pour améliorer l’efficacité et la vitesse, en particulier pour les échantillons à faible entrée, utiliser des supports magnétiques appropriés avec des aimants fixes forts pour la purification à base de perles et les étapes de sélection de la taille (voir Tableau des matériaux).
  5. Pour l’enrichissement PCR de l’ADN ligaté adaptateur, ajustez le nombre de cycles d’amplification en fonction de la quantité d’ADN d’entrée pour assurer une représentation maximale tout en évitant la duplication inutile des molécules de la bibliothèque. Pour les échantillons d’ARN FFPE-100 ng à faible entrée, nous recommandons des cycles d’amplification de 16 à 18, tandis que les échantillons d’intrants élevés (1 000 ng) génèrent généralement suffisamment de quantités de bibliothèque en 12 à 14 cycles d’amplification.
  6. Suite à l’amplification et au nettoyage de PCR selon les instructions du fabricant, évaluez la qualité de la bibliothèque en analysant la concentration de la bibliothèque et la distribution de molécules sur une plate-forme appropriée (p. ex., puce d’ADN Agilent Bioanalyzer, voir Tableau des matériaux). Pour les échantillons avec des pics d’amorce (80 bp) ou des pics adaptateur-dimer (128 bp), répétez le nettoyage pour enlever ces pics.
  7. Calculez la taille moyenne de la bibliothèque pour chaque bibliothèque (p. ex., à l’aide du logiciel Bioanalyzer 2100 Expert).

3. Bibliothèque de séquençage QC

  1. Une fois qu’il a été établi que les bibliothèques sont exemptes d’apprêt excessif et adaptateurs-dimers et ont une concentration suffisante pour le séquençage ultérieur, quantifier davantage par qPCR.
    REMARQUE : En raison de la sensibilité de la génération de grappes à la concentration des bibliothèques, une quantification précise est essentielle pour éviter que les séquences coûteuses ne sous-performance ou la surcharge. Les méthodes quantitatives de PCR en temps réel (qPCR) sont utiles pour améliorer la densité des grappes sur les plates-formes Illumina sans entraîner de sur-aclusion. La méthode qPCR est plus précise et plus sensible que les méthodes basées sur l’analyse qualitative et/ou quantitative de toutes les molécules de bibliothèque (p. ex., Agilent Bioanalyzer), parce qu’elle mesure les modèles qui ont les deux séquences d’adaptateurs à chaque extrémité qui formeront des grappes sur la cellule de débit. La taille de la bibliothèque doit toutefois être connue à l’avance comme une correction de taille doit être appliquée à tous les échantillons afin que les résultats puissent être comparés à une courbe standard.
    CAUTION : Les blouses et les gants de laboratoire doivent toujours être portés lors de l’exécution du QPCR, et la procédure doit être effectuée dans une armoire de biosécurité suivant les instructions du fabricant.
    1. Configurez une plaque de 96 puits avec trois répliques pour chaque échantillon pour la prévention des erreurs à l’aide d’un kit approprié (p. ex., KAPA SYBR FAST qPCR Master Mix for Illumina libraries, une partie de la trousse de quantification des bibliothèques, voir Tableau des matériaux),ainsi que les normes, un contrôle positif (p. ex., contrôle PhiX, voir Tableau des matériaux),et un contrôle sans modèle (CNT). Le CNT est mix qPCR sans bibliothèque d’ADN. Le contrôle positif peut être n’importe quelle bibliothèque avec la concentration connue et la taille de fragment.
      1. Préparer un minimum de six dilutions des normes suivant le protocole du fournisseur.
    2. Après avoir ajouté tous les composants (c.-à-d. le mélange de maître qPCR, les bibliothèques, les normes), couvrez la plaque avec du film d’étanchéité et utilisez un squeegee pour s’assurer que le film établit un contact égal et sécurisé avec la plaque.
    3. Vortex et tourner vers le bas de la plaque à 1500 tr/min pendant au moins 1 min. Inspectez visuellement la plaque pour s’assurer qu’il n’y a pas de bulles d’air au fond des puits.
    4. Installez la plaque sur le cycleur thermique (p. ex. SYSTÈME tactile CFX96, voir Tableau des matériaux)à l’aide des paramètres recommandés par le fabricant.
    5. Enregistrez le dossier d’exécution où il peut être consulté pour l’analyse des données.
    6. Au cours de l’analyse des données, vérifiez que la pente se situe entre -3,1 et -3,6, l’efficacité de 90 % à 110 % et le R2 (coefficient de corrélation obtenu pour la courbe standard) pas moins de 0,98.
  2. Mise en commun: Une fois la concentration qPCR des bibliothèques prêtes à séquençage obtenue, les montants équmaires de la piscine de chacune des bibliothèques, selon le nombre de lectures de séquençage requises par échantillon et la sortie de séquençage de l’instrument.
  3. QC des piscines: Quantifier les piscines de bibliothèque à nouveau par qPCR suivant le même protocole que décrit dans l’étape 3.1.

4. Séquençage

  1. Selon les paramètres d’exécution, tirez les kits de réactifs de séquençage et décongeler en suivant le guide utilisateur. Veuillez consulter le site Illumina pour les dernières versions de tous les guides utilisateurs pour le séquençage sur les instruments Illumina.
  2. Assurez-vous que les réactifs sont complètement décongelés et placez le plateau des réactifs à 4 oC. La course doit être commencée au plus tard 2 h après que les réactifs ont été décongelés. Ne pas faire cela pourrait affecter la qualité des résultats de course.
  3. Inverser la cartouche 5x pour mélanger les réactifs et appuyez doucement sur le banc pour réduire les bulles d’air.
  4. Mettre l’emballage de cellules d’écoulement non emballés de côté à température ambiante pendant 30 min.
  5. Déballez l’emballage des cellules d’écoulement et nettoyez la surface en verre de la cellule d’écoulement avec une lingette d’alcool sans peluche. Séchez le verre avec un tissu de laboratoire à faible teneur en peluche.
  6. Ouvrez l’application Illumina "Experiment Manager« . Choisissez "Créer une feuille d’échantillon« , puis choisissez le Séquenceur et cliquez sur "Next« .
  7. Créez et téléchargez la feuille d’échantillon en fonction des critères du séquenceur Illumina (p. ex., Illumina Experiment Manager, guide logiciel).
  8. Aux invites, numérisez dans le code-barres du kit réactif et entrez les paramètres Set Up run (p. ex., pour une seule course de cycle PE 75 indexée, entrez 76-8-76).
  9. Denature et diluer le pool de la bibliothèque en fonction de la recommandation de guide utilisateur séquenceur (p. ex., guide nextSeq 500 System d’Illumina, voir Tableau des matériaux).
  10. Denature et diluer la bibliothèque de contrôle PhiX (voir tableau des matériaux) à la concentration appropriée (p. ex., 1,8 pM pour NextSeq).
  11. Mélangez la bibliothèque d’échantillons et le contrôle de PhiX pour aboutir à un rapport de volume de contrôle PhiX de 1 %.
  12. Chargez l’échantillon dénaturé et dilué dans la cartouche de réactif dans le réservoir désigné.
  13. Chargez le flowcell, la cartouche tampon et la cartouche de réactif.
  14. Effectuez une vérification et un examen automatisés pour vous assurer que les paramètres d’exécution passent la vérification du système.
  15. Lorsque la vérification automatisée est terminée, sélectionnez Démarrer pour commencer la course de séquençage.

5. Analyse des données et évaluation de la qualité

REMARQUE : Un flux de travail typique d’analyse de données d’ARN-seq(figure 1) comprend le prétraitement et le QC, l’alignement au génome et au poteau d’alignement QC, la quantification de gène et de transcription, l’analyse de corrélation d’échantillon, l’analyse différentielle entre les différents groupes d’échantillon, les conditions de traitement, et l’enrichissement et l’analyse de voie d’ensemble de gène.

Les données ARN-seq peuvent avoir des problèmes de qualité qui peuvent affecter l’exactitude du profilage génétique et conduire à des conclusions erronées. Par conséquent, les vérifications initiales de QC pour la qualité de séquençage, la contamination, le biais de couverture de séquençage, et d’autres sources d’artefacts sont très importantes. L’application d’un pipeline ARN-Seq QC semblable au flux de travail décrit ici est recommandée pour détecter les artefacts et appliquer le filtrage ou la correction avant l’analyse en aval.

  1. Prétraitement
    REMARQUE : Cela comprend la dmultiplexation, l’évaluation de la qualité de lecture de séquences, le contenu de GC, la présence d’adaptateurs de séquençage, les k-merssurreprésentés et les lectures dupliquées de PCR. Ces informations aident à détecter les erreurs de séquençage, les artefacts PCR ou la contamination.
    1. Demultiplex Illumina séquençage exécuté à l’aide de l’outil logiciel Illumina bcl2fastq2 pour générer des fichiers FASTQ bruts pour chaque échantillon défini dans la feuille d’échantillon. Laissez un décalage dans les codes-barres de l’index de l’échantillon pour tolérer les erreurs de séquençage s’il n’y a pas de collision de code à barres.
    2. Exécutez l’outil logiciel FASTQC15 pour effectuer une vérification de qualité des fichiers FASTQ bruts afin de détecter toute mauvaise qualité ou anomalie dans les lectures de séquençage.
    3. Pour les bases adaptatrices et de faible qualité, coupez les adaptateurs de séquençage et les bases de faible qualité à l’aide d’outils logiciels Cutadapt16 ou Trimmomatic17. Enregistrez les lectures coupées dans les fichiers fastq de deux bouts.
    4. Écran de contamination
      1. Exécuter FASTQ_screen18 pour détecter une contamination croisée possible avec d’autres espèces.
      2. Exécuter miniKraken de Kraken219 pour identifier les taxonomies des espèces contaminantes.
  2. Alignement pour référencer le génome et l’alignement post QC
    1. Les lectures parées peuvent être alignées sur une séquence de génome de référence (GRCh Build hg19 ou hg38) à l’aide de STAR aligner20. Appliquer le fichier Gencode annotation GTF pour guider l’alignement de transcription épissé. Il est recommandé d’exécuter STAR 2-pass pour augmenter la sensibilité aux jonctions d’épissage nouvelle. Dans le deuxième passage, toutes les lectures seront remapped à l’aide de gènes annotés et de transcriptions et de nouvelles jonctions de la première passe.
    2. Effectuez QC post-alignement.
      1. Exécutezles 21MarkDuplicates de Picard pour évaluer la complexité de la bibliothèque en déterminant la quantité de lectures uniques ou non encadrées dans les échantillons.
      2. Exécuter le programme CollectRnaSeqMetrics de Picard pour recueillir des pourcentages de cartographie sur le codage, l’intronique, l’intergénique, les régions UTR et la couverture du corps génétique.
      3. Exécuter RSeQC22 pour déterminer la distance intérieure de paire de lecture, lire la distribution entre les exons DE CDS, 5'UTR, 3'UTR, intron, TSS_up_1kb, TSS_up_5kb, TSS_up_10kb, TES_down_1kb, TES_down_5kb, TES_down_10kb, lire le contenu de GC, la saturation de la jonction, et l’information de brin de bibliothèque.
      4. Exécuter multi-QC23 pour générer un rapport agrégé en format HTML.
  3. Analyse de la quantification et de la correction des gènes
    1. Exécutez RSEM24 pour obtenir le nombre brut ainsi que le compte de lecture normalisé sur les gènes et les transcriptions. La mesure du compte de lecture comme RPKM (lit par kilobase de modèle exon par million de lectures), FPKM (fragments par kilobase de modèle exon par million de lectures cartographiées), et TPM (transcriptions par million) sont les valeurs d’expression du gène RNA-seq les plus souvent déclarées. Les gènes exprimés en dessous d’un seuil de bruit (tels que TPM 'lt; 1 ou compte brut 'lt;5) peuvent être filtrés.
    2. Effectuez la quantification de transcription pour agréger les nombres bruts de lectures cartographiées à chaque séquence de transcription à l’aide de programmes tels que HTSeq-compte ou featureComptes.
    3. Exécuter l’analyse principale des composants (PCA) à l’aide d’un script R pour déterminer les effets de lots et évaluer une carte de qualité du jeu de données donné25. L’analyse de corrélation des échantillons peut être effectuée à l’aide de la corrélation Pearson entre les différentes mesures.
  4. Analyse différentiele de l’expression des gènes
    1. Effectuer l’analyse différentielle de gène entre les conditions d’échantillon utilisant le programme edgeR26,27 et/ou limma-Voom28 et utiliser des méthodes de normalisation, y compris TPM, TMM, DESeq, ou UpperQuartile.
    2. Il est recommandé d’exécuter au moins deux outils logiciels d’analyse différentielle afin d’appeler deux ensembles de listes de DEG pour la comparaison et d’obtenir les DG finales pour améliorer la sensibilité et la précision de détection.
  5. Enrichissement et analyse des voies de l’ensemble génétique
    1. Effectuer l’analyse de l’enrichissement de l’ensemble de gènes (GSEA)29,30 sur la base du classement des transcriptions selon une mesure des gènes exprimés différentiellement (DEG) liste pour déterminer si les DEG montrent statistiquement significative, différences concordantes entre les conditions biologiques.
    2. Effectuez l’analyse de fonction à l’aide de ressources telles que Gene Ontology31, DAVID32,33, ou d’autres outils logiciels disponibles.

Résultats

La méthodologie décrite ci-dessus a été appliquée à 67 échantillons de FFPE qui avaient été stockés dans une variété de conditions différentes pendant 7 à 32 ans (le délai médian d’entreposage de l’échantillon était de 17,5 ans). Le jeu de données et les résultats d’analyse présentés ici ont déjà été décrits et publiés dans Zhao et coll.11. En vérifiant la qualité de l’échantillon telle que décrite précédemment (c.-à-d. des traces par exemple dans

Discussion

La méthode décrite ici décrit les principales étapes nécessaires pour obtenir de bonnes données de séquence à partir d’échantillons FFPE-ARN. Les principaux points à considérer avec cette méthode sont les suivants : (1) Assurez-vous que l’ARN est conservé le mieux possible après l’extraction en minimisant les cycles de manipulation et de congélation et de décongélation de l’échantillon. Les aliquots de QC séparés sont très utiles. (2) Utilisez une mesure QC qui est la meilleure pour l’ensem...

Déclarations de divulgation

Ces travaux ont été financés par le National Cancer Institute (NCI), les National Institutes of Health (NIH). Leidos Biomedical Research, Inc. est l’entrepreneur en opérations et en soutien technique du Laboratoire national de recherche sur le cancer de Frederick, qui est entièrement financé par les NIH. Plusieurs auteurs (YZ, MM, KT, YL, JS, BT) sont affiliés à Leidos Biomedical Research, Inc., mais tous les auteurs sont entièrement financés par l’Institut national du cancer, y compris les salaires des auteurs et le matériel de recherche. Leidos Biomedical Research, Inc. n’a pas fourni de salaire aux auteurs (YZ, MM, KT, YL, JS, BT) ou du matériel pour l’étude, ni dans la conception de l’étude, la collecte de données, l’analyse, la décision de publier ou la préparation du manuscrit.

Remerciements

Nous remercions la Dre Danielle Carrick (Division de la lutte contre le cancer et des sciences de la population, Institut national du cancer) d’avoir continué à aider, en particulier pour le lancement de cette étude, pour nous fournir les échantillons et pour des suggestions utiles au cours de l’analyse des données. Nous remercions sincèrement tous les membres de l’installation de séquençage du CCR au Laboratoire national de recherche sur le cancer de Frederick pour leur aide pendant la préparation et le séquençage de l’échantillon, en particulier Brenda Ho pour l’aide dans l’échantillon QC, Oksana Allemand pour la bibliothèque QC, Tatyana Smirnova pour la gestion des séquenceurs. Nous tenons également à remercier Tsai-wei Shen et Ashley Walton de Sequencing Facility Bioinformatics Group d’avoir aidé à l’analyse des données et à la mise en œuvre du pipeline RNA-seq. Nous remercions également le CCBR et le NCBR pour leur aide à l’élaboration du pipeline d’analyse RNaseq et de l’élaboration des meilleures pratiques.

matériels

NameCompanyCatalog NumberComments
2100 BioanalyzerAgilentG2939BA
Agilent DNA 7500 KitAgilent5067-1506
Agilent High Sensitivity DNA KitAgilent5067-4626
Agilent RNA 6000 Nano KitAgilent5067-1511
AllPrep DNA/RNA FFPE KitQiagen80234
CFX96 Touch SystemBio-Rad1855195
Library Quantification kit v2-IlluminaKapaBiosystemsKK4824
NEBNext Ultra II Directional RNA Library Prep Kit for IlluminaNew England BiolabsE7765Shttps://www.neb.com/protocols/2017/02/07/protocol-for-use-with-ffpe-rna-nebnext-rrna-depletion-kit
NEBNext rRNA Depletion Kit (Human/Mouse/Rat)New England BiolabsE6310L
NextSeq 500 Sequencing SystemIlluminaSY-415-1001NextSeq 500 System guide: https://support.illumina.com/content/dam/illumina-support/documents/documentation/system_documentation/nextseq/nextseq-500-system-guide-15046563-06.pdf
NextSeq PhiX Control KitIlluminaFC-110-3002
NSQ 500/550 Hi Output KT v2.5 (150 CYS)Illumina20024907
10X Genomics Magnetic Separator10X Genomics120250
Rotator MultimixerVWR13916-822
C1000 Touch Thermal CyclerBio-Rad1851197
Sequencing reagent kitIllumina20024907
Flow cell packageIllumina20024907
Buffer cartridge and the reagent cartridgeIllumina20024907
Sodium hydroxide solution (0.2N)Millipore SigmaSX0607D-6
TRIS-HCL Buffer 1.0M, pH 7.0Fisher Scientific50-151-871

Références

  1. Carrick, D. M., et al. Robustness of Next Generation Sequencing on Older Formalin-Fixed Paraffin-Embedded Tissue. PLoS One. 10 (7), 0127353 (2015).
  2. Hedegaard, J., et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 9 (5), 98187 (2014).
  3. Zhang, P., Lehmann, B. D., Shyr, Y., Guo, Y. The Utilization of Formalin Fixed-Paraffin-Embedded Specimens in High Throughput Genomic Studies. International Journal of Genomics. 2017, 1926304 (2017).
  4. Srinivasan, M., Sedmak, D., Jewell, S. Effect of fixatives and tissue processing on the content and integrity of nucleic acids. American Journal of Pathology. 161 (6), 1961-1971 (2002).
  5. von Ahlfen, S., Missel, A., Bendrat, K., Schlumpberger, M. Determinants of RNA quality from FFPE samples. PLoS One. 2 (12), 1261 (2007).
  6. Esteve-Codina, A., et al. A Comparison of RNA-Seq Results from Paired Formalin-Fixed Paraffin-Embedded and Fresh-Frozen Glioblastoma Tissue Samples. PLoS One. 12 (1), 0170632 (2017).
  7. Vukmirovic, M., et al. Identification and validation of differentially expressed transcripts by RNA-sequencing of formalin-fixed, paraffin-embedded (FFPE) lung tissue from patients with Idiopathic Pulmonary Fibrosis. BMC Pulmonary Medicine. 17 (1), 15 (2017).
  8. Adiconis, X., et al. Comparative analysis of RNA sequencing methods for degraded or low-input samples. Nature Methods. 10 (7), 623-629 (2013).
  9. Sinicropi, D., et al. Whole transcriptome RNA-Seq analysis of breast cancer recurrence risk using formalin-fixed paraffin-embedded tumor tissue. PLoS One. 7 (7), 40092 (2012).
  10. Altekruse, S. F., et al. SEER cancer registry biospecimen research: yesterday and tomorrow. Cancer Epidemiology, Biomarkers & Prevention. 23 (12), 2681-2687 (2014).
  11. Zhao, Y., et al. Robustness of RNA sequencing on older formalin-fixed paraffin-embedded tissue from high-grade ovarian serous adenocarcinomas. PLoS One. 14 (5), 0216050 (2019).
  12. Amini, P., et al. An optimised protocol for isolation of RNA from small sections of laser-capture microdissected FFPE tissue amenable for next-generation sequencing. BMC Molecular Biology. 18 (1), 22 (2017).
  13. Amini, P., Nassiri, S., Ettlin, J., Malbon, A., Markkanen, E. Next-generation RNA sequencing of FFPE subsections reveals highly conserved stromal reprogramming between canine and human mammary carcinoma. Disease Models and Mechanisms. 12 (8), (2019).
  14. Wimmer, I., et al. Systematic evaluation of RNA quality, microarray data reliability and pathway analysis in fresh, fresh frozen and formalin-fixed paraffin-embedded tissue samples. Scientific Reports. 8 (1), 6351 (2018).
  15. . Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2019)
  16. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10-12 (2011).
  17. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  18. . Babraham Bioinformatics Available from: https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/ (2019)
  19. Wood, D. E., Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biology. 15 (3), 46 (2014).
  20. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  21. Wang, L., Wang, S., Li, W. RSeQC: quality control of RNA-seq experiments. Bioinformatics. 28 (16), 2184-2185 (2012).
  22. Ewels, P., Magnusson, M., Lundin, S., Kaller, M. MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics. 32 (19), 3047-3048 (2016).
  23. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  24. Son, K., Yu, S., Shin, W., Han, K., Kang, K. A Simple Guideline to Assess the Characteristics of RNA-Seq Data. BioMed Research International. 2018, 2906292 (2018).
  25. McCarthy, D. J., Chen, Y., Smyth, G. K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation. Nucleic Acids Research. 40 (10), 4288-4297 (2012).
  26. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  27. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2015).
  28. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America U S A. 102 (43), 15545-15550 (2005).
  29. Mootha, V. K., et al. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nature Genetics. 34 (3), 267-273 (2003).
  30. Ashburner, M., et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genetics. 25 (1), 25-29 (2000).
  31. Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  32. Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  33. Evaluating RNA Quality from FFPE Samples. Illumina Available from: https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/evaluating-rna-quality-from-ffpe-samples-technical-note-470-2014-001.pdf (2016)

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

G n tiqueNum ro 160S quen age de l ARNparaffine formellement fixe int grFFPEs quen age de la prochaine g n rationNGSanalyse ARN seq

This article has been published

Video Coming Soon

JoVE Logo

Confidentialité

Conditions d'utilisation

Politiques

Recherche

Enseignement

À PROPOS DE JoVE

Copyright © 2025 MyJoVE Corporation. Tous droits réservés.