Tutoriel d’analyse computationnelle pour les petits ARN non codants chimériques : bibliothèques de séquençage de l’ARN cible

Sreenivas Eadara; Xinbei Li; Emily A. Eiss; Mollie K. Meffert

doi:10.3791/65779

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Method Article

Tutoriel d’analyse computationnelle pour les petits ARN non codants chimériques : bibliothèques de séquençage de l’ARN cible

DOI:

10.3791/65779

⸱

December 1st, 2023

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert¹^,²

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Please note that all translations are automatically generated. Click here for the English version.

Résumé

Nous présentons ici un protocole démontrant l’installation et l’utilisation d’un pipeline bioinformatique pour analyser les données de séquençage chimérique de l’ARN utilisées dans l’étude des interactions ARN :ARN in vivo .

Résumé

La compréhension des interactions in vivo entre les gènes régulateurs des petits ARN non codants (ARNsnc), tels que les microARN (miARN), et leurs ARN cibles, a progressé ces dernières années grâce à des approches biochimiques qui utilisent la réticulation suivie d’une ligature pour capturer les interactions ARN snc :ARN cible par la formation d’ARN chimériques et de banques de séquençage ultérieures. Bien que les ensembles de données issus du séquençage chimérique de l’ARN fournissent des données à l’échelle du génome et soient beaucoup moins ambigus que les logiciels de prédiction des miARN, la distillation de ces données en informations significatives et exploitables nécessite des analyses supplémentaires et peut dissuader les chercheurs qui n’ont pas de connaissances en informatique. Ce rapport fournit un tutoriel pour aider les biologistes computationnels débutants à installer et à appliquer un outil logiciel open source récent : Small Chimeric RNA Analysis Pipeline (SCRAP). Les exigences de la plate-forme, les mises à jour et une explication des étapes du pipeline et de la manipulation des variables d’entrée utilisateur clés sont fournies. La réduction d’un obstacle pour les biologistes à l’obtention d’informations à partir d’approches chimériques de séquençage de l’ARN a le potentiel de servir de tremplin à des recherches fondées sur la découverte d’interactions régulatrices entre l’ARNnc et l’ARN cible dans de multiples contextes biologiques.

Introduction

Les petits ARN non codants sont très étudiés pour leur rôle post-transcriptionnel dans la coordination de l’expression de suites de gènes dans divers processus tels que la différenciation et le développement, le traitement du signal et la maladie ^1,2,3. La capacité de déterminer avec précision les transcrits cibles des petits ARN non codants (ARNsnc) régulateurs des gènes, y compris les microARN (miARN), est importante pour les études de biologie de l’ARN aux niveaux fondamental et translationnel. Les algorithmes bioinformatiques qui exploitent la complémentarité anticipée entre la séquence d’amorçage du miARN et ses cibles potentielles ont été fréquemment utilisés pour la prédiction des interactions miARN :ARN cible. Bien que ces algorithmes bioinformatiques aient été couronnés de succès, ils peuvent également contenir des résultats à la fois faux positifs et faux négatifs, comme cela a été examiné ailleurs ^4,5,6. Récemment, plusieurs approches biochimiques ont été conçues et mises en œuvre qui permettent de déterminer sans ambiguïté et semi-quantitativement les interactions ARNsnc snc :ARN cible in vivo par réticulation in vivo et l’incorporation subséquente d’une étape de ligature pour attacher physiquement l’ARNsnc à sa cible pour former un seul ARN chimérique 4,5,7,8,9,10 . La préparation ultérieure de banques de séquençage à partir des ARN chimériques permet d’évaluer les interactions ARNsnc :ARN cible par traitement informatique des données de séquençage. Cette vidéo fournit un tutoriel pour l’installation et l’utilisation d’un pipeline de calcul appelé small chimeric RNA analysis pipeline (SCRAP), qui est conçu pour permettre une analyse robuste et reproductible des interactions sncRNA :ARN cible à partir de bibliothèques de séquençage d’ARN chimérique⁶.

L’un des objectifs de ce tutoriel est d’aider les chercheurs à éviter de s’appuyer excessivement sur des algorithmes bioinformatiques purement prédictifs en réduisant les obstacles à l’analyse des données générées par des approches biochimiques fournissant des lectures moléculaires chimériques des interactions ARNsnc :ARN cible. Ce tutoriel fournit des étapes pratiques et des conseils pour guider les informaticiens débutants dans l’utilisation d’un pipeline, SCRAP, développé pour analyser les données de séquençage de l’ARN chimérique, qui peuvent être générées par plusieurs protocoles biochimiques existants, y compris la réticulation, la ligature et le séquençage des hybrides (CLASH) et la ligature covalente des ARN endogènes liés à l’argonaute - réticulation et immunoprécipitation (CLEAR-CLIP)^7,9.

L’utilisation de SCRAP offre plusieurs avantages pour l’analyse des données de séquençage d’ARN chimérique, par rapport à d’autres pipelines de calcul⁶. L’un des principaux avantages est son annotation étendue et l’incorporation d’appels à des scripts bioinformatiques bien pris en charge et régulièrement mis à jour dans le pipeline, par rapport aux pipelines alternatifs qui s’appuient souvent sur des scripts personnalisés et/ou non pris en charge pour les étapes du pipeline. Cette fonctionnalité confère de la stabilité à SCRAP, ce qui permet aux chercheurs de se familiariser avec le pipeline et d’intégrer son utilisation dans leur flux de travail. Il a également été démontré que SCRAP surpasse les pipelines alternatifs dans l’appel des pics d’interactions ARNsnc :ARN cible et qu’il a une fonctionnalité multiplateforme, comme détaillé dans une publication antérieure⁶.

À la fin de ce didacticiel, les utilisateurs seront en mesure (i) de connaître les exigences de la plate-forme pour SCRAP et d’installer des pipelines SCRAP, (ii) d’installer des génomes de référence et de configurer des paramètres de ligne de commande pour SCRAP, et (iii) de comprendre les critères d’appel de pic et d’effectuer des appels de pics et des annotations de pics.

Cette vidéo décrira en détail comment les chercheurs qui étudient la biologie de l’ARN peuvent installer et utiliser de manière optimale le pipeline de calcul, SCRAP, pour analyser les interactions de l’ARNsnc avec les ARN cibles, tels que les ARN messagers, dans les données de séquençage chimérique de l’ARN obtenues grâce à l’une des approches biochimiques discutées pour la préparation de banques de séquençage.

SCRAP est un utilitaire en ligne de commande. En règle générale, en suivant le guide ci-dessous, l’utilisateur devra (i) télécharger et installer SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) installer des génomes de référence et exécuter SCRAP, et (iii) effectuer des appels de pics et des annotations.

Vous trouverez de plus amples informations sur les étapes de calcul de cette procédure à l’adresse https://github.com/Meffert-Lab/SCRAP. Cet article fournira la configuration et les informations de base pour permettre aux chercheurs ayant des compétences informatiques de base d’installer, d’optimiser et d’utiliser SCRAP sur des ensembles de données de bibliothèque de séquençage d’ARN chimérique.

Access restricted. Please log in or start a trial to view this content.

Protocole

REMARQUE : Le protocole commencera par le téléchargement et l’installation du logiciel nécessaire à l’analyse des bibliothèques de séquençage d’ARN chimérique à l’aide de SCRAP.

1. L’installation

Avant d’installer SCRAP, installez les dépendances Git et Miniconda sur la machine à utiliser pour les analyses. Git est probablement déjà installé. Sur la plate-forme Mac OSX, par exemple, vérifiez cela à l’aide de quel git pour voir que l’utilitaire « git » est présent et installé dans ce répertoire. Vérifiez si Miniconda est installé à l’aide de quel conda. Si rien n’est retourné, installez Miniconda. L’installation de Miniconda nécessite 400 Mo d’espace disque.
1. Il existe plusieurs méthodes pour installer Miniconda, et elles diffèrent selon la plate-forme. Reportez-vous au fichier Markdown PLATFORM-SETUP sur le référentiel GitHub de Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] où vous trouverez des instructions supplémentaires pour l’installation sur Windows, MacOS et Ubuntu. Pour les utilisateurs de Linux, Linux a son propre gestionnaire de paquets par défaut (apt). Dans le cas spécifique à cette étude, utilisez la commande brew install Miniconda pour installer Miniconda à l’aide d’un gestionnaire de paquets existant, brew.
  REMARQUE : « Homebrew », appelé « brew », est un système de gestion de progiciels open source qui simplifie l’installation de logiciels sur le système d’exploitation d’Apple, macOS.
2. Si conda est installé pour la première fois, exécutez conda init pour le shell particulier utilisé. Dans l’exemple ci-dessous, le shell utilisé est zsh. Ensuite, fermez et rouvrez la coque. Si conda a été installé avec succès, l’environnement de base activé dans la session de terminal s’affiche.
Téléchargez le code source SCRAP et installez ses dépendances.
1. La méthode préférée pour obtenir la source SCRAP est d’utiliser Git. Accédez-y en exécutant git clone https://github.com/Meffert-Lab/SCRAP pour obtenir la dernière copie du code source.
2. Installez mamba, un solveur de package amélioré pour conda, et installez toutes les dépendances de SCRAP à partir de SCRAP_environment.yml dans son propre environnement conda à l’aide des commandes suivantes :
  conda install -n base conda-forge ::mamba
  mamba env create -f SCRAP/SCRAP_environment.yml -n SCRAP
Ensuite, exécutez l’installation de référence pour SCRAP. Les arguments utilisés dans l’installation de référence seront spécifiques à l’organisme dont les interactions ARNm-ARNm sont analysées.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m a -g hg38 -s humain
1. Indiquez le répertoire du dossier source SCRAP pour l’installation de référence. Les étapes d’installation seront ensuite effectuées à l’aide des fichiers contenus dans les dossiers fasta et annotation . Répertoriez le chemin complet sans aucune abréviation. Terminez par une barre oblique.
2. Reportez-vous aux tableaux en README.md pour connaître les abréviations correctes des espèces de base. Les génomes de référence à jour peuvent être trouvés à https://genome.ucsc.edu/ ou https://www.ncbi.nlm.nih.gov/data-hub/genome/. Dans cet exemple, hg38 sera utilisé pour le génome de la souris GRCm38.
3. Les espèces actuellement incluses pour l’annotation sont l’homme, la souris et le ver. Affichez les fichiers species.annotation.bed correspondants dans le répertoire d’annotation du dossier source SCRAP. Si vous souhaitez utiliser une espèce différente pour l’analyse, fournissez un fichier annotation.bed qui suit le même schéma de nommage species.annotation.bed.

2. Exécution de SCRAP

Maintenant que les dépendances et SCRAP sont installés, exécutez le script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/path/to/CLASH_Human/ -a full/path/to/CLASH_Human/CLASH_Human_Adapters.txt -p no -f yes -r full/path/to/SCRAP/ -m has -g hg38
1. Répertoriez le chemin d’accès complet aux répertoires d’exemple sans raccourci. Mettez en forme les répertoires d’exemple avec le nom de dossier correspondant exactement au nom de l’échantillon, comme illustré à la figure 1.
2. Notez que le chemin d’accès répertorié est le chemin d’accès au répertoire qui contient tous les dossiers d’exemple, et non le chemin d’accès à un dossier d’exemple individuel ou à un fichier d’exemple (reportez-vous à la ligne de commande de l’étape 2.1).
3. Ensuite, répertoriez le chemin d’accès complet au fichier de l’adaptateur. Assurez-vous que les exemples de noms dans le fichier de l’adaptateur correspondent aux noms de dossiers et de fichiers mentionnés précédemment (reportez-vous à la ligne de commande de l’étape 2.1).
4. Indiquez si les échantillons sont appariés et si un filtrage des pré-miARN et/ou des ARNt sera effectué ou non. Ajoutez un filtre pour le nettoyage de l’ARNr si vous le souhaitez (reportez-vous à la ligne de commande à l’étape 2.1).
  REMARQUE : Les utilisateurs peuvent décider ou non d’utiliser ces filtres en fonction des types d’échantillons et des objectifs expérimentaux. Selon la conception expérimentale, les pré-miARN, les ARNt et les ARNr peuvent consommer la profondeur de séquençage disponible pour les chimères d’ARN snc :ARN cible réelles et les utilisateurs peuvent utiliser des filtres pour les exclure. Cependant, les utilisateurs peuvent vouloir éviter un tel filtrage dans certaines circonstances (par exemple, en cartographiant les cibles de l’ARNsnc au génome mitochondrial, qui contient des ARNr mitochondriaux).
5. Ensuite, répertoriez le chemin complet vers le répertoire de référence, l’abréviation miRbase et l’abréviation du génome de référence (reportez-vous à la ligne de commande à l’étape 2.1).
  REMARQUE : l’exécution du script peut prendre quelques heures, en fonction de la taille du jeu de données et du processeur de l’ordinateur utilisé.

3. Appels de pointe et annotations

Une fois l’exécution de SCRAP terminée, vérifiez que la sortie inclut, entre autres fichiers, un fichier SAMPLE.aligned.unique.bam. Il s’agit d’un fichier binaire contenant les alignements des ARN cibles sur le génome de référence fourni par l’utilisateur.
Effectuez maintenant des appels de pointe en exécutant Peak_Calling.sh.
bash SCRAP/bin/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r SCRAP/ -m a -g hg38
REMARQUE : L’appel de pic est une fonctionnalité de SCRAP, qui est conçue pour permettre aux chercheurs d’évaluer facilement les interactions ARN-cible de petite taille non codantes les plus robustes et les plus reproductibles au sein de leurs banques d’ARN chimériques. Cette fonctionnalité, par exemple, peut aider les chercheurs à identifier les interactions qu’ils pourraient vouloir sélectionner pour une enquête plus approfondie. L’étape 3.2.2 ci-dessous décrit comment l’utilisateur définit les critères qu’il souhaite utiliser pour définir la rigueur avec laquelle un pic est appelé - cela inclut le nombre d’interactions uniques, ou lectures de séquençage, qui doivent s’être produites pour que le pic soit appelé, ainsi que le nombre de bibliothèques dans lesquelles cette interaction particulière doit s’être produite.
1. Encore une fois, répertoriez les chemins d’accès complets au répertoire contenant les exemples de dossiers et le fichier de l’adaptateur (reportez-vous à la ligne de commande à l’étape 3.2).
2. Ensuite, définissez le nombre minimum de lectures de séquençage requises pour qu’un pic soit appelé (reportez-vous à la ligne de commande à l’étape 3.2).
3. Définissez le nombre minimal de bibliothèques de séquençage distinctes qui doivent contenir un pic pour qu’il soit appelé (reportez-vous à la ligne de commande à l’étape 3.2).
  NOTA : Le choix des valeurs pour les paragraphes 3.2.2 et 3.2.3 dépend de la nature des échantillons séquencés et du nombre d’échantillons ou de types d’échantillons. Ici, au moins 3 lectures de séquençage chimérique dans un échantillon sont nécessaires pour appeler un pic, et le pic doit être pris en charge par au moins 2 échantillons. Un chercheur évaluant un ensemble de données dans lequel il existe de nombreuses répétitions de bibliothèques de séquençage pour une condition donnée, par exemple, peut décider d’exiger la présence des lectures dans un plus grand nombre de bibliothèques de séquençage d’échantillons.
4. Indiquez si les ARNsnc d’une même famille doivent contribuer au même pic. Par exemple, étant donné que les miARN d’une même famille partagent des séquences de semences, ces miARN peuvent se lier à des ensembles de gènes cibles partagés et qui se chevauchent ; Un utilisateur peut souhaiter identifier l’impact complet d’une famille sur ces cibles en évaluant leurs pics collectifs (reportez-vous à la ligne de commande à l’étape 3.2).
5. Ensuite, indiquez le chemin d’accès complet au répertoire de référence, l’abréviation miRBase et l’abréviation du génome de référence (reportez-vous à la ligne de commande à l’étape 3.2).
Une fois l’appel de pic terminé, exécutez l’annotation de pic.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s humain
1. Répertoriez le chemin d’accès complet au fichier peaks.bed (ou peaks.family.bed) résultant de l’appel de pic, le chemin d’accès complet au répertoire de référence et l’espèce souhaitée pour l’annotation.

4. Visualisation des données

REMARQUE : Toutes les étapes de l’analyse à l’aide de SCRAP sont maintenant terminées. Pour visualiser les données, plusieurs approches sont recommandées :

Fusionnez tous les fichiers .bam (fichier SAM binaire) que vous souhaiterez visualiser ensemble (samtools merge).
Triez le fichier .bam fusionné résultant (samtools sort). Le contenu des fichiers est trié ligne par ligne afin que samtools puisse indexer.
Indexez le fichier .bam trié (index samtools). Un fichier BAI (binary samtools format index) est généré pour permettre la visualisation dans la visionneuse de génomique intégrative (IGV).
Enfin, ouvrez le fichier .bam trié et indexé .bai résultant dans IGV.
REMARQUE : ARNsnc : Les interactions d’intérêt avec l’ARN cible peuvent être classées par ordre de priorité pour le suivi de plusieurs façons spécifiques à l’enquête. Une première approche générique consiste à évaluer les interactions pour lesquelles les pics sont soutenus par les lectures de séquençage les plus chimériques. Les interactions d’intérêt peuvent également être visualisées à l’aide du serveur Web DuplexFold à partir du package RNAstructure en saisissant la séquence de l’ARNsnc et de l’ARN cible de l’interaction détectée¹¹. Pour chaque pic, le chromosome (première colonne) et les coordonnées génomiques (début : 1ère colonne fin : 2ème colonne) se trouvent dans le fichier peaks.bed.species.annotation.txt généré dans l’annotation du pic. Pour les miARN en particulier, bien que les interactions reproductibles et fonctionnelles puissent ne pas avoir de liaison étendue à la graine (par exemple, les interactions peuvent utiliser une liaison compensatoire 3'), la présence de sites appariés à la graine dans un motif de liaison apparenté à l’ARN cible peut néanmoins être évaluée comme une caractéristique validant des interactions détectées fonctionnellement importantes ^4,12. Le traitement des données auxiliaires pourrait inclure des comparaisons de la couverture différentielle de lecture entre des pics dans des conditions biologiques distinctes et, éventuellement, l’évaluation du regroupement de gènes régulés en voies à l’aide d’un outil d’analyse des voies.

Access restricted. Please log in or start a trial to view this content.

Résultats

Les résultats pour l’ARN snc :cible détecté par une version modifiée de SCRAP (version 2.0 de SCRAP, qui implémente des modifications pour le filtrage de l’ARNr) sur des ensembles de données de séquençage précédemment publiés et préparés à l’aide de CLEAR-CLIP⁹ sont présentés à la figure 2 et au tableau 1. Les utilisateurs peuvent apprécier la diminution des interactions relatives des miARN de fraction avec les régions d’in...

Access restricted. Please log in or start a trial to view this content.

Discussion

Ce protocole sur l’utilisation du pipeline SCRAP pour l’analyse des interactions ARNsnc :ARN cible est conçu pour aider les chercheurs qui se lancent dans l’analyse informatique. L’achèvement du didacticiel devrait guider les chercheurs ayant une expérience informatique de niveau débutant ou supérieure à travers les étapes requises pour l’installation et l’utilisation de ce pipeline et de son application pour analyser les données obtenues à partir de bibliothèques de séquençage d’ARN chimériqu...

Access restricted. Please log in or start a trial to view this content.

Déclarations de divulgation

Les auteurs n’ont rien à divulguer.

Remerciements

Nous remercions les membres du laboratoire Meffert pour leurs discussions utiles, y compris BH Powell et WT Mills IV, pour leurs commentaires critiques sur la description de l’installation et de la mise en œuvre du pipeline. Ce travail a été soutenu par un prix de la Fondation Braude, le programme de lancement du Fonds de recherche sur les cellules souches du Maryland, le prix Blaustein Endowment for Pain Research and Education, ainsi que le NINDS RO1NS103974 et le NIMH RO1MH129292 à M.K.M.

Access restricted. Please log in or start a trial to view this content.

matériels

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

Références

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119(2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129(2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864(2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Access restricted. Please log in or start a trial to view this content.

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Ce mois ci dans JoVE num ro 202

This article has been published

Video Coming Soon

Keep me updated: