9.7K Views
•
11:04 min
•
May 19th, 2019
DOI :
May 19th, 2019
•Transcription
Les éléments mobiles sont l’une des principales sources d’instabilité génétique humaine. Il est essentiel de comprendre leur expression dans différents tissus et conditions pour comprendre leur impact sur le génome. La vaste transcription de L1 est le résultat de l’inclusion passive de séquences liées à la L1 dans d’autres transcriptions qui n’ont aucun rôle dans le cycle de vie de la L1.
Notre approche élimine ce contexte non pertinent. Ce protocole peut être adapté aux études de n’importe quel élément mobile, ou même de virus dans n’importe quel génome de séquence. Il doit y avoir au moins une certaine variation de séquence pour permettre la discrimination entre loci.
La démonstration visuelle de cette méthode est essentielle pour illustrer la rigueur et le soin requis pour identifier en toute confiance les éléments répétitifs L1 exprimés au niveau spécifique au lieu. Commencez cette procédure avec l’extraction cytoplasmique d’ARN et le séquençage de prochaine génération tel que décrit dans le protocole de texte. En choisissant pour l’ARN cytoplasmique, les l1-connexes se trouvent dans l’ARNm intronique exprimé dans le noyau sont sensiblement épuisés.
Dans la préparation de la bibliothèque de séquençage, une autre étape prise pour réduire le bruit transcriptionnel sans rapport avec les L1 comprend la sélection des transcriptions polyadéthylées. Cela élimine le bruit de transcription lié à la L1 que l’on trouve chez les espèces autres que l’ARNm. Exécutez des fichiers FASTQ de séquençage de paradigme d’alignement avec l’échantillon de seq d’ARN d’intérêt en utilisant bowtie1 en tapant la ligne de commande dans le terminal Linux.
Cette stratégie d’alignement exige que les transcriptions soient alignées de façon unique et collinearly avec une recherche génomique exhaustive. Cette stratégie donne confiance dans l’appel de la cartographie des lectures spécifiquement à un seul locus L1. Strand sépare les fichiers BAM de sortie à l’aide de samtools et de commandes Linux à sélectionner pour le brin supérieur et le brin inférieur.
Notez que les valeurs réelles du drapeau peuvent varier si l’on n’utilise pas les protocoles standard de séquençage de prochaine génération. Cette étape de séparation du brin fonctionne pour filtrer le bruit transcriptionnel généré dans les séquences L1 qui ne sont pas liées à la rétrotransposition L1 en éliminant les lectures cartographiées potentielles liées à l’antisenS1. Générer des comptes de lecture contre les annotations pour L1 loci en utilisant des tabourets de lit.
Tapez d’abord la ligne de commande pour générer des comptes de lecture pour les L1 dans la direction du sens sur le brin supérieur, puis tapez la ligne de commande pour générer le nombre de lecture pour les L1 dans la direction du sens sur le brin inférieur. Les annotations utilisées pour identifier les L1 désignent les L1 pleine longueur avec les régions fonctionnelles promotrices qui s’emploient à éliminer le bruit de fond qui provient autrement de L1 tronqués. Créez une feuille de calcul pour les lectures cartographiées à chaque locus L1 annoté.
Copiez sur le fichier texte de compte de lecture généré qui a été créé pour le brin inférieur et étiquetez la page comme minus_bottom. Trier toutes les colonnes en fonction du nombre le plus élevé au plus bas de lectures trouvées dans la colonne J.Copy sur le fichier texte généré compte le fichier texte qui a été créé pour le brin supérieur. Trier toutes les colonnes en fonction du nombre le plus élevé au plus bas de lectures trouvées dans la colonne J.Et étiqueter la page top_plus.
Créez une troisième page étiquetée comme combinée et ajoutez toutes les loci avec 10 lectures ou plus à partir de minus_bottom et plus_top pages. Trier toutes les colonnes en fonction du nombre le plus élevé au plus bas de lectures trouvées dans la colonne J.To aider à la mappabilité des régions génomiques, en particulier dans ou près de L1 loci, génome entier jumelé et les fichiers de séquençage de l’espèce d’intérêt ont été téléchargés à partir de NCBI et convertis en fichiers FASTQ tel que décrit dans le protocole texte. Maintenant, indexez les fichiers BAM pour les rendre visualisables dans la visionneuse génomique intégrative, abrégée IGV, avant de charger les fichiers.
Dans IGV charger le génome de référence d’intérêt pour visualiser les gènes annotés. Chargez également le fichier d’annotation pour les éléments L1 pleine longueur pour visualiser l’annotation L1, le fichier BAM pour l’expression de l’ARN humain, pour visualiser les transcriptions cartographiées de l’échantillon d’intérêt et le fichier BAM pour la mappabilité du génome humain pour évaluer la mappabilité des régions génomiques. Supprimez les lignes de couverture et de jonction associées à chaque fichier BAM.
Compressez les fichiers BAM pour l’expression de l’ARN humain et pour la mappabilité du génome humain afin que toutes les pistes IGV s’adaptent sur un seul écran. La dernière étape critique dans l’élimination du bruit transcriptionnel des séquences L1 sans rapport avec la rétrotransposition L1 est la création manuelle de L1 pleine longueur identifiés pour avoir cartographié ARN chercher transcriptions. La curation manuelle implique la visualisation de chaque locus L1 exprimé dans le contexte de son environnement génomique environnant pour confirmer que l’expression provient du promoteur L1.
À l’aide des coordonnées de L1 loci énumérées sur la page combinée de la feuille de calcul, organiser manuellement chaque locus L1 avec des transcriptions cartographiées de façon unique en examinant leur environnement génomique environnant dans IGV. Organiser un locus pour qu’il s’exprime authentiquement s’il n’y a pas de lecture en amont dans la direction L1 jusqu’à cinq kilobases. Étiquetez la ligne verte en couleur et notez pourquoi il s’agit d’une L1 authentiquement exprimée. Une exception à cette règle existe si la région en amont de la L1 n’est pas mappable.
Si c’est le cas, étiquetez la ligne rouge en couleur et notez que l’expression de la région en amont du promoteur de la L1 ne peut pas être évaluée et que, par conséquent, l’expression de la L1 n’est pas en mesure d’être déterminée avec confiance. Organiser un lieu de ne pas être authentiquement exprimé hors de son propre promoteur s’il ya des lues en amont jusqu’à cinq kilobases. Étiquetez la ligne rouge en couleur et notez pourquoi il ne s’agit pas d’une L1 authentiquement exprimée. Organiser un locus comme faux s’il s’exprime dans un intron d’un gène exprimé dans la même direction, avec des lectures en amont de la L1, s’il est en aval d’un gène exprimé dans la même direction avec des lectures en amont de la L1, ou pour des modèles d’expression non annotés avec des lectures en amont de la L1. Une exception à cette règle s’applique lorsqu’il y a un minimum de lectures qui chevauchent directement le site de départ du promoteur L1, mais légèrement en amont de la L1. S’il n’y a pas d’autres lectures en amont d’un cas L1 comme celui-ci, considérez cette L1 comme authentiquement exprimée.
Étiquetez la ligne verte et notez pourquoi il s’agit d’une L1 authentiquement exprimée. Organiser un locus L1 comme étant susceptible d’être faux si le modèle des lectures cartographiées au locus n’est pas corrélé avec les régions spécifiques de la Mappabilité de L1. Si un L1 est très mappable, mais n’a qu’un tas de lectures dans une région condensée au sein de la L1, il est moins susceptible d’être lié à l’expression L1 de son propre promoteur et plus susceptibles d’être de sources non annotées comme les exons ou les LTR. Dans des cas comme celui-ci, organiser le loci comme orange et noter pourquoi le locus est suspect.
Vérifiez les sources de carambolages suspects en vérifiant l’emplacement L1 dans le navigateur génome de l’UCSC. Organiser un lieu de non-exprimer authentiquement s’il se trouve dans un environnement génomique de régions non annotées exprimées sporadiquement. Les reads peuvent être exprimés à 10 kilobases en amont de la L1. Mais tous les 10 kilobases environ, il ya des lectures cartographiées et certaines de ces lectures s’alignent avec la L1. Ces L1 sont susceptibles d’avoir cartographié les lectures en raison de modèles non annotés d’expression génomique.
Dans des cas comme celui-ci, organiser le loci comme rouge et noter pourquoi le locus est suspect. Pour faciliter la mappabilité de chaque loci L1, déterminez le nombre de loci cartographiés de façon unique à L1 loci à l’aide du programme des punaises de lit, de l’annotation fl-L1 et des données de séquence génomique alignées. Désignez un locus L1 pour avoir une couverture complète mappability lorsque 400 lectures uniques y sont alignées.
Déterminer le facteur nécessaire à l’échelle de l’ADN génomique aligné ou vers le bas se lit à 400 pour chaque L1 individuel. Pour avoir une mesure à l’échelle de l’expression en fonction de la mappabilité individuelle l1 locus, multipliez le facteur par le nombre de transcriptions ARN lit qui s’alignent à l’individu authentiquement exprimé L1s. Chaque étape est utilisée pour mettre en évidence les différences entre les éléments L1 exprimés hors de leur propre promoteur, et toutes les façons dont les éléments L1 peuvent être inclus dans d’autres transcriptions qui ne sont pas liées au cycle de vie L1. Montré ici sont transcription lit cette carte uniquement à toutes les longueurs intactes L1 dans le génome humain exprimé dans la lignée des cellules tumorales de la prostate DU145.
En noir sont les loci spécifiques identifiés comme authentiquement exprimés après la curation manuelle. Et en rouge sont les loci spécifiques rejetés comme authentiquement exprimé lit après la curation manuelle. En gris sont loci avec moins de 10 lit la cartographie à chacun.
Comme ces loci ne représentent qu’une petite fraction des transcriptions, elles n’étaient pas organisées manuellement. Environ 4500 loci ne sont pas graphiquement montrés, car ils n’avaient aucune lecture cartographiée. Après la curation manuelle, le nombre de lectures qui cartographient de façon unique pour exprimer authentiquement des loci L1 spécifiques dans DU145 vont de 175 lues à un minimum arbitrairement choisi de 10 lectures.
Une fois que les lectures ont été ajustées pour les scores de mappability dans chaque lieu, la quantitation pour l’expression pour la plupart des loci a augmenté. Le nombre de lectures cartographiées de façon unique pour exprimer authentiquement des loci L1 spécifiques avec des corrections de mappabilité dans DU145 145 rangeait de 612 à quatre lectures et il y avait une réorganisation des loci exprimants les plus élevés aux plus bas. Chaque étape joue un rôle crucial dans la réduction du niveau élevé de bruit de fond transcriptionnel.
Cependant, l’étape la plus critique est la curation manuelle de chaque locus L1 pour confirmer la transcription de son propre promoteur. Environ 50% des loci L1 identifiés bioinformatiquement dans les cellules DU145 ont été rejetés comme bruit de fond L1 provenant d’autres sources transcriptionnelles, soulignant la rigueur requise pour produire des résultats fiables. Pour identifier le plus jeune des L1, nous vous suggérons d’utiliser la sélection race à cinq premiers des transcriptions L1 et de la technologie de séquençage comme PacBio qui utilisent des lectures plus longues et permettent une cartographie plus unique.
Grâce à cette approche, nous pouvons identifier et quantifier rigoureusement et en toute confiance les modèles d’expression L1. Cela ouvre la voie à une meilleure compréhension de la réglementation des loci L1 individuels et de l’impact potentiel.
Ici, nous présentons une approche et des analyses bioinformatiques pour identifier l’expression LINE-1 au niveau spécifique du locus.
Chapitres dans cette vidéo
0:04
Title
0:52
Read Alignment Pipeline to Identify Expressed L1s
2:48
Manual Curation
7:48
Assess Mappability of Each L1 Loci to Factor in a Transcription Level Correction Score
8:42
Results: Identification of Full-length L1 Retroelements in the Human Prostate Tumor Cell Line, DU145
10:01
Conclusion
Vidéos Associées