Method Article
Ici, nous présentons une approche et des analyses bioinformatiques pour identifier l’expression LINE-1 au niveau spécifique du locus.
Les éléments longs INterspersed-1 (LINEs/N1) sont des éléments répétitifs qui peuvent être copiés et insérer aléatoirement dans le génome, ce qui entraîne une instabilité génomique et une mutagenèse. La compréhension des schémas d’expression des loci L1 au niveau individuel prêtera à la compréhension de la biologie de cet élément mutagène. Cet élément autonome constitue une portion importante du génome humain avec plus de 500 000 exemplaires, bien que 99% soient tronqués et défectueux. Cependant, leur abondance et leur nombre dominant de copies défectueuses rendent difficile l’identification authentiquement exprimée N1 des séquences liées à la L1 exprimées dans d’autres gènes. Il est également difficile d’identifier quel locus L1 spécifique est exprimé en raison de la nature répétitive des éléments. En surmontant ces défis, nous présentons une approche bioinformatique de l’ARN-SEQ pour identifier l’expression L1 au niveau spécifique du locus. En résumé, nous recueillons l’ARN cytoplasmique, sélectionnons les transcriptions polyadénylées et utilisons des analyses ARN-SEQ spécifiques aux brins pour cartographier de façon unique les lectures sur des loci L1 dans le génome de référence humain. Nous avons visuellement curé chaque locus L1 avec des lectures mappées de façon unique pour confirmer la transcription de son propre promoteur et ajuster les lectures de transcription mappées pour tenir compte de la mappabilité de chaque locus L1 individuel. Cette approche a été appliquée à une lignée de cellules tumorales de la prostate, DU145, pour démontrer la capacité de ce protocole à détecter l’expression à partir d’un petit nombre d’éléments L1 pleine longueur.
Les rétrotransposons sont des éléments d’ADN répétitifs qui peuvent «sauter» dans le génome dans un mécanisme de copier-coller via des intermédiaires d’ARN. Un sous-ensemble de rétrotransposons est connu sous le nom de long INterspersed elements-1 (LINEs/N1) et constitue un sixième du génome humain avec plus de 500, 0000 copies1. En dépit de leur abondance, la plupart de ces copies sont défectueuses et tronquées avec seulement une estimation de 80-120 éléments L1 considérés comme actifs2. Une L1 pleine longueur est d’environ 6 Ko de longueur avec 5 'et 3 'régions non traduites, un promoteur interne et associé anti-sens promoteur, deux non-chevauchement des cadres de lecture ouverte (ORFS), et un signal et la queue polyA3,4,5 . Chez l’homme, les N1 sont des sous-familles distinguées par l’âge évolutionnaire avec les familles plus âgées ayant accumulé des mutations de séquences plus uniques au fil du temps par rapport à la plus jeune sous-famille, L1HS6,7. Les N1 sont les seuls rétrotransposons autonomes et humains et leurs ORFs encodent une transcriptase inverse, une endonucléase et des RNPs avec des activités de liaison à l’ARN et de chaperon requises pour rétrotransposer et insérer dans le génome dans un processus dénommé «cible-amorcée» transcription inversée8,9,10,11,12.
La rétrotransposition de N1 a été signalée comme causant des maladies germinales humaines par divers mécanismes, dont la mutagenèse insertionnelle, les suppressions de sites cibles et les réarrangements13,14,15, 16. récemment, il a été émis l’hypothèse que N1 peut jouer un rôle dans l’oncogenèse et/ou la progression tumorale comme l’augmentation de l’expression et des événements d’insertion de cet élément mutagène ont été observés dans une variété de cancers épithéliaux17,18 . On estime qu’il y a une nouvelle insertion L1 dans chaque 200 naissances19. Par conséquent, il est impératif de mieux comprendre la biologie de l’expression active N1. La nature répétitive et l’abondance des copies défectueuses trouvées dans les transcriptions d’autres gènes ont rendu ce niveau d’analyse difficile.
Heureusement, avec l’avènement des technologies de séquençage à haut débit, des progrès ont été faits pour analyser et identifier authentiquement exprimant N1 au niveau de locus-specific. Il existe différentes philosophies sur la façon de mieux identifier exprimée N1 en utilisant l’ARN séquençage de prochaine génération. Il n’y a eu que deux approches raisonnables suggérées pour cartographier les transcriptions L1 au niveau spécifique au locus. On ne se concentre que sur la transcription potentielle qui se lit à travers le signal de polyadénylation L1 et dans les séquences flanquant20. Notre approche tire parti des petites différences de séquence entre les éléments L1 et seulement les cartes que ces ARN-SEQ lisent qui mappe de façon unique à un locus21. Ces deux méthodes ont des limites en termes de quantification des niveaux de transcription. La quantification peut être améliorée potentiellement en ajoutant une correction pour la «mappabilité unique» de chaque locus L121, ou en utilisant des algorithmes plus complexes qui redistribuent les lectures multimappées qui ne peuvent pas être mappées de manière unique à un locus spécifique22. Ici, nous détaillons de manière étape par étape l’extraction d’ARN et le protocole de séquençage et de bioinformatique de nouvelle génération pour identifier les éléments L1 exprimés au niveau spécifique au locus. Notre approche profite au maximum de notre connaissance de la biologie des éléments fonctionnels L1. Cela inclut la connaissance que les éléments fonctionnels L1 doivent être générés à partir du promoteur L1, initié au début de l’élément L1, doivent être traduits dans le cytoplasme et que leurs transcriptions doivent être co-linéaires avec le génome. Brièvement, nous recueillons l’ARN frais, cytoplasmique, sélectionnons pour les transcriptions polyadénylées, et utilisons des analyses ARN-SEQ spécifiques aux brins pour cartographier de façon unique les lectures sur les loci L1 dans le génome de référence humain. Ces lectures alignées requièrent alors encore une grande conservation manuelle pour déterminer si les lectures de transcription proviennent du promoteur L1 avant de désigner un locus comme un L1 authentiquement exprimé. Nous appliquons cette approche sur l’échantillon de la lignée de cellules tumorales de la prostate DU145 pour démontrer comment il identifie un relativement peu de membres de L1 transcrits activement à partir de la masse des copies inactives.
1. extraction de l’ARN cytoplasmique
2. séquençage de nouvelle génération
3. créer des annotations (facultatif si on a une annotation existante)
4. lire le pipeline d’alignement pour identifier les N1 exprimés
option | description |
– p | Cela détaille le nombre de threads que l’ordinateur doit utiliser pour exécuter l’alignement. La mémoire d’ordinateur plus grande permettra plus de threads et devrait être empiriquement d. |
– m 1 | Cela indique au programme d’accepter uniquement les lectures qui ont une correspondance dans le génome qui est mieux que n’importe quel autre génome match. |
– y | Il s’agit du commutateur TryHard qui effectue la recherche de mappage pour toutes les correspondances possibles et ne lui permet pas de quitter après un nombre fixe de correspondances est atteint. |
– v 3 | Cela permet uniquement au programme d’utiliser la mémoire pour les lectures mappées avec 3 ou moins de décorrespondances au génome. |
– X 600 | Cela ne permet que des lectures appariées que la carte dans 600 bases de l’autre. Cela permet de s’assurer que les paires de lecture sont co-linéaires dans le génome et sélectionne contre s impliquant des molécules d’ARN traitées. |
– chunkmbs 8184 | Cette commande attribue une mémoire supplémentaire pour gérer la grande quantité d’alignements possibles pour chaque lecture liée à L1. |
Tableau 1: options de ligne de commande pour noeud papillon.
5. conservation manuelle
6. lire la stratégie d’alignement pour évaluer la mappabilité dans le génome de référence (facultatif si on a un jeu de données d’ADN génomique aligné existant)
Les étapes décrites ci-dessus et décrites graphiquement dans la figure 1 ont été appliquées à une lignée de cellules de tumeur de la prostate humaine DU145. L’échantillon d’ARN a été préparé dans le cytoplasme et a été séquencé à la prochaine génération dans un protocole poly-A sélectionné, spécifique à un brin, couplé à la fin. À l’aide de Bowtie, les fichiers de séquençage de fin appariés ont été alignés, ce qui permet uniquement des correspondances uniques dans lesquelles la lecture de fin appariée correspond mieux à un emplacement génomique comparé à n’importe quel autre emplacement génomique. Les fichiers de séquence DU145 ont été alignés sur le génome de référence humain créant un fichier BAM, qui est disponible sur demande de l’auteur. À l’aide de bedtools, les données ont été extraites des fichiers BAM séparés par des brins DU145 sur le nombre de lectures mappées sur la longueur totale N1. Ces lectures ont été triées dans une feuille de calcul de la plus grande à la plus petite et préparées manuellement en examinant l’environnement génomique autour de chaque locus L1 dans IGV pour confirmer son authenticité (tableau supplémentaire 1). Si un échantillon a été sélectionné pour être authentiquement exprimé, il a été codé en couleur vert avec une explication pour son acceptation dans la colonne la plus à droite. On trouvera dans la figure 2a-bdes exemples de loci L1 acceptés pour être authentiquement exprimés suivant les directives décrites dans la section des méthodes. Si un échantillon a été rejeté pour être authentiquement exprimé, il a été codé en couleur rouge avec la raison du rejet sur la colonne la plus à droite. Des exemples de loci L1 rejetés en raison de l’expression d’un promoteur autre que leurs propres directives suivantes décrites dans la section des méthodes sont détaillés dans la figure 2c-e.
Ici, seuls les N1 pleine longueur avec une région de promoteur intact ont été étudiés. Si cette distinction n’est pas faite, une grande source de bruit transcriptionnel provenant de la N1 tronquée est introduite. Des exemples de N1 tronqués dans DU145 sont montrés dans la figure 3a-b où ils ont été identifiés comme ayant des lectures d’ARN-SEQ mappées de façon unique. Dans l’IGV, cependant, il est évident que ces transcriptions n’ont pas été initiées à partir de la L1 tronquée, mais de l’inclusion de la séquence L1 dans un gène ou en aval d’un gène exprimé.
Globalement, en DU145, le pourcentage de loci L1 de longueur totale et de lectures qui sont rejetés comme authentiquement exprimés N1 après la conservation manuelle est d’environ 50% (tableau supplémentaire 2) démontrant le niveau élevé des lectures de transcription cartographiées L1 qui seraient autrement être enregistrés comme faux positifs sans curation manuelle. Plus précisément, en DU145, il y avait 114 loci totaux de longueur totale de L1 pour avoir des lectures cartographiées de façon unique dans la direction du sens avec un total de 3 152 lectures, mais il n’y avait que 60 loci identifiés pour être exprimés au large de leur propre promoteur après la conservation manuelle avec 1 879 lectures ( Tableau 1 supplémentaire). C’est le cas même lorsque des mesures ont été prises pour réduire l’expression non pertinente à la biologie L1 en sélectionnant pour l’ARNm cytoplasmique. Notez que le locus avec le plus haut niveau de transcriptions mappées dans DU145 a été rejeté parce qu’il n’était pas un L1 authentiquement exprimé (figure 4). Dans l’ensemble, le nombre de transcriptions mappées à des loci L1 spécifiques varie de la même façon entre les loci L1 acceptés et rejetés comme authentiquement exprimés après la conservation manuelle (figure 4).
Après la curation manuelle, le nombre de lectures qui mappaient de façon unique à des loci L1 spécifiques authentiquement exprimés dans DU145 varient de 175 lectures à une coupure minimale choisie arbitrairement de 10 lectures (figure 5). Cette approche consistant à identifier des lectures de transcription mappées de manière unique à N1 limite la capacité de quantifier précisément l’expression. Pour tenir compte de cela, un facteur de correction pour chaque locus basé sur sa mappabilité a été créé. Pour créer ce facteur de correction, les premiers outils de lit ont été utilisés pour extraire le nombre de lectures mappées de façon unique à partir du fichier BAM génomique HeLa qui s’alignait sur tous les loci L1 de longueur totale et a représenté ces loci du plus élevé au plus bas des lectures de transcriptions cartographiées (supplément Figure 1). Il a été arbitrairement désigné que N1 avec 400 lectures ont eu la mappability pleine couverture. Le nombre de lectures pouvant être mappées à un locus L1 dans l’échantillon de séquençage génomique HeLa a été mis à l’échelle par rapport à 400 lectures et ce nombre à l’échelle a ensuite été multiplié par le nombre de lectures qui ont été mappés à chaque locus L1 authentiquement exprimé dans DU145 (tableau supplémentaire 2) . Comme prévu, les éléments L1 qui avaient des scores de correction plus importants pour la mappabilité provenaient de sous-familles plus jeunes comme L1PA2 (tableau supplémentaire 2). Une fois que les lectures ont été ajustées pour les scores de mappabilité dans chaque locus, la quantification pour l’expression de la plupart des loci a augmenté (figure 6). Le nombre de lectures qui ont été mappées de façon unique à des loci L1 spécifiques authentiquement exprimés avec des corrections de mappabilité dans DU145 variait de 612 à 4 lectures et il y avait une réorganisation des loci les plus élevés aux plus faibles (figure 6).
Figure 1: schéma de Workflow.
Les étapes pour identifier les N1 exprimés dans un échantillon humain sont décrites graphiquement. Notez que les étapes 1 et 2 n’ont pas besoin d’être répétées si les fichiers appropriés sont déjà disponibles. Ces fichiers appropriés peuvent être téléchargés à partir du supplément de fichier 1a-b et le fichier de supplément 2. Les cases en rouge indiquent les étapes où le programme de couverture des outils de lit est utilisé pour compter le nombre de lectures de mappage à N1 dans la même direction sens. Ces loci avec des lectures de cartographie orientées sens sont les N1 qui doivent être sélectionnés manuellement. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 2: exemples de loci L1 organisés en DU145.
Chargé dans IGV sont le génome de référence, le fichier d’annotation L1 GFF pleine longueur correspondant à la version du génome de référence (supplément file 1), le fichier BAM DU145, et enfin le fichier génomique hela BAM pour évaluer la mappabilité, qui sont tous disponibles sur l’auteur demande. Des flèches ont été ajoutées pour faciliter la visualisation de la direction de la L1 annotée. Les flèches et les lectures en rouge sont orientées en séquence de droite à gauche. Les flèches et les lectures en bleu sont orientées en séquence de gauche à droite. a) dans IgV, ce locus L1 semble être exprimé au large de son propre promoteur car il n’y a pas de lectures en amont de la L1 dans l’orientation sens pour plus de 5 KB. Cette L1 a une faible mappabilité, elle n’est pas dans un gène, et a la preuve de l’activité de promoteur antisens attendue26. b) dans IgV, ce locus L1 semble être exprimé au large de son propre promoteur car il n’y a pas de lectures en amont de la L1 dans l’orientation sens pour plus de 5 KB. Cette L1 a une faible mappabilité et est dans un gène de direction opposée. c) dans IgV, ce locus L1 a été rejeté comme un L1 exprimé car il y a des lectures en amont dans la même orientation dans les 5 KB. Cette L1 est dans un gène de la même direction de sorte que les lectures de transcription sont très probablement originaires du promoteur du gène exprimé. d) dans IgV, ce locus L1 a été rejeté comme un L1 exprimé car il y a des lectures en amont dans la même orientation dans les 5 KB. Cette L1 est en aval d’un gène fortement exprimé dans la même direction de sorte que les lectures de transcription sont très probablement originaires du promoteur de ce gène exprimé et s’étendant au-delà de la terminaison de gène normale. e) en IgV, ce locus L1 a été rejeté comme un L1 exprimé car il y a des lectures en amont dans la même orientation dans les 5 KB. Cette L1 n’est pas à l’intérieur ou à proximité d’un gène annoté dans le gène de référence de sorte que l’origine de ces transcriptions à l’intérieur et en amont de l’élément L1 suggèrent un promoteur non annotée. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 3: le bruit de fond provient du N1 tronqué aussi bien.
Notre annotation L1 n’inclut pas les N1 tronquées car elles constituent une source majeure de bruit de fond. Des flèches ont été ajoutées pour faciliter la visualisation de la direction de la L1 annotée. Les flèches et les lectures en bleu sont orientées en séquence de gauche à droite. a) démontré est un exemple d’un L1 tronqué dans la SUFAMILLE L1MB5 qui est 2706 bps. Dans l’IGV, il est évident que les lectures proviennent de l’extension en aval d’un gène exprimé. b) montré est un autre exemple d’un L1 tronqué. Ce L1 est un L1PA11 qui est 4767 BPS long. Dans l’IGV, il est évident que les lectures de mappage de façon unique à la L1 proviennent de l’exon exprimé, dont le L1 est à l’intérieur. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 4: la transcription lit cette carte de façon unique à toutes les N1 intactes de longueur totale dans le génome humain exprimée en DU145 lignée de cellules tumorales de la prostate.
En noir sont les loci spécifiques à identifier comme authentiquement exprimés après la conservation manuelle et en rouge sont les loci spécifiques à rejeter comme authentiquement exprimée lectures après la conservation manuelle. En gris sont des loci avec moins de dix lectures de mappage à chacun. Comme ces loci représentent une petite fraction des lectures de transcription, ils n’étaient pas curate manuellement. Les graduations de l’axe x désignent chaque 100 pleine longueur, intacte N1. environ 4 500 loci ne sont pas représentés graphiquement car ils n’avaient pas de lectures mappées. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 5: la transcription lit cette carte de manière unique pour une N1 intacte pleine longueur dans la lignée de cellules tumorales de la prostate DU145.
Montré sont les nombres de transcription lit cette carte à des loci spécifiques dans les cellules DU145 après la curation manuelle. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Figure 6: lit le mappage de façon authentiquement exprimée L1 lorsqu’il est ajusté par mappability.
Les nombres de lectures de transcription sont ajustés par des scores de mappabilité spécifiques aux loci qui mappés aux loci L1 manuellement sélectionnés dans les cellules DU145. S’il vous plaît cliquez ici pour voir une version plus grande de ce chiffre.
Fichier supplémentaire 1: annotations pour la N1 humaine pleine longueur, intacte selon l’orientation. a) FL-L1-BLAST_RM_minus. GFF. b) FL-L1-BLAST_RM_plus. GFF. Veuillez cliquer ici pour télécharger ce fichier.
Fichier supplémentaire 2: scripts de supercalculateur utilisés pour automatiser le pipeline de bioinformatique détaillé dans la section 4. Veuillez cliquer ici pour télécharger ce fichier.
Figure supplémentaire 1: échantillon d’ADN génomique utilisé pour déterminer la mappabilité L1.
Le nombre de relevés génomiques est indiqué à partir de l’échantillon de la lignée de cellules HeLa qui est unique à tous les 5 000 locus L1 de longueur totale dans le génome. Il a été désigné qu’un L1 a la mappability pleine couverture quand 400 lit la carte au L1. Veuillez cliquer ici pour télécharger ce chiffre.
Tableau supplémentaire 1: curation manuelle de N1 en DU145. Veuillez cliquer ici pour télécharger ce tableau.
Tableau supplémentaire 2: N1 en DU145 avec ajustement de la mappabilité. Veuillez cliquer ici pour télécharger ce tableau.
Il a été démontré que l’activité de L1 provoque des dommages génétiques et une instabilité contribuant à la maladie27,28,29. Sur les environ 5 000 copies L1 complètes, seules quelques dizaines de jeunes N1 évolutivement représentent la majorité de l’activité de rétrotransposition2. Cependant, il est prouvé que même certains plus âgés, rétrotranspositionnellement-incompentent N1 sont encore en mesure de produire de l’ADN des protéines dommageables30. Pour apprécier pleinement le rôle du N1 dans l’instabilité génomique et la maladie, l’expression L1 au niveau spécifique au locus doit être comprise. Cependant, l’arrière-plan élevé des séquences liées à la L1 incorporées dans d’autres ARN sans rapport avec la rétrotransposition L1 pose un défi important dans l’interprétation de l’expression L1 authentique. Un autre défi dans l’identification et donc la compréhension des schémas d’expression des loci L1 individuels se produit en raison de leur nature répétitive qui ne permet pas de nombreuses séquences de lecture courtes pour mapper à un seul locus unique. Pour surmonter ces difficultés, nous avons développé l’approche décrite ci-dessus pour identifier l’expression des loci L1 individuels à l’aide de données ARN-Seq.
Notre approche filtre le niveau élevé (plus de 99%) du bruit transcriptionnel généré à partir de séquences L1 qui ne sont pas liées à la rétrotransposition L1 en prenant un certain nombre d’étapes. La première étape consiste à préparer l’ARN cytoplasmique. En sélectionnant pour l’ARN cytoplasmique, les lectures liées à la L1 trouvées dans l’ARNm intronique exprimée dans le noyau sont significativement épuisées. Dans la préparation de la bibliothèque de séquençage, une autre étape prise pour réduire le bruit transcriptionnel sans rapport avec N1 inclut la sélection des transcriptions polyadénylées. Cela élimine les bruits de transcription liés à la L1 trouvés chez les espèces non mRNA. Une autre étape comprend le séquençage spécifique aux brins afin d’identifier et d’éliminer les transcriptions liées à l’antisens L1. L’utilisation d’une annotation pour N1 pleine longueur avec des régions promotrices fonctionnelles lors de l’identification du nombre de transcriptions d’ARN-SEQ qui mappent à N1 élimine également les bruits de fond qui proviennent autrement de N1 tronquées. Enfin, la dernière étape critique pour éliminer le bruit transcriptionnel des séquences L1 sans rapport avec la rétrotransposition L1 est la conservation manuelle de la N1 pleine longueur identifiée pour avoir mappé des transcriptions de l’ARN-Seq. La conservation manuelle implique la visualisation de chaque locus L1, identifié par bioinformatisation, dans le contexte de son environnement génomique environnant, afin de confirmer que cette expression provient du promoteur L1. Cette approche a été appliquée à DU145, une lignée de cellules tumorales de la prostate. Même avec toutes les mesures de préparation prises pour réduire le bruit de fond, environ 50% des loci L1 identifiés bioinformatiquement dans DU145 ont été rejetés comme bruit de fond L1 provenant d’autres sources transcriptionnelles (figure 4), en insistant sur la rigueur requise pour produire des résultats fiables. Cette approche utilisant la conservation manuelle est laborieuse, mais nécessaire dans le développement de ce pipeline pour évaluer et comprendre l’environnement génomique entourant une L1 pleine longueur. Les prochaines étapes comprennent la réduction de la quantité de la conservation manuelle nécessaire en automatisant certaines des règles de conservation, mais en raison de la nature toujours pas complètement connue de l’expression génomique, des sources d’expression non annotées dans le génome de référence, les régions de faible la mappabilité, et même les facteurs de complication impliqués dans la construction d’un génome de référence, il n’est pas possible d’automatiser entièrement la conservation L1 à ce moment.
Le deuxième défi dans l’identification de l’expression des loci L1 individuels avec le séquençage se rapporte à la cartographie des transcriptions répétées de L1. Dans cette stratégie d’alignement, il est nécessaire qu’une transcription soit alignée de façon unique et co-linéairement sur le génome de référence afin d’être cartographiée. En sélectionnant pour les séquences couplées qui mappent concordalement, la quantité de transcriptions qui s’alignent de façon unique sur les loci L1 trouvés dans le génome de référence augmente. Cette stratégie de cartographie unique fournit la confiance dans l’appel de la cartographie de lectures spécifiquement à un locus L1 unique, bien qu’elle sous-estime potentiellement la quantité d’expression de chaque exprimée-à-être-authentiquement exprimé, répétitif L1. À peu près correct pour cette sous-estimation, un score de «mappability» pour chaque locus L1 basé sur sa mappabilité a été développé et appliqué au nombre de lectures de transcription mappées de façon unique (figure 6). Il est à noter que, idéalement, la mappabilité doit être notée à la couverture complète lit sur l’ensemble de la longueur L1 en fonction de l’échantillon WGS appariés. Ici, nous utilisons WGS de cellules HeLa pour déterminer les scores de la mappabilité de chaque locus L1 afin de gonfler ou de dégonfrer les lectures de mappage à des loci L1 dans les lignées cellulaires de tumeur de la prostate DU145. Ce calcul de la mappabilité est un score de correction brut, mais la «mappabilité complète de la couverture» de 400 lectures a été déterminée avec la nature dynamique des lignées cellulaires tumorales à l’esprit. Il peut être observé dans la figure 1 supplémentaire, qu’il y a quelques loci L1 avec hela WGS avec le nombre extrêmement élevé de lectures cartographiées. Ceux-ci proviennent probablement de séquences chromosomiques dupliquées au sein d’HeLa qui ne se trouvent pas dans le génome de référence, raison pour laquelle ces loci n’ont pas été choisis pour être représentatifs de la couverture de la mappabilité complète. Au lieu de cela, il a été déterminé que la moyenne de 100% de la couverture de lecture se produit autour de 400 lectures selon la figure supplémentaire 1 et a ensuite supposé que cette moyenne s’applique à la lignée de cellules de la prostate DU145 tumeur aussi bien.
Cette stratégie d’alignement avec 100-200 BP lectures de la technologie de l’ARN-SEQ sélectionne également préférentiellement pour les N1 évolutivement plus âgés dans le génome de référence que les N1 plus âgés ont accumulé au fil du temps des mutations uniques qui les rendent plus mappables. Cette approche, par conséquent, a une sensibilité limitée quand il s’agit d’identifier le plus jeune de N1 ainsi que non-référence, N1 polymorphique. Pour identifier le plus jeune de N1, nous vous suggérons d’utiliser 5 'RACE sélection de transcriptions L1 et la technologie de séquençage comme PacBio qui utilisent des lectures plus longues21. Cela permet une cartographie plus unique et donc une identification sûre des jeunes N1. l’utilisation des approches ARN-SEQ et PacBio peut aboutir à une liste plus complète des N1 authentiquement exprimés. Pour identifier les N1 polymorphiques authentiquement exprimés, les premières étapes suivantes comprennent la construction et l’insertion de séquences polymorphes dans le génome de référence.
Les défis biologiques et techniques dans l’étude des séquences répétées sont grands, mais avec la procédure ci-dessus rigoureuse pour éliminer le bruit transcriptionnel des séquences L1 non liées à la rétrotransposition en utilisant la technologie de séquençage de l’ARN, nous commençons à passer au crible les grands niveaux de bruit de fond transcriptionnel et d’être en confiance et de manière rigoureuse identifier les modèles d’expression L1 et la quantité au niveau de locus individuel.
Les auteurs n’ont rien à divulguer.
Nous aimerions remercier le Dr Yan Dong pour les cellules tumorales de la prostate DU145. Nous aimerions remercier le Dr Nathan Ungerleider pour ses conseils et son Conseil dans la création de scripts de supercalculateur. Une partie de ce travail a été financée par des subventions NIH R01 GM121812 à la police, R01 AG057597 à VPB, et 5TL1TR001418 aux savoirs traditionnels. Nous aimerions également souligner le soutien des croisés du cancer et du centre de bioinformatique du Tulane Cancer Center.
Name | Company | Catalog Number | Comments |
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon