אלמנטים ניידים הם אחד המקורות העיקריים לחוסר יציבות גנטית אנושית. הבנת הביטוי שלהם ברקמות ובתנאים שונים היא קריטית להבנת השפעתם על הגנום. העצום של תעתיקי L1 הם תוצאה של הכללה פסיבית של רצפים הקשורים L1 בתעתיקים אחרים שאין להם תפקיד במחזור החיים L1.
הגישה שלנו מבטלת את הרקע הלא רלוונטי הזה. פרוטוקול זה יכול להיות מותאם למחקרים של כל אלמנט נייד, או אפילו וירוסים בכל גנום רצף. צריכה להיות לפחות וריאציה ברצף כדי לאפשר אפליה בין לוצי.
הדגמה חזותית של שיטה זו היא קריטית להמחשת ההחמרה והטיפול הנדרשים כדי לזהות בביטחון אלמנטים חוזרים L1 מבוטאים ברמה הספציפית לוקוס. התחל הליך זה עם מיצוי RNA ציטופלסמי ותהום הדור הבא כמתואר בפרוטוקול הטקסט. על ידי בחירה עבור RNA ציטופלסמי, קריאות הקשורות L1 נמצאו בתוך mRNA intronic לידי ביטוי בגרעין מתרוקנים באופן משמעותי.
בספריית רצף הכנה צעד נוסף שננקט כדי להפחית את רעש שעתוק שאינו קשור L1s כולל את הבחירה של תעתיקים polyadenylated. פעולה זו מסירה רעש תעתיק הקשור ל- L1 שנמצא במין שאינו mRNA. הפעל רצף יישור רצף קבצי FASTQ עם מדגם RNA seq של עניין באמצעות bowtie1 על ידי הקלדת שורת הפקודה במסוף לינוקס.
אסטרטגיית יישור זו דורשת שהתעתיקים יהיו מיושרים באופן ייחודי וקוליני עם חיפוש גנומי ממצה. אסטרטגיה זו מספקת ביטחון בקריאה של מיפוי קריאות במיוחד לוקוס L1 יחיד. סטרנד מפריד את קובצי הפלט BAM באמצעות פקודות SAMtools ו- Linux כדי לבחור עבור הגדיל העליון והגדיל התחתון.
שים לב כי ערכי הדגל בפועל עשויים להשתנות אם אחד אינו משתמש בפרוטוקולי רצף הדור הבא הרגילים. שלב הפרדת גדילים זה פועל כדי לסנן את רעש התמלול שנוצר בתוך רצפי L1 שאינם קשורים רטרוטרנספוזיציה L1 על ידי ביטול קריאות ממופות פוטנציאליות הקשורות antisense L1. צור ספירות קריאה נגד ביאורים עבור L1 loci באמצעות bedtools.
הקלד תחילה את שורת הפקודה כדי ליצור ספירות קריאה עבור L1s בכיוון החושי בגדיל העליון ולאחר מכן הקלד את שורת הפקודה כדי ליצור ספירת קריאה עבור L1s בכיוון החושי בגדיל התחתון. הביאורים המשמשים לזיהוי L1s מציינים L1s באורך מלא עם אזורי מקדם פונקציונליים אשר פועלים כדי למנוע רעשי רקע שמקורם בדרך אחרת L1s חתוכים.
העתק מעל קובץ הטקסט שנוצר ספירות קריאה שנוצר עבור הגדיל התחתון ולתייג את הדף minus_bottom. מיין את כל העמודות בהתבסס על המספר הגבוה ביותר לנמוך ביותר של קריאות שנמצאו בעמודה J.Copy מעל קובץ הטקסט שנוצר ספירות קריאה שנוצר שנוצר עבור הגדיל העליון. מיין את כל העמודות בהתבסס על המספר הגבוה ביותר עד הנמוך ביותר של קריאות שנמצאו בעמודה J.And תייג את העמוד top_plus.
צור עמוד שלישי המסווים כעמוד משולב והוסף את כל הלוצ'י עם 10 קריאות או יותר minus_bottom plus_top עמודים. מיין את כל העמודות בהתבסס על המספר הגבוה ביותר עד הנמוך ביותר של קריאות שנמצאו בעמודה J.To לסייע mappability של אזורים גנומיים, במיוחד בתוך או ליד L1 loci, גנום שלם מזווג רצף קבצים של מינים של עניין הורדו מ NCBI והומרו קבצי FASTQ כמתואר בפרוטוקול הטקסט. כעת, צור אינדקס עבור קבצי BAM כדי להפוך אותם לניתנים להצגה במציג הגנומיקה האינטגרטיבית, IGV מקוצר, לפני טעינת הקבצים.
ב IGV לטעון את הגנום התייחסות של עניין לדמיין גנים מבואר. טען גם את קובץ הביאור עבור רכיבי L1 באורך מלא כדי להמחיש את הביאור L1, קובץ ה- BAM לביטוי RNA אנושי, כדי לדמיין תעתיקים ממופים מדגם העניין וקובץ ה- BAM עבור יכולת mappability של הגנום האנושי כדי להעריך את יכולת ה- mappability של אזורים גנומיים. הסר שורות עיתוד וצומת המשויכות לכל קובץ BAM.
לדחוס את קבצי BAM עבור ביטוי RNA אנושי עבור mappability הגנום האנושי כך כל מסלולי IGV להתאים על מסך אחד. השלב הקריטי האחרון בביטול רעש שעתוק של רצפי L1 שאינם קשורים רטרוטרנספוזיציה L1 היא יצירה ידנית של L1s באורך מלא שזוהו כי ממופה RNA לחפש תעתיקים. אוצרות ידנית כרוכה בהדמיה של כל לוקוס L1 מבוטא בהקשר של הסביבה הגנומית הסובבת אותו כדי לאשר כי הביטוי מקורו מקדם L1.
באמצעות קואורדינטות מ- L1 loci המפורטות בדף המשולב של גיליון העבודה, אצור באופן ידני כל לוקוס L1 עם תעתיקים ממופים באופן ייחודי על-ידי בחינת הסביבה הגנומית המקיפה אותם ב- IGV. לאצור לוקוס להתבטא באופן אותנטי משלו אם אין קריאות במעלה הזרם בכיוון L1 עד חמישה קילו-בבס. סמן את השורה בירוק בצבע ושים לב מדוע היא L1 המבוטאת באופן אותנטי. חריג לכלל זה קיים אם האזור במעלה הזרם של L1 אינו ניתן לתיווגם.
אם זהו המקרה, סמן את השורה באדום בצבע ושים לב שלא ניתן להעריך את ביטוי האזור במעלה הזרם של מקדם L1 ולכן אין אפשרות לקבוע בביטחון את ביטוי ה- L1. לאצור לוקוס שלא יתבטא באופן אותנטי את האמרגן שלו אם יש קריאות במעלה הזרם עד חמישה קילו-בבס. סמן את השורה באדום בצבע ושים לב מדוע היא אינה L1 המבוטאת באופן אותנטי. לאצור לוקוס ככוזב אם הוא בא לידי ביטוי בתוך אינטרון של גן מבוטא באותו כיוון, עם קריאות במעלה הזרם של L1, אם זה במורד הזרם של גן מבוטא באותו כיוון עם קריאות במעלה הזרם של L1, או עבור דפוסי ביטוי ללא ביאורים עם קריאות במעלה הזרם של L1. חריג לכלל זה חל כאשר יש קריאות מינימליות החופפות ישירות לאתר ההתחלה של מקדם L1, אך מעט במעלה הזרם של L1. אם אין קריאות אחרות במעלה הזרם של מקרה L1 כזה, שקול L1 זה לבוא לידי ביטוי אותנטי.
סמן את השורה בירוק ושים לב מדוע היא L1 המבוטאת באופן אותנטי. לאצור לוקוס L1 ככל הנראה להיות שקר אם הדפוס של קריאות ממופות לוקוס אינם תואמים עם אזורי L1 הספציפיים של mappability. אם L1 הוא מאוד mappable, אבל יש רק ערימה של קריאות באזור מרוכז בתוך L1, זה פחות סביר להיות קשור ביטוי L1 את האמרגן שלה סביר יותר להיות ממקורות לא ידועים כמו exons או LTRs. במקרים כאלה, לאצור את הלוקוס כתום ולציין מדוע הלוקוס הוא חשוד.
אמת מקורות של ערימות חשודות על ידי בדיקת מיקום L1 בדפדפן הגנום של UCSC. לאצור לוקוס שלא יתבטא באופן אותנטי אם הוא נמצא בסביבה גנומית של אזורים לא מבוטאים באופן ספורדי. קריאות עשויות לבוא לידי ביטוי 10 קילו-בבס במעלה הזרם של L1. אבל כל 10 קילו-בבס בערך, יש קריאות ממופות וחלק מהקריאות האלה מתיישרות עם ה-L1. L1s אלה צפויים להיות ממופים קריאות עקב דפוסים לא מנואורים של ביטוי גנומי.
במקרים כאלה, לאצור את הלוקוסים כמו אדום ולציין מדוע הלוקוס הוא חשוד. כדי לסייע mappability של כל L1 loci לקבוע את מספר קריאות ממופות באופן ייחודי L1 loci באמצעות תוכנית bedtools, ביאור FL-L1 ואת נתוני רצף גנומי מיושר. ייעוד לוקוס L1 יש mappability כיסוי מלא כאשר 400 קריאות ייחודיות מיושרים אליו.
לקבוע את הגורם הנדרש כדי להגדיל או למטה DNA גנומי מיושר קורא 400 עבור כל L1 בודדים. כדי לקבל מידה מסוימת של ביטוי על פי Mappability L1 לוקוס בודדים, להכפיל את הגורם על ידי מספר תעתיק RNA קורא כי ליישר L1s בודדים מבוטאים באופן אותנטי. כל שלב משמש כדי להדגיש הבדלים בין אלמנטים L1 לידי ביטוי את האמרגן שלהם, ואת כל הדרכים כי אלמנטים L1 עשוי להיכלל לתוך תעתיקים אחרים שאינם קשורים מחזור החיים L1. המוצגים כאן תעתיק קורא כי המפה באופן ייחודי לכל L1s שלם באורך מלא בגנום האנושי לידי ביטוי בקו תא גידול הערמונית DU145.
בשחור הם הלוצ'י הספציפיים שזוהו כאותנטיים לאחר אוצרות ידנית. ואדום הם loci ספציפי נדחה כמו קריאות באותנטיות לאחר אוצרות ידנית. באפור הם loci עם פחות מ 10 קריאות מיפוי לכל אחד.
מכיוון שלוצי אלה מייצגים חלק קטן מקריאות התמליל, הם לא אוצרו ידנית. כ-4500 לוכסנים אינם מוצגים גרפית, מכיוון שהיו להם אפס קריאות ממופות. לאחר אוצרות ידנית, מספר קריאות המפה באופן ייחודי כדי אותנטי לידי ביטוי ספציפי L1 loci ב DU145 נע בין 175 קריאות למינימום שנבחר באופן שרירותי לחתוך של 10 קריאות.
לאחר קריאות הותאמו עבור ציונים mappability בכל לוקוס, כימות הביטוי עבור רוב הלוקוס גדל. מספר הקריאות הממופות באופן ייחודי ללוצ'י L1 ספציפיים שהובעו באופן אותנטי עם תיקוני mappability ב- DU145 נע בין 612 לארבע קריאות והיה סידור מחדש של הלוצ'י הגבוה ביותר לנמוך ביותר. כל צעד ממלא תפקיד מכריע בהפחתת הרמה הגבוהה של רעשי רקע שעתוק.
עם זאת, הצעד הקריטי ביותר הוא אוצרות ידנית של כל לוקוס L1 כדי לאשר שעתוק של האמרגן שלו. כ-50% מ-L1 loci שזוהו ביואינפורמטית בתאי DU145 נדחו כרעש רקע L1 שמקורו במקורות שעתוק אחרים, תוך שימת דגש על הקשיחות הנדרשת להפקת תוצאות אמינות. כדי לזהות את הצעיר ביותר של L1s, אנו מציעים להשתמש חמש ראשוני RACE הבחירה של תעתיקי L1 וטכנולוגיית רצף כמו PacBio לעשות שימוש קריאות ארוכות יותר ומאפשר מיפוי ייחודי יותר.
בגישה זו, אנו יכולים לזהות ולמת דפוסי ביטוי L1 בצורה מחמירה ובטוחה. זה סולל את הדרך להבנה טובה יותר של הרגולציה של לוקי L1 בודדים ואת ההשפעה הפוטנציאלית.