Neue Sequenz Entdeckung durch subtraktive Genomics

Kathryn C. Asalone; Megan M. Nelson; John R. Bracht

doi:10.3791/58877

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Dieses Protokoll soll verwenden eine Kombination aus Rechenleistung und Bank-Forschung, um neue Sequenzen zu finden, die leicht von einer Co reinigende Sequenz, die nur teilweise bekannt sein kann nicht getrennt werden können.

Zusammenfassung

Subtraktive Genomics kann verwendet werden, in jede Forschung, wo das Ziel ist, identifizieren die Sequenz eines Gens, Protein oder allgemeine Region, die in einem größeren genomische Kontext eingebettet ist. Subtraktive Genomics ermöglicht ein Forscher, eine Ziel-Sequenz von Interesse (T) durch umfassende Sequenzierung und Subtraktion bekannte genetische Elemente (Referenz, R) zu isolieren. Die Methode kann verwendet werden, um neuartige Sequenzen wie Mitochondrien, Chloroplasten, Viren zu identifizieren, oder Keimbahn eingeschränkt Chromosomen, und ist besonders nützlich, wenn T von R. beginnend mit umfassenden genomischen Daten (R + T), die Methode leicht isoliert werden kann verwendet grundlegende lokale Alignment Search Tool (BLAST) gegen eine Referenzsequenz oder Sequenzen, um den passenden bekannten Reihenfolgen (R), hinterlässt das Ziel (T) zu entfernen. Für die Subtraktion funktioniert am besten soll R ein relativ vollständigen Entwurf, der T. fehlt Seit Sequenzen nach Subtraktion werden durch quantitative Polymerase Chain Reaction (qPCR) getestet muss R nicht vollständig für die Methode funktioniert. Hier verbinden wir rechnergestützte Schritte mit experimentellen Schritte in einem Zyklus, der iteriert werden kann, je nach Bedarf, nacheinander entfernen mehrere Referenz-Sequenzen und verfeinern die Suche nach T. Der Vorteil der subtraktiven Genomik ist eine völlig neuartiges Zielsequenz selbst in Fällen identifiziert werden kann, in denen körperliche Reinigung schwierig, teuer oder unmöglich ist. Ein Nachteil der Methode ist eine geeignete Referenz für die Subtraktion Suche und Erlangung eines T-Positive und negative Proben zu Testzwecken qPCR. Wir beschreiben unsere Implementierung der Methode zur Identifizierung des ersten Gens aus der Keimbahn eingeschränkt Chromosom von Zebrafinken. In diesem Fall drei Verweise (R), nacheinander entfernt über drei Zyklen beteiligt rechnerische Filterung: eine unvollständige genomische Montage, genomische Rohdaten und transkriptomischen Daten.

Einleitung

Der Zweck dieser Methode ist, eine neuartige Ziel (T) genomischen Sequenz, entweder DNA oder RNA, aus einer genomischen Kontext oder Referenz (R) (Abbildung 1) zu identifizieren. Die Methode ist besonders hilfreich, wenn das Ziel nicht physisch getrennt werden, oder es teuer wäre, dies zu tun. Nur wenige Organismen haben Genome für die Subtraktion, perfekt beendet, so dass eine entscheidende Neuerung unserer Methode ist die Kombination aus Rechenleistung und Bank-Methoden in einem Zyklus Forscher um Zielsequenzen zu isolieren, wenn der Verweis nicht perfekt ist, oder ein Entwurf Genom von einem Modellorganismus. Am Ende eines Zyklus wird qPCR Tests verwendet, um festzustellen, ob weitere Subtraktion benötigt wird. Eine validierte Kandidat T-Sequenz zeigt statistisch höhere Erkennung in bekannten T-positiven Proben von qPCR.

Inkarnationen des Verfahrens wurden in Entdeckung neuer bakterielle Drug Targets, die keinen Host homologe¹^,²^,³^,⁴ und Identifikation von neuartigen Viren von infizierten Rechnern^{umgesetzt 5}^,⁶. Zusätzlich zur Identifikation von T kann die Methode verbessern R: wir vor kurzem die Methode verwendet, um 936 fehlenden Gene aus dem Zebrafinken Bezug Genom und aus eine Keimbahn-nur Chromosom (T)⁷ein neues Gen zu identifizieren. Subtraktive Genomics ist besonders wertvoll, wenn T extrem abweichend von bekannten Sequenzen sein dürfte, oder wenn die Identität des T ist im großen und ganzen nicht definiert, wie in der Zebrafinken Keimbahn eingeschränkt Chromosom⁷.

Durch die Forderung nicht positive Identifizierung T im Voraus, ist ein entscheidender Vorteil der subtraktiven Genomik, dass es Objektive. In einer aktuellen Studie untersuchten Readhead Et Al. die Beziehung zwischen Alzheimer und virale Fülle in vier Regionen des Gehirns. Für virale Identifizierung erstellt Readhead Et Al. eine Datenbank von 515 Viren⁸, stark einschränken die virale Agents, die ihre Studie identifizieren konnten. Subtraktive Genomics hätte genutzt werden können, die gesunden und Alzheimer Genome zu vergleichen um mögliche neuartige Viren, verbunden mit der Krankheit, unabhängig von ihrer Ähnlichkeit mit bekannten Infektionserreger zu isolieren. Zwar gibt es 263 Menschen gezielt Viren bekannte, wurde es geschätzt, dass etwa 1,67 Millionen unentdeckte viral Arten existieren, mit 631.000-827.000 von ihnen haben ein Potenzial, Menschen⁹zu infizieren.

Isolation von neuartigen Viren ist ein Bereich, in dem subtraktiven Genomics ist besonders effektiv, aber einige Studien können keine strenge Methode benötigen. Studien zur Identifizierung neuartige Viren unvoreingenommene Hochdurchsatz-Sequenzierung gefolgt von reverse Transkription und sequenziert für virale Sequenzen⁵ oder Anreicherung von viralen Nukleinsäuren verwendet haben, zu extrahieren und umkehren transkribieren beispielsweise virale Sequenzen⁶. während dieser Studien de Novo Sequenzierung und Montage beschäftigt, Subtraktion wurde nicht verwendet, weil die Zielsequenzen Blast positiv identifiziert wurden. Wenn die Viren wurden völlig neuartige und nicht in Zusammenhang stehen (oder weitläufig verwandten) zu anderen Viren subtraktiven Genomics gewesen wäre eine nützliche Technik. Der Vorteil der subtraktiven Genomik ist Sequenzen, die völlig neu sind können gewonnen werden. Wenn der Organismus Genom bekannt ist, kann es keine viralen Sequenzen verlassen, abgezogen werden. Zum Beispiel in unseren veröffentlichten Studie isoliert wir eine neuartige virale Sequenz von Zebrafinken durch subtraktive Genomics, aber es nicht unsere ursprüngliche Absicht^{7 war}.

Subtraktive Genomics hat auch bei der Identifizierung von bakterieller Impfstoff Ziele, motiviert durch den dramatischen Anstieg der Resistenz gegen Antibiotika¹^,²^,³^,⁴bewährt. Zur Minimierung des Risikos der Autoimmunreaktion eingegrenzt Forscher die potentiellen Impfstoff Ziele durch Subtraktion alle Proteine, die homologe im menschlichen Wirt haben. Eine besondere Untersuchung, Corynebacterium Pseudotuberculosis, betrachten durchgeführt Subtraktion von Wirbeltieren Host Genomen von mehreren bakteriellen Genome um sicherzustellen, dass mögliche Drogeziele Proteine in der Hosts führt zu Nebenwirkungen nicht beeinträchtigen würde ¹. grundlegende Arbeitsabläufe dieser Studien ist zum download des bakterielle Proteoms, lebenswichtige Proteine bestimmen, redundante Proteine zu entfernen, verwenden BLASTp, die wesentlichen Proteine zu isolieren und BLASTp gegen Gastgeber Proteom, um Proteine mit Host homologe zu entfernen ¹ ^, ² ^, ³ ^, ⁴. In diesem Fall subtraktiven Genomics sicherzustellen, dass die Impfstoffe entwickelt keiner Ziel-Host¹^,²^,³^,⁴auswirken werden.

Wir subtraktiven Genomics, das erste Protein-kodierenden gen auf Chromosom Keimbahn eingeschränkt (GRC) (in diesem Fall, T), zu identifizieren, die in Germlines gefunden wird aber keine somatischen Gewebe beider Geschlechter¹⁰. Vor dieser Studie war die nur genomische Informationen, die über das DRK bekannt war eine sich wiederholende Region¹¹. De Novo Assemblierung wurde RNA aus dem Eierstock und Teste Gewebe (R + T) von Erwachsenen Zebrafinken sequenziert aufgeführt. Die rechnerische Beseitigung von Sequenzen erfolgte mittels veröffentlichten somatische (Muskel) Genom-Sequenz (R₁)¹², seine rohe (Sanger) zu lesen, Daten (R₂) und eine somatische (Gehirn) Transkriptom (R₃)¹³. Die sequentielle Verwendung von drei Referenzen wurde durch die qPCR Tests bei Schritt 5 eines jeden Zyklus (Abb. 2A), zeigen, dass zusätzliche Filterung erforderlich war getrieben. Das entdeckte α-SNAP-gen wurde durch qPCR von DNA und RNA, und Klonierung und Sequenzierung bestätigt. Wir zeigen in unserem Beispiel, dass diese Methode flexibel ist: Es ist nicht abhängig von passenden Nukleinsäuren (DNA Vs RNA) und die Subtraktion mit Referenzen (R), die aus Baugruppen oder roh liest bestehen durchgeführt werden kann.

Protokoll

1. de Novo montieren beginnend Sequenz

Hinweis: Alle Next-Generation-Sequenz (NGS) Daten können verwendet werden, solange eine Baugruppe aus diesen Daten hergestellt werden kann. Geeignete Eingabedaten enthält Illumina, PacBio, oder Oxford Nanopore montierten in einer Fasta-Datei liest. Für Konkretheit, dieser Abschnitt beschreibt eine Illumina-basierte transkriptomischen-Assembly für die Zebrafinken-Studie führten wir⁷; Beachten Sie jedoch, dass die Besonderheiten werden je nach Projekt variieren. Für unser Beispielprojekt wurden raw-Daten stammen aus einer MiSeq und ca. 10 Millionen gekoppelten liest von jeder Probe.

Verwenden Sie Trimmomatic 0.32¹⁴ , Illumina-Adapter und minderwertige Basen zu entfernen. In der Befehlszeile eingeben:
Java-jar Trimmomatic 0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - Baseout Quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 führende: 3 TRAILING: 3 SLIDINGWINDOW:4:20 MINLEN:40
Verwenden Sie Birne¹⁵ v. 0.9.6 erstellen Sie qualitativ hochwertige zusammengeführten liest aus Trimmomatic Ausgang gepaart liest, mit Standard-Parameter. In der Befehlszeile eingeben:
Birne -f < quality_and_adaptor_trimmed_1P.fastq > - R < quality_and_adaptor_trimmed_2P.fastq >
Verwendung Reptil v. 1.1¹⁶ , Fehler zu korrigieren die Lesevorgänge durch Birne produziert. Folgen Sie das Schritt für Schritt¹⁷beschriebene Protokoll.
Verwenden von Trinity v. 2.4.0¹⁸ im Standardmodus die korrigierten Sequenzen zusammenstellen. Für Strang-spezifischen Bibliotheken, verwenden Sie den - SS_lib_type-Parameter. Die Ausgabe ist einer Fasta-Datei (your_assembly.fasta). In der Befehlszeile eingeben:
Trinity--SeqType Fq - SS_lib_type FR – Max 10G – Ausgang Trinity_output--links quality_and_adaptor_trimmed_forward_paired_reads.fq – quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10 rechts
Hinweis: Die Ausgabe wird in einem neuen Verzeichnis, Trinity_output, platziert und die Versammlung wird den Namen "Trinity.fasta", die als Your_assembly.fasta umbenannt werden können, falls gewünscht. Die Trinity-Website für weitere Informationen siehe: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

(2) sprengen Sie die Versammlung gegen die Referenzsequenz

Hinweis: Verwendung liest sich diesen Schritt, wenn der Verweis eine Montage oder lange ist wie Sanger; Es besteht aus Roh Illumina liest, finden Sie in Schritt 3 unten die Abfrage liest zuordnen. Alle BLAST Schritte wurden mit Version 2.2.29+ abgeschlossen, obwohl die Befehle auf jedem aktuellen BLAST-Version funktionieren sollte.

Machen Sie eine Datenbank mit BLAST Referenzsequenz (nucleotide_reference.fasta) in der Befehlszeile. Geben Sie in der Befehlszeile Folgendes ein:
Makeblastdb - Dbtype Nucl-in nucleotide_reference.fasta-, nucleotide_reference.db
BLAST-Match der Abfrageassembly (in Schritt 1 generiert), Referenz-Datenbank. Um eine Ausgabe-Datei zu erhalten, verwenden [-, BLAST_results.txt] und um tabellarische Ausgabe (erforderlich für nachfolgende Bearbeitungsschritte mit Python-Skripten) zu generieren, verwenden Sie [-Outfmt 6]. Diese Optionen können in beliebiger Reihenfolge kombiniert werden, ist so ein Beispiel komplett Befehl [Blastn-your_assembly.fasta - Db nucleotide_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Wenn eine e-Wert-Einstellung gewünscht wird, verwenden Sie die Option - Evalue mit einer angemessenen Zahl, z. B. [Evalue-1e-6]. Beachten Sie jedoch, dass der subtraktiven Zyklus effektiv die Evalue in festlegen, wie die Diskussion unter invertiert.
Verwenden Sie für erhöhte Stringenz Proteinsequenzen aus der Baugruppe als die BLAST-Abfrage mit übersetzten Nukleotid BLAST (tBLASTn), die 6-Wege-Übersetzung (Nukleotid) Datenbank ausführt. Diese Methode empfiehlt sich für die meisten nicht-Modellsysteme, das Problem der unvollständigen Protein Anmerkungen zu vermeiden.
1. Gewährleisten den richtigen genetischen Code für den Organismus ausgewählt ist, studiert, mit Hilfe der Db_gencode-Option. Um Proteinsequenzen für die Abfrage zu erhalten, führen Sie den TransDecoder.LongOrfs-Befehl (aus TransDecoder Paket v. 3.0.1) um die längste open Reading Frames zusammengebaute Abfrage Sequenzen zu identifizieren. Der Befehl lautet [TransDecoder.LongOrfs -t your_assembly.fasta]; die Ausgabe wird im Verzeichnis mit dem Namen "transcripts.transdecoder_dir" platziert werden und enthält eine Datei namens longest_orfs.pep, die die längste vorhergesagten Proteinsequenzen aus jeder Sequenz in your_assembly.fasta enthalten.
2. Um tBLASTn zu verwenden, führen Sie den Befehl [Tblastn-longest_orfs.pep - Db nucleotide_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Wenn eine hochwertiges Eiweiß-Referenz zur Verfügung steht, verwenden Sie Proteinprotein Abgleich mit BLASTp statt tBLASTn.
3. Eine Explosion-Datenbank der Protein-Referenz zu machen [Makeblastdb - Dbtype Prot-in protein_reference.fasta-, protein_reference.db] und dann [Blastp-longest_orfs.pep - Db protein_reference.db Abfragen-, BLAST_results.txt - Outfmt 6]. Achten Sie darauf, die Ergebnisse als Datei für die Weiterverarbeitung zu speichern, und verwenden Sie tabellarische (Outfmt 6) um sicherzustellen, dass die Python-Skripte korrekt analysiert werden können.

3. Karte liest auf der Baugruppe

Hinweis: Diese Methode kann verwendet werden, wenn die Referenz-Dataset aus rohen genomische liest, anstatt montierten Sequenzen besteht oder Sanger, in welchem Fall verwenden BLAST (Schritt 2.1 Sequenzen).

Mit BWA-MEM v. 0.7.12¹⁹ oder bowtie2²⁰, ordnen Sie die heruntergeladenen roh liest (raw_reads.fastq) auf der Abfrageassembly. Der Ausgang ist .sam Format. Befehle sind wie folgt: zuerst index die Versammlung: [Bwa-Index-your_assembly.fasta], und ordnen Sie die lautet [Bwa Mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Hinweis der ">" Symbol hier ist nicht mehr-als-Zeichen; stattdessen weist es die Ausgabe in die Datei mapped.sam gehen).

4. verwenden Sie Python-Skript keine passenden Sequenzen entfernen

Anmerkung: Skripts Arbeit mit Python 2.7 versehen.

Benutzen Sie nach Schritt2 subtraktive Python-Skript mit dem Befehl [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Sicherstellen Sie bevor Sie das Skript ausführen, dass die BLAST-Ausgabe-Datei im Format 6 (tabellarisch). Das Skript gibt eine Datei mit nicht übereinstimmenden Sequenzen im Fasta-Format mit dem Namen your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta und auch die passenden Sequenzen für Aufzeichnungen, als your_assembly.fasta_matching_sequences_BLAST_ Results.txt.FASTA. die nicht übereinstimmenden Datei werden die wichtigsten, als eine Quelle für mögliche T-Sequenzen zum Testen und weitere Zyklen der subtraktiven Genomics.
Nach Schritt 3, laufen das Python-Skript removeUnmapped.py zu nehmen als Eingang .sam aus Schritt 3.1, und identifiziert die Namen der Abfrage Sequenzen ohne jede passende liest und speichert diese auf eine neue Textdatei. Verwenden Sie den Befehl [./removeUnmapped.py mapped.sam] und der Ausgang ist mapped.sam_contigs_with_no_reads.txt. (Das Programm generiert eine abgespeckte Sam-Datei mit alle nicht zugeordneten liest entfernt, diese Datei kann ignoriert werden, für Zwecke dieses Protokolls kann jedoch für andere Analysen nützlich).
Wie die Ausgabe des vorherigen Schrittes eine Liste der Namen der Sequenz in eine Textdatei namens mapped.sam_contigs_with_no_reads.txt ist, extrahieren eine Fasta-Datei mit diesen Sequenzen: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. Die Ausgabe ist eine Datei namens mapped.sam_contigs_with_no_reads.txt.fasta.

5. Design Primer für die Sequenz, die bleibt

Hinweis: an dieser Stelle gibt es eine Fasta-Datei mit Kandidat T Sequenzen. Dieser Abschnitt beschreibt qPCR experimentell zu testen, ob sie aus T oder bisher unbekannte Regionen der R. kommen Wenn die Subtraktion in Schritt 4 alle Sequenzen entfernt, dann die Erstmontage konnte T einschließen oder Subtraktion kann zu streng gewesen.

Verwenden Sie Geneious²¹ , um optimale Grundierung Sequenzen manuell bestimmen.
1. Markieren Sie eine Kandidat Abfolge von 21-28 bp für die Forward Primer. Vermeiden Sie läuft von 4 oder mehr von jedem Untergrund. Versuchen Sie, eine Region mit einer relativ einheitlichen Kombination aus allen Basenpaaren abzielen. Eine einzelne G oder C am 3'-Ende ist vorteilhaft, zu den Primer verankern hilft.
2. Klicken Sie auf die Registerkarte " Statistik " auf der rechten Seite des Bildschirms anzeigen, dass Sequenz Schmelztemperatur (Tm) geschätzt, da der Kandidat Bereich hervorgehoben ist. Blick auf eine Schmelztemperatur zwischen 55-60 ° C, unter Vermeidung von Wiederholungen und lange Läufe G/c zu erhalten
3. Führen Sie die Schritte 5.1.1. und 5.1.2 eine rückwärts-Primer wählen befindet sich 150-250 Basenpaare 3' forward Primer. Während die Grundierung Längen nicht übereinstimmen müssen, sollte das vorhergesagte Tm so nah wie möglich an die Tm der forward Primer. Achten Sie darauf, ergänzen die Reihenfolge umkehren (wenn in Geneious Rechtsklick auf, während die Sequenz markiert ist ist es eine Menü-Option).
Die Funktion Besser gekleideteres Design , das in der oberen Symbolleiste im Fenster "Sequenz" vorkommt.
1. Klicken Sie auf die Schaltfläche " Besser gekleideteres Design ". Legen Sie die Region um unter Zielregionzu verstärken.
2. Fügen Sie unter der Registerkarte " Eigenschaften " gewünschte Größe, Schmelztemperatur (Tm) und % GC (siehe Punkt 5.1.1.).
3. Klicken Sie auf "OK" , um Zündkapseln generiert haben. Bestellen Sie die Primer durch einen benutzerdefinierten Oligo-Service.
Validieren Sie Primer mit Kontrolle DNA (Codierung T und R) Tm und Erweiterung Zeit optimieren. Verwenden regelmäßige Taq und Gelelektrophorese Bandgröße zu sehen, aber Optimierung kann auch mit folgenden Methoden in Schritt 6 qPCR durchgeführt werden.
1. 10 X Verdünnungen von forward und reverse Primer zu machen, so dass die Primer eine Konzentration von 10 μM.
2. PCR aus 0,5 μl dNTP, 0,5 μL vorwärts Grundierung, 0,5 μL der rückwärts-Primer, 0,1 μL der Taq Polymerase, 2 μL der Vorlage, 0,75 μL des Magnesiums, 2,5 μL des Puffers und 18.15 μl Wasser verwenden, so dass es 25 μL pro Vorlage mit einer Konzentration von 5 gibt ng / ΜL.
3. Testen Sie die Primer an verschiedenen Schmelztemperaturen in der PCR-Programm. In der Regel ist die optimale Leistung beobachteten Schmelztemperaturen leicht unter dem vorhergesagten Tm der Primer, aber in der Regel nicht über 60 ° C. Testen Sie auch auf optimale Erweiterung jederzeit mit Hilfe dieser Anleitung: 1 min pro 1000 bp (also in der Regel 10-30 Sekunden je nach Länge der Amplifikate).
4. Durchführen Sie Endpunkt-Gelelektrophorese zu bestätigen, dass die Primer die erwartete Reihenfolge verstärken. Laufen Sie 25 μL des Messguts qPCR gemischt mit 5 μl 6 X Glycerin Farbstoff auf einem 2 % TAE Agarose-Gel bei 200 V für 20 min.

6. qPCR Validierung der restlichen Sequenz

Hinweis: Dieser Schritt erfordert Primer validiert und PCR-Bedingungen, die in Schritt 5 festgelegt.

Führen Sie jede Vorlage in dreifacher Ausfertigung mit der folgenden Mischung; 12.5 μL PowerSYBR Green-master-Mix, 0,5 μL vorwärts Grundierung mit einer Konzentration von 10 μM, 0,5 μL der rückwärts-Primer mit einer Konzentration von 10 μM, 10,5 μL des Wassers und 1 μl DNA-Vorlage (in einer Konzentration von 2 ng/μl) , so dass jeder gut 25 μl Gesamtvolumen enthält.
Führen Sie qPCR Programm informiert durch die validierte Temperatur und Verlängerung von Schritt 4 aus. Wir entwickelt und überprüft alle Primer kompatibel mit einem zwei-Phasen-Zyklus, 95 ° C für 10 min erste Schmelze, dann 40 Zyklen von 95 ° C für 30 s und 60 ° C für 1 min. Jedoch eine dreistufiges (Schmelze-Tempern-erweitern) Programm möglicherweise mehr optimal für die Primer und sollte bei Bedarf angepasst werden. Wir empfehlen, dass endgültige denaturierenden Kurven erzeugt werden zumindest zum ersten Mal die Primer in qPCR beschäftigt sind, um die Verstärkung eines einzelnen DNA-Produkts zu überprüfen.
Maßnahme qPCR/SYBR Green signalisiert relativ Aktin (oder jedes andere geeignete 'R'-Steuerelement) durch CT. für alle Fälle zu berechnen, der Mittelwert und die Standardabweichung von 2^{-(gen Ct - β-Aktin Ct)}.
(Optional) Führen Sie Endpunkt Gelelektrophorese um korrekte Größe Produkterkennung durch qPCR zu bestätigen. Hier laufen 25 μL des Messguts qPCR gemischt mit 5 μl 6 x Glycerin Farbstoff auf einem 2 % TAE Agarose-Gel bei 200 V für 20 Minuten.

7. mit einen neuen Verweis auf Pare die Daten wiederholen .

Hinweis: Wenn Schritt 6 der identifizierten Sequenzen aus T validiert, am Ende des Zyklus hier (Abb. 2A). Allerdings kann eine Vielzahl von Überlegungen motivieren eine Fortsetzung des Zyklus, wenn zum Beispiel viele R Sequenzen in der Datei bleiben oder wenn keiner der Kandidaten T Sequenzen von qPCR validiert wurden in Schritt 6.

Erhalten Sie eine neue Referenz. Dieser Schritt ermöglicht eine neue Iteration des Zyklus und genomische Rohdaten, RNA-Seq-Rohdaten oder anderen zusammengesetzten Datasets beinhalten. Wertvolle Ressourcen für Referenzdaten umfassen die Genom-Datenbank am National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) welche Geschäfte Genome zugänglich per FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), montiert und der Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) wo rohe nächsten Generation Sequenz liest gespeichert sind. Genom-Projekte können ihre rohen Sequenzdaten durch andere Projekt verbundenen Websites und Datenbanken.

Ergebnisse

Nach dem Ausführen von BLAST, haben die Ausgabe-Datei eine Liste der Sequenzen aus der Abfrage, die der Datenbank entspricht. Nach Python Subtraktion wird eine Reihe von verglichen Sequenzen erhalten und von qPCR getestet. Die Ergebnisse dieser und nächsten Schritte werden nachfolgend erläutert.

Negatives Ergebnis. Es gibt zwei mögliche negative Ergebnisse, die nach der Explosion, die Referenzsequenz gesehen...

Diskussion

Während subtraktiven Genomics mächtig ist, ist es kein Cookie-Cutter-Ansatz, Anpassung an mehreren wichtigen Schritte und sorgfältige Auswahl von Referenz-Sequenzen und Proben. Wenn die Abfrageassembly von schlechter Qualität ist, könnte Filterung Schritte nur Montage Artefakte isolieren. Daher ist es wichtig, die de Novo Assemblierung über eine entsprechende Validierung-Protokoll für das jeweilige Projekt gründlich zu überprüfen. RNA-Seq sind Leitlinien vorgesehen auf der Trinity Website

Offenlegungen

Die Autoren haben nichts preisgeben.

Danksagungen

Die Autoren erkennen Michelle Biederman, Alyssa Pedersen und Colin J. Saldanha für ihre Hilfe mit dem Zebrafinken Genomics Projekt in verschiedenen Stadien. Wir anerkennen auch Evgeny Bisk für computing-Cluster-System-Administration und NIH Grant 1K22CA184297 (zu J.R.B.) und NIH-NS-042767 (zu C.J.S).

Materialien

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki

Referenzen

Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Neue Sequenz Entdeckung durch subtraktive Genomics

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken