Method Article
OpenProt ist eine frei zugängliche Datenbank, die eine Polycistronic Modell der eukaryotic Genome erzwingt. Hier präsentieren wir ein Protokoll für die Verwendung von OpenProt Datenbanken bei der Massenspektrometrie Datasets zu verhören. Mit OpenProt kann Datenbank zur Auswertung von Proteomic Experimenten für Entdeckung von Roman und bisher nicht nachweisbar Proteinen.
Genom-Anmerkung steht im Mittelpunkt der heutigen Proteomic Forschung wie die Umrisse der Proteomik Landschaft zieht. Traditionelle Modelle open Frame (ORF) Anmerkung lesen zwei willkürliche Kriterien auferlegen: eine Mindestlänge von 100 Codons und einem einzigen ORF pro Protokoll. Eine wachsende Zahl von Studien berichten jedoch Expression von Proteinen aus angeblich nicht-kodierenden Regionen, die Genauigkeit der aktuellen Genom Anmerkungen eine Herausforderung. Dieser Roman Proteine gefunden wurden kodiert entweder in nicht-kodierende RNAs, 5' oder 3' untranslatierten Regionen (wo) der mRNAs oder überlappende einer bekannten kodierenden Sequenz (CDS) in Alternative ORF. OpenProt ist die erste Datenbank, die eine Polycistronic Modell für eukaryotische Genome, erzwingt Annotation von mehrere ORFs pro Protokoll ermöglicht. OpenProt ist frei zugänglich und bietet benutzerdefinierte Downloads von Proteinsequenzen über 10 Arten. Mit OpenProt Datenbank für Proteomik Experimente ermöglicht neuartige Proteine Entdeckung und betont den Polycistronic Charakter von eukaryotischen Genen. Die Größe der OpenProt-Datenbank (alle vorausgesagt Proteine) ist beträchtlich und Konto für die Analyse getroffen werden muss. Allerdings erhalten Benutzer mit entsprechenden false Discovery Rate (FDR) Einstellungen oder den Einsatz einer eingeschränkten OpenProt Datenbank, einen realistischeren Blick auf die Proteomik-Landschaft. OpenProt ist eine frei verfügbare Tool, die Proteomic Entdeckungen fördern wird.
In den letzten Jahrzehnten geworden Massenspektrometrie (MS)-basierte Proteomics die goldenen Technik Proteome von eukaryotischen Zellen1,2,3,4,5zu entschlüsseln. Diese Methode beruht auf aktuellen Genom Anmerkungen Sequenz Referenzdatenbank Protein zu generieren, die den Umfang der Möglichkeiten6,7,8beschreibt. Allerdings halten Genom Anmerkungen willkürliche Kriterien für ORF-Annotation, z. B. einer Mindestlänge von 100 Codons und einem einzigen ORF pro Protokoll9,10. Eine wachsende Zahl von Studien fordern Sie das aktuelle Modell der Annotation und Entdeckungen der Genomsequenz funktionale ORFs in eukaryotischen Genomen8,11,12,13zu melden, 14. Diese neuartige Proteine codiert in angeblich nicht-kodierende RNAs befinden, in der 5' oder 3' unübersetzt Regionen (UTR) mRNAs oder Überschneidungen der kanonischen kodierenden Sequenz (cCDS) in einem alternativen Rahmen. Obwohl die meisten dieser Entdeckungen glückliche gewesen sind, zeigen sie die Vorbehalte der aktuellen Genom-Anmerkungen und die Polycistronic Art der eukaryotischen Genen8.
Hier heben wir die Verwendung von OpenProt Datenbanken für MS-basierte Proteomics. OpenProt ist die erste Datenbank eine Polycistronic Annotation Modell für eukaryotische Transkriptom festzuhalten. Es ist frei verfügbar bei www.openprot.org15. Ein Teil davon vorhergesagt wäre ORFs zufällig und nicht-funktionale, weshalb OpenProt experimentelle und funktionalen Beweise Vertrauen stärken kumulieren. Experimentelle Beweise sind Protein-Expression (von MS) und Übersetzung Beweis (durch Ribosom Profilierung)15. Funktionelle Beweis einschließen Protein Orthopädie (mit einer In-Paranoid wie Ansatz) und funktionale Domäne Vorhersage15.
OpenProt bietet die Möglichkeit, mehrere Datenbanken, herunterladen, die nur gut unterstützte Proteine auf maßgeschneiderte Datenbanken enthalten. Hier präsentieren wir eine Pipeline für die Verwendung von OpenProt Datenbanken und bieten Einblicke in die Datenbank zu wählen, wenn man bedenkt das experimentelle Ziel. Die Proteomik Analyse Pipeline hier vorgestellten ist von Galaxy Framework unterstützt, da es Open Access und einfach zu bedienende, aber die Datenbanken können mit jedem Workflow16,17,18arbeiten. Wir präsentieren auch wie mithilfe die OpenProt-Website für weitere Informationen über neuartige Proteine erkannt durch MS. Using OpenProt Datenbanken sammeln eine umfassendere Sicht der Proteomik Landschaft bieten wird und die Proteomik und Biomarker Entdeckungen in fördert systematischer als bisherige Methoden.
Dieses Protokoll wird die Verwendung von OpenProt Datenbanken15 hervorgehoben, wenn MS Datasets zu befragen; Es prüft nicht das Design des Experiments überprüft selbst, die gründlich wurde an anderer Stelle20,21,22. In dem Bemühen um vollständig Open Source bleiben ist das Protokoll frei verfügbar (Ergänzende Material S1–S4). Zur besseren Lesbarkeit sind alle Begriffe, die in OpenProt und hiermit in diesem Protokoll in Tabelle 1festgelegt.
1. OpenProt Datenbank herunterladen
Hinweis: Benutzerdefinierte Datenbanken basierend auf RNA-Seq-Daten zum Beispiel auch erzielt werden und das Verfahren ist ausführlich im zweiten Abschnitt dieses Protokolls. Wenn eine benutzerdefinierte Datenbank benötigt wird, überspringen Sie bitte mit dem nächsten Abschnitt.
2. benutzerdefinierte OpenProt Datenbank herunterladen
Hinweis: Dieser Abschnitt beschreibt, wie eine benutzerdefinierte Datenbank zu erhalten. Wenn keine benutzerdefinierte Datenbank benötigt wird, mit dem nächsten Abschnitt fortfahren.
(3) Handhabung von Datenbanken
Hinweis: ab sofort wird die Galaxy-Plattform verwendet werden, aber die gleichen Grundsätze können auch auf andere Proteomik-Software.
4. Massenspektrometrie Dateivorbereitung
Hinweis: Die meisten Proteomics Werkzeuge auf Galaxy Instanzen verwenden Sie das MzML-Format und Peptid-Suchmaschinen bevorzugen Daten im Schwerpunkt-Modus.
(5) Peptid und Protein Identifikation/Quantifizierung
Hinweis: Dieser Teil der Pipeline nutzt Werkzeuge aus der OpenMS Suite, ein vielseitiges und einfach zu bedienenden Rahmen18.
6. Qualitätskontrolle
Hinweis: Da MS-basierte Proteomics das Ergebnis eines komplexen Prozesses wo jeder Schritt muss ist optimiert werden, um reproduzierbare Ergebnisse zu erzielen, ist die Qualitätskontrolle ein notwendiges Verfahren in der Workflow-33.
7. OpenProt Datenbank Bergbau
Hinweis: Nach erfolgter eine zuversichtliche Identifizierung ein neuartiges Protein vorhergesagt durch OpenProt (Beitritt Nummern beginnend mit IP_ für AltProts und II_ für neuartige Isoformen) kann weitere biologische Informationen aus der OpenProt-Website-15gesammelt werden.
Der oben beschriebene Workflow wurde auf eine MS-Dataset auf der PRIDE-Repository38,39angewendet. Die ursprüngliche Studie entwickelt eine Methode (iMixPro), mit stabilen Isotopen Kennzeichnung der Aminosäuren in der Zellkultur (SILAC), um Fehlalarme aus Affinitätsreinigung MS zu beseitigen (AP-MS) Experimente38. Kurz gesagt, besteht darin, ein AP-MS-Experiment Perlen-gebundenen Antikörper, um ein Protein des Interesses (Köder) und seine Interaktoren (Beute) zu holen. Die gesammelten Proteine werden dann verdaut und für MS vorbereitet. Die Sample-Vorbereitung-Methode und die Geräteeinstellungen werden in der ursprünglichen Studie und auf das stolz-Repository (PXD004246) beschrieben. Eine Herausforderung in solchen Experimenten ist die Fülle von false Positives, vor allem aus Proteine binden an die Perlen aber nicht den Köder. Hier wir SILAC verwendet, um unterschiedliche Isotopenverhältnisse zwischen wahren Beute und Fehlalarme zu generieren: 3 Kontrollproben (ohne Köder) kultiviert in Lichtmedium, 1 Probe mit dem Ausdruck des Köders in Lichtmedium kultiviert und 1 Probe mit dem Ausdruck des Köders in schweren Medium kultiviert werden mit Perlen und weiteren Massenspektrometrie Analyse verarbeitet. Mit solch Design haben unspezifische Proteine binden an die Perlen eine schwer-leicht-Verhältnis von 1:4; Wann werden echte Beute haben ein Verhältnis von 1:1-38.
Wir analysiert erneut ihre AP-MS-Daten mithilfe der OpenProt-Datenbank; die Köder enthalten drei körpereigene Proteine (PTPN14, JIP3 und IQGAP1) und zwei ausgedrückt über Proteine (RAF1 und RNF41). Da die Experimente SILAC verwendet, diente der Galaxy-Workflow für Protein Quantifizierung (Ergänzende Material S3, Abbildung 2). Der Workflow wurde mit der ganzen OpenProt (OpenProt_all) oder eingeschränkte OpenProt Datenbank (OpenProt_2pep, einschließlich nur Proteine, die zuvor mit einem Minimum von zwei einzigartigen Peptiden erkannt) ausgeführt.
Proteinidentifizierung und Quantifizierung waren gut und reproduzierbar auf die unterschiedlichen verwendeten Datenbanken. Wie in Abbildung 3dargestellt, wurden die meisten Proteine identifiziert in der Originalpublikation auch identifiziert mit Hilfe der OpenProt_2pep oder OpenProt_all Datenbank (eine ausführliche Liste ist verfügbar in Ergänzenden Material S5). Dieses Ergebnis zeigt, dass die hier beschriebenen Pipeline und die OpenProt Datenbanken herstellen Proteinidentifizierung und Quantifizierung des aktuellen Verfahren basierend auf der UniProtKB Datenbanken40vergleichbar sind. Die Verwendung von OpenProt Datenbanken hat jedoch den einzigartigen Vorteil Erkennung neuer und bisher nicht nachweisbar Proteine, wie in diesem Fall zeigt studieren.
11 untermauerten Proteine (1 Isoform und 10 AltProts), aber derzeit nicht kommentierte in Datenbanken wurden über alle Datensätze mit zuversichtlich Peptide, Verwendung der OpenProt_2pep-Datenbank (alle Protein Beitritte, sowie die Anzahl der unterstützen identifiziert. Peptide, gibt es in Ergänzenden Material S5). Diese Datenbank ermöglicht die Verwendung einer traditionellen 1 % FDR als die Erhöhung der Suche Raum bleibt moderat. Diese 11 Proteine wurden nicht in der ursprünglichen Studie identifiziert, als sie abwesend waren aus der Datenbank.
29 neue Proteine (16 Isoformen und 13 AltProts) entdeckte man über alle Datensätze mit zuversichtlich Peptide, Verwendung der OpenProt_all-Datenbank (alle Protein Beitritte, zusammen mit der Anzahl entsprechender Peptide sind erhältlich in ergänzende Material S6 ). Wie in Abbildung 3dargestellt, beeinflusste die empfohlenen strengen FDR die zuversichtlichsten Protein Identifikationen, nicht obwohl es die Gesamtzahl der identifizierten Proteine zu verringern. Vergleichsweise kann mit der OpenProt_2pep-Datenbank, eine höhere Anzahl von neuen Proteine selbstbewusst identifiziert werden. Alle diese neuartige Proteine fehlen aus der OpenProt_2pep-Datenbank. Dies unterstreicht die entscheidende Rolle der ausgewählten Datenbank für MS-basierte Proteomics.
Ein neuartiges Protein wurde als ein Interaktor des RAF1 Proteins (IP_637643) entdeckt. Nutzung der Internetseite OpenProt kann man dieses Protein hatte nicht von MS noch Ribosom Profilerstellung bis jetzt erkannt wurden (OpenProt v1. 3). Das Protein ist 46 Aminosäuren lang und kann nur zwei einzigartige Peptide auf tryptic Verdauung geben. Das Peptid entdeckt in RAF1 AP-MS Dataset (Teil 18) hatte ein gutes Spektrum, wie in Abbildung 4dargestellt, und ein schwer-leicht-Verhältnis von 1,09 angezeigt. Das Protein wird im NANOGNBP1 -Gen kodiert ein Pseudogene NANOGNBist. Das Transkript (ENST00000448444), derzeit als nicht-kodierenden, kommentiert wurde über mehrere Gewebe nach der GTEx Portal40erkannt. Das Protein enthält eine vorhergesagte funktionale Domäne DNA-Bindung (Gene Ontology GO: 0003677)41zugeordnet.
Abbildung 1 : Datenbank-Wahl für Proteomics Analysen Diagramm. Analysen von MS Daten, insbesondere die Datenbank Wahl, hängen die Forschungsziele. Drei gemeinsame Ziele werden in blau (klassische Proteomic Pipeline), grün (erschöpfende Proteomic Suche) und Orange (Proteomic Entdeckung) beschrieben. Jedes Ziel richtet sich nach einer entsprechenden Datenbank und Pipeline. Eine einheitliche Kennzeichnung Werkzeug verwendet werden, für eine erschöpfende und klassischen Proteomics Rohrleitungen. Für die Proteomik-Entdeckung-Pipeline empfehlen wir mehrere Identifikation-Engines. Empfohlene FDRs werden in rot angezeigt, und Protein-Datenbank-Größen werden im grauen Kästchen angezeigt. Bitte klicken Sie hier für eine größere Version dieser Figur.
Abbildung 2 : Grafische Darstellung des Galaxy Workflows verwendet. Schrittweise Darstellung des Proteomic Analysen Workflows für Re-Analyse von Eyckerman Et Al. Daten38verwendet. Eingabedateien, Suche Peptid und Protein Quantifizierung sind durch orange Box angezeigt. Blauen Kästen entsprechen die eingesetzten Werkzeuge und graue Kästchen entsprechen die Ausgabedateien erzeugt. Verschiedene Suchmaschinen (MS-GF + und X! Tandem) werden durch verschiedene Farben (bzw. rot und violett) als auch die Pfeile, die die notwendigen ein- und Ausgänge angezeigt. Das grüne Feld zeigt das Tool eine Liste von Protein Identifikationen erzeugen. Wenn mehrere Ausgaben generiert werden, für die nachgelagerten Stufen angegeben am nächsten auf den Pfeil. Dieser Workflow ist in Ergänzenden Material S2frei verfügbar. X! Tandem Standardkonfigurationsdatei Parameter gibt es in Ergänzenden Material S4. Bitte klicken Sie hier für eine größere Version dieser Figur.
Abbildung 3 : Vergleich der interactor Identifikation pro Köder mit unterschiedlichen Datenbanken. Venn-Diagramme von Protein Identifikationen mit die zuversichtlichsten OpenProt-Datenbank (in Orange, Nachweise von mindestens 2 einzigartige Peptide, OpenProt_2pep) mit einem 1 % FDR oder die ganze OpenProt Datenbank (in blau, OpenProt_all) mit einer 0,001 % FDR, oder wie berichtet in der ursprünglichen Papier (in grau)38. Jedes Diagramm entspricht identifizierten Interaktoren für die erwähnten Köder: RAF1, RNF41, PTPN14, JIP3 und IQGAP1. Bitte klicken Sie hier für eine größere Version dieser Figur.
Abbildung 4 : MS/MS-Spektrum der ermittelten MDNLWAK(13 6) Peptid aus neuartiges Protein IP_637643. Intensität ist relativ (0 bis 100 %). Ausgewählten Spitzen sind in rot, y-Ionen Anmerkungen in dunklem Rot und b Ionen Anmerkungen in grün sind angegeben. Auszug aus der TOPPview-Software-34. Vorläufer-Fehler = 2,70 ppm, PEP-Score = 0,12. Bitte klicken Sie hier für eine größere Version dieser Figur.
Begriff | Definition | Referenz |
Alternative ORF (AltORF) | nicht-kanonische ORF derzeit nicht im Genom Anmerkungen kommentiert, sondern kommentiert in OpenProt. | 15 |
Referenz ORF (RefORF) | kanonische ORF kommentierte in Genom Anmerkungen und OpenProt. | 15 |
Alternative Protein (AltProt) | neuartiges Protein kodiert durch eine AltORF, mit keine deutliche Ähnlichkeit mit einem RefProt. Beitritt-Präfix: IP_. | 15 |
Referenzproteins (RefProt) | Protein derzeit kommentiert in Protein Sequenzdatenbanken wie UniProtKB, Ensembl oder NCBI RefSeq, und auch in OpenProt. | 15 |
Neuartige Isoform | neuartiges Protein kodiert durch eine AltORF, mit eine deutliche Ähnlichkeit mit einem RefProt. Beitritt-Präfix: II_. | 15 |
OpenProt_2pep Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine vorhergesagt durch OpenProt, mit einem Minimum von 2 einzigartige Peptide bereits erkannt. | 15 |
OpenProt_1pep Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine vorhergesagt durch OpenProt, mit einem Minimum von 1 einzigartige Peptid bereits erkannt. | 15 |
OpenProt_all Datenbank | enthält die Abfolge aller RefProts und neuartige Proteine von OpenProt vorhergesagt. | 15 |
Tabelle 1: Definition der Begriffe, die in OpenProt und in das Protokoll
Ergänzende Material S1: Galaxy-Workflow für die Handhabung von Datenbanken. Dies wird die CRAPome und Köder-Sequenzen (rückwärts) mit der Eingabe-Datenbank anhängen. Ausgabe ist einer Fasta-Datei. Bitte klicken Sie hier, um download.
Ergänzende Material S2: Galaxy-Workflow für Proteinidentifizierung. Dies erkennt Proteine aus einer Massenspektrometrie-Datendatei mit zwei Suchmaschinen (MS-GF + und X! (Tandem). Jeder Parameter kann abgestimmt werden bevor Sie den Workflow ausführen wie gewünscht. Bitte klicken Sie hier, um download.
Ergänzende Material S3: Galaxy-Workflow für Protein Quantifizierung mit stabilen Isotopen Kennzeichnung (SIL). Dies wird identifizieren und quantifizieren Proteine aus einer Massenspektrometrie-Datendatei mit zwei Suchmaschinen (MS-GF + und X! (Tandem). Jeder Parameter kann abgestimmt werden bevor Sie den Workflow ausführen wie gewünscht. Bitte klicken Sie hier, um download.
Ergänzende Material S4: X! Tandem Parameter Standardkonfigurationsdatei. Dieser XML-Datei ist zum Ausführen von X erforderlich! TandemAdapter-Tool auf der Galaxy-Plattform. Bitte klicken Sie hier, um download.
Ergänzende Material S5: quantifiziert Proteine aus iMixPro Datasets. Datendateien von Eyckerman Et Al. 201638 wurden mit OpenProt Datenbanken verarbeitet und quantifizierte Proteine sind für jede Bedingung aufgeführt. Köder sind PTPN14, JIP3, IQGAP1, RAF1 und RNF41. Gen Namen angegeben in grün entsprechen Proteine auch in der ursprünglichen Papier38identifiziert. Gen Namen angegeben in Orange entsprechen bekannten Interaktoren nach BioGrid, die nicht in der Originalpublikation gemeldet wurden. Gen Namen angegeben in hellblau entsprechen neuartige Proteine identifiziert als Interacter (die entsprechende Protein-Zbl-Nummer ist in Klammern angegeben). Gen Namen angegeben in hellem Grau und kursiv entsprechen wahrscheinlich Verunreinigungen (Keratin Proteine). Bitte klicken Sie hier, um download.
Ergänzende Material S6: neuartige Proteine aus iMixPro Datasets identifiziert. Datendateien von Eyckerman Et Al. 201638 wurden mit OpenProt Datenbanken verarbeitet und neue identifizierte Proteine sind für jede Bedingung aufgeführt. Köder sind PTPN14, JIP3, IQGAP1, RAF1 und RNF41. Protein-Beitritt-Nummern sind aufgeführt, beginnend mit II_ für neuartige Isoformen eines bekannten Proteins und mit IP_ für neue Proteine aus einer alternativen ORF (AltProt). Die Anzahl der Unterstützung Peptide sind in Klammern angegeben. Bitte klicken Sie hier, um download.
Bei der Analyse der Daten von Massenspektrometern die Qualität der Proteinidentifizierung stützt sich teilweise auf die Genauigkeit der verwendeten Datenbank6,20. Aktuelle Ansätze verwenden traditionell UniProtKB Datenbanken, noch diese unterstützt das Genom Anmerkung Modell von einem einzigen ORF pro Abschrift und einer Mindestlänge von 100 Codons (mit Ausnahme der zuvor aufgezeigten Beispiele)40. Mehrere Studien beziehen sich die Mängel solcher Datenbanken mit der Entdeckung der funktionalen ORFs aus angeblich nicht-kodierenden Regionen8,11,12,13. Nun, erlaubt OpenProt für umfassendere Proteinidentifikation wie es mehrere Transkriptom Anmerkungen Proteinsequenzen entlockt. OpenProt ruft NCBI RefSeq (GRCh38.p7) und Ensembl (GRCh38.83) Transkriptom und UniProtKB Anmerkungen (UniProtKB-derjenigen, 2017-09-27)40,42,43. Wie aktuelle Anmerkungen wenig Überlappung präsentieren, zeigt OpenProt somit einen umfassenderen Blick auf die potenziellen Proteomic Landschaft als wenn beschränkt auf eine Anmerkung15.
Darüber hinaus als OpenProt eine Polycistronic Modell erzwingt, ermöglicht es mehrere Protein Anmerkungen pro Protokoll. Statistische und numerische Gründen hält OpenProt noch eine Mindestlänge Schwelle von 30 Codons15. Doch sagt es Tausende von neuartigen Proteinsequenzen, dadurch Erweiterung des Anwendungsbereichs der Möglichkeiten für Proteinidentifizierung voraus. Mit diesem Ansatz unterstützt OpenProt Proteomic Entdeckungen in systematischer Weise.
Die Qualität der Proteinidentifikation kann auch durch die Parameter beeinflusst werden, die verwendet werden. MS-basierte Proteomics Analysen halten in der Regel eine 1 % Protein FDR. Die gesamte OpenProt-Datenbank enthält jedoch ca. 6-Mal mehr Einträge (Abbildung 1). Um diesen erheblichen Anstieg des Suchraums berücksichtigen, empfehlen wir eine strengere FDR von 0,001 %. Dieser Parameter wurde mit Benchmark-Studien und manuelle Auswertung von nach dem Zufallsprinzip ausgewählte Spektren15optimiert. Fehlalarm immer noch eine Möglichkeit, und wir ermutigen gründliche Inspektion und Überprüfung der Belege für ein neuartiges Protein. Ein empfohlener Standard könnte die Identifizierung eines Proteins aus zwei verschiedenen MS-Läufen, sein, wie Datasets15Hintergrunddaten und Fehlalarmen unterscheiden.
Die Pipeline hier bereitgestellt und verwendet für die Fallstudie kann so gerne passen die Versuchsplanung und Parameter geändert werden. Wir würden empfehlen, mit mehreren Suchmaschinen zunehmender Empfindsamkeit und Empfindlichkeit des Peptids Identifikation32. Darüber hinaus fördern wir mit Hilfe der Datenbank entspricht am besten dem experimentellen Ziel (Abbildung 1). Als mit der ganzen OpenProt Datenbank mit einem strengen FDR kommt, können wahre Identifikationen verloren gehen. So sollten die gesamte Datenbank für Entdeckung der neuen Proteine bestimmt, während klassische Proteomics Profilierung der kleineren OpenProt-Datenbanken (z. B. OpenProt_2pep verwendet in der Fallstudie oben) verwendet werden sollte.
OpenProt prognostiziert derzeit Sequenzen beginnend mit ATG-Codon, während mehrere Studien Übersetzung Einleitung bei anderen Codons44,45hervorgehoben. Wenn ein neues Protein durch eine oder mehrere einzigartige Peptide identifiziert wird, ist es möglich die wahre Einleitung Codon nicht die vermuteten ATG ist. Benutzer können nach Übersetzung beweisen auf der Website OpenProt sehen. OpenProt meldet derzeit nur Übersetzung Ereignisse, wenn sie die gesamten prognostizierten Protein Sequenz (100 % Überlappung)15betreffen. So hieße fehlen Übersetzung Beweise nicht, dass das Protein nicht übersetzt wird, aber, dass das Start-Codon möglicherweise nicht die angeblichen ATG.
Trotz ihrer aktuellen Grenzen bietet OpenProt einen umfassenderen Blick auf eukaryotische Genome Codierung Potenzial. OpenProt Datenbanken Proteomic Entdeckungen und das Verständnis der Proteomik Funktionen und Interaktionen zu fördern. Zukünftige Entwicklungen der OpenProt Datenbank werden Anmerkung anderer Arten, Übersetzung Beweis von nicht-ATG beginnen Sie Codon und Entwicklung einer Pipeline, neue Proteine im gesamten Genom und Exome Sequenzierung Studien aufzunehmen.
Die Autoren erklären keinen Interessenskonflikt.
Wir danken Vivian Delcourt für seine Hilfe, Diskussionen und Beratung über diese Arbeit. X.R. ist Mitglied des Fonds de Recherche du Québec Santé FRQS unterstützt Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Diese Forschung wurde durch eine Canada Research Chair in funktionelle Proteomik und Entdeckung von Roman Proteine, X.R. und CIHR Zuschuss MOP-137056 unterstützt. Wir danken dem Team bei Calcul Québec und Compute Kanada für die Unterstützung bei der Nutzung der Supercomputer mp2 von Université de Sherbrooke. Betrieb der mp2-Supercomputer wird finanziert durch Kanada Foundation of Innovation (CFI), le Ministère de l'Économie, De La Science et de französischen du Québec (MESI) und Les Fonds de Recherche du Québec - Nature et Technologien (FRQ-NT). Die Galaxy-Server, der für einige Proteomics-Berechnungen verwendet wurde ist teilweise finanziert Collaborative Research Center 992 medizinische Epigenetik (DFG Stipendium SFB 992/1 2012) und Bundesministerium für Bildung und Forschung (BMBF gewährt 031 RBC A538A/A538C, 031L0101B /031L0101C de. NBI-Epi, 031L 0106 de. Treppe (de.) NBI)).
Name | Company | Catalog Number | Comments |
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten