Wissenschaftliche Daten sind in den letzten Jahrzehnten immer komplexer und reicher geworden, dennoch verwenden Wissenschaftler weiterhin Organisationsmethoden, die ihren wachsenden Datenbedürfnissen nicht mehr gerecht werden. Der Hauptvorteil einer in diesem Video beschriebenen Technik besteht darin, dass sie eine Datenbank ermöglicht, die eine strenge Datenpipeline und -speicherung ermöglicht und gleichzeitig die Flexibilität für die Datenanalyse beibehält. Laden Sie die in dieser Tabelle angezeigten Beispielcodes und Datenbanken herunter, um mit der Auswertung des Interessendatensatzes zu beginnen.
Verwenden Sie als Nächstes diese grafische Darstellung einer mehrdimensionalen Datenbank, um zu bewerten, ob das Dataset von Interesse tatsächlich multidimensional ist. Die Daten müssen zwei Bedingungen erfüllen, um von der Datenbankorganisation profitieren zu können. Zunächst müssen die Daten in mehrdimensionaler Form visualisiert werden können.
Und zweitens muss sie größere wissenschaftliche Erkenntnisse gewinnen, indem sie in der Lage ist, ein bestimmtes experimentelles Ergebnis mit einer der Dimensionen in Beziehung zu setzen. Relationale Datenbanken speichern Informationen in Form von Tabellen, die in Zeilen und Spalten organisiert sind und verwendet werden können, um identifizierende Informationen innerhalb der Datenbank zu verknüpfen. Multidimensionalität wird behandelt, indem verschiedene Felder, z. B. die Spalten der Tabelle und einzelne Tabellen, miteinander verknüpft werden.
Organisieren Sie zunächst die Datendateien so, dass sie gut durchdachte, eindeutige Namen haben. Bewährte Verfahren mit Dateibenennungskonventionen und Ordner-/Unterordnerstrukturen ermöglichen eine umfassende Datenbankskalierbarkeit, ohne die Lesbarkeit des manuellen Zugriffs auf Dateien zu beeinträchtigen. Fügen Sie veraltete Dateien in einem konsistenten Format hinzu und benennen Sie Unterordner entsprechend den Metadaten.
Zeichnen Sie beim Entwerfen der Datenbankstruktur Beziehungen zwischen den Feldern in verschiedenen Tabellen. Erstellen Sie eine README-Dokumentation, die die Datenbank und die erstellten Beziehungen beschreibt. Es kann sowohl grafisch wie diese Figur als auch textbasiert sein.
Sobald ein Eintrag zwischen verschiedenen Tabellen verknüpft ist, beziehen sich alle zugeordneten Informationen auf diesen Eintrag und können zum Aufrufen komplexer Abfragen verwendet werden, um nach den gewünschten Informationen zu filtern. Machen Sie das Endergebnis ähnlich wie in diesem Beispiel, in dem die unterschiedlichen Merkmale von Individuen mit den zugehörigen experimentellen Daten dieser Personen zusammenhängen. Dasselbe geschah, indem Spalten von Mustertypen und Datentypen mit übereinstimmenden Einträgen in der DataValues-Haupttabelle in Beziehung zu stehen, um verschiedene Kurzschriftnotationen zu erklären.
Identifizieren Sie alle verschiedenen Experimente und Datenanalysemethoden, die zur Datenerfassung führen können, zusammen mit den normalen Datenspeicherpraktiken für jeden Datentyp. Arbeiten Sie mit Open-Source-Versionskontrollsoftware wie GitHub, um die erforderliche Konsistenz und Versionskontrolle zu gewährleisten und gleichzeitig den Benutzeraufwand zu minimieren. Stellen Sie sicher, dass Sie ein Verfahren für das konsistente Benennen und Speichern von Daten erstellen, um eine automatisierte Pipeline zu ermöglichen.
Verwenden Sie eine beliebige Programmiersprache, um neue Dateneinträge für die Datenbank zu generieren. Erstellen Sie kleine Hilfstabellen in separaten Dateien, die die automatisierte Auswahl der Daten steuern können. Diese Dateien dienen als Vorlage für Möglichkeiten für die Pipeline zu arbeiten und sind einfach zu bearbeiten.
Um neue Dateneinträge für die Datenpipeline zu generieren, programmieren Sie den Code ähnlich wie das hier gezeigte Beispiel, das in den zusätzlichen Dateien mit diesem Artikel bereitgestellt wird. Auf diese Weise kann man die Hilfstabellen als Eingaben verwenden, die vom Benutzer ausgewählt werden. Erstellen Sie von hier aus eine neue Tabelle mit Dateispeicherorten, indem Sie die neuen Einträge mit den vorherigen Einträgen kombinieren.
Der hier gezeigte und in den zusatzdateien bereitgestellte Code kann verwendet werden, um diesen Prozess zu automatisieren. Überprüfen Sie anschließend die zusammengeführte Kalkulationstabelle auf Duplikate mithilfe des hier gezeigten Codes, um diesen Schritt zu automatisieren. Überprüfen Sie außerdem die Kalkulationstabelle mithilfe einer automatisierten Methode auf Fehler, und benachrichtigen Sie den Benutzer über ihren Grund und Standort.
Darüber hinaus können Sie einen Code schreiben, der die kompilierte Datenbank überprüft und fehlende fehlerhafte Datenpunkte identifiziert. Entfernen Sie manuell fehlerhafte Punkte, ohne die Integrität der Datenbank zu verlieren, indem Sie Code verwenden, der dem hier gezeigten ähnelt. Wiederholen Sie diese Schritte, um weitere Datenpunkte hinzuzufügen.
Verwenden Sie dann die Dateispeicherorte, um eine Datenwerttabelle zu generieren. Erstellen Sie außerdem eine aktualisierte Liste von Einträgen, auf die zugegriffen werden kann, um Dateispeicherorte zu identifizieren oder mit zukünftigen Einträgen zusammengeführt zu werden. Um mit der Datenbankerstellung zu beginnen, erstellen Sie zunächst ein leeres Datenbankdokument, um die Hilfstabelle für die Zellenlinien, Datentypen und Mustertypen zu laden.
Gehen Sie zum Menü Externe Daten, wählen Sie Textdateiimport aus, klicken Sie auf Durchsuchen, und wählen Sie dann die gewünschte Datei aus. Wählen Sie im Import-Assistenten Die Option Getrennt und klicken Sie auf Weiter. Wählen Sie Erste Zeile enthält Feldnamen und Komma für den Trennzeichentyp.
Nachdem Sie auf Weiter geklickt haben, wählen Sie die Standardfeldoptionen aus, und wählen Sie dann Kein Primärschlüssel aus. Klicken Sie auf Weiter und dann beenden. Laden Sie als Nächstes die Daten- und Mustertypen, indem Sie dieselben Schritte wiederholen.
Laden Sie als Nächstes die Datenwerttabelle. Gehen Sie zum Menü Externe Daten, wählen Sie Textdateiimport aus, klicken Sie auf Durchsuchen, und wählen Sie dann die gewünschte Datei aus. Wählen Sie im Import-Assistenten Die Option Getrennt und klicken Sie auf Weiter.
Wählen Sie Erste Zeile enthält Feldnamen und Komma für den Trennzeichentyp. Nachdem Sie auf Weiter geklickt haben, wählen Sie die Standardfeldoptionen aus, und wählen Sie dann Zugriff zum Hinzufügen des Primärschlüssels aus. Klicken Sie auf Weiter und dann beenden.
Erstellen Sie nun die Beziehungen, indem Sie die Datenbankwerkzeuge auswählen, zu Beziehungen gehen und alle Tabellen an die Platine ziehen. Wechseln Sie dann zu Beziehungen bearbeiten und wählen Sie Neu erstellen aus. Wählen Sie die Tabellen- und Spaltennamen aus, und klicken Sie dann auf den Verknüpfungstyp, der auf die Hilfstabellen hinweist.
Nachdem jede gewünschte Beziehung eingerichtet wurde, wechseln Sie zu Erstellen und wählen Sie Abfrageentwurf aus, und wählen Sie alle relevanten Tabellen aus oder ziehen Sie sie in das obere Fenster. In diesem Beispiel werden Zelllinien, Datenwerte, Datentypen und Mustertypen angezeigt. Die Beziehungen sollten automatisch basierend auf dem vorherigen Beziehungsentwurf eingerichtet werden.
Füllen Sie nun die Abfragespalten für die gewünschten Ergebnisse aus. Geben Sie für diesen Datensatz die Option Summen an, und wählen Sie Summen aus. Füllen Sie die erste Spalte, die zweite Spalte und die dritte Spalte aus, wie hier gezeigt.
Füllen Sie die vierte Spalte, die fünfte Spalte und die sechste Spalte aus. Wenn Sie das Ausfüllen der Spalten abgeschlossen haben, speichern Sie die Abfrage, und führen Sie sie aus. Verwenden Sie für diese experimentellen Stichprobendaten die einwegige Varianzanalyse mithilfe des Tukey-Tests für mittlere Vergleiche zwischen verschiedenen Bedingungen.
Wenn eine Vielzahl möglicher Bestätigungen gegeben wird, kann es schwierig sein, anhand manueller Datenaggregationsmethoden zu erkennen, wo neue Beziehungen bestehen. Hier bei verschiedenen Bedingungen wurde die Organisation subzellulärer Actin-Filamente über mehrere Bedingungen hinweg anhand des Grads der Orientierungsreihenfolge gemessen, indem die Datenbank in verschiedenen Bestätigungen abgefragt wurde. Die anisotropen und isotropen Datensätze zeigen sehr unterschiedliche OOPs, die seit Fibronectin Mikromusterung stark beeinflusst Gewebeorganisation erwartet wurde.
Allerdings gab es keine signifikanten Unterschiede zwischen den Mutationsstatusbedingungen beim Vergleich von isotropen Geweben. Umgekehrt waren die Mustergewebe statistisch weniger in der positiven Kontrollzelllinie organisiert. Diese Beziehung hielt auch dann, wenn die Daten von verschiedenen Familien im Vergleich zu positiver und negativer Kontrolle aggregiert wurden.
Bei Bedarf können die Daten weiter analysiert werden. Als Beispiel wurde actin OOP gegen das Alter des Individuums zum Zeitpunkt der Biopsie dargestellt, getrennt durch Mutationsstatus und Familie, um die Aggregation gegen eine klinische Variable zu veranschaulichen. Mit diesem Datensatz gibt es keine Korrelation zwischen der Actin-Organisation und dem Alter einer Person.
Dies zeigt, wie dieselben Daten in verschiedenen Kombinationen analysiert werden können und wie einfach die normalerweise schwierige Aufgabe, Daten zu aggregieren, die unter mehrere Klassen fallen, mithilfe von Datenbanken durchgeführt werden kann. Dieses Protokoll zum Erstellen einer Datenorganisationspipeline und zum Generieren einer Datenbank bietet wissenschaftliche Strenge, die in diesem Zeitalter der Datensammlung mit großem Volumen unbedingt erforderlich ist.