JoVE Logo

Anmelden

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

  • Zusammenfassung
  • Zusammenfassung
  • Einleitung
  • Protokoll
  • Ergebnisse
  • Diskussion
  • Offenlegungen
  • Danksagungen
  • Materialien
  • Referenzen
  • Nachdrucke und Genehmigungen

Zusammenfassung

Viele Forscher generieren "mittelgroße", datenarme und mehrdimensionale Daten, die mit Datenbanken und nicht mit Tabellenkalkulationen effizienter verwaltet werden können. Hier bieten wir einen konzeptionellen Überblick über Datenbanken, einschließlich der Visualisierung mehrdimensionaler Daten, verknüpfen von Tabellen in relationalen Datenbankstrukturen, Der Zuordnung halbautomatischer Datenpipelines und der Verwendung der Datenbank zur Klärung der Bedeutung von Daten.

Zusammenfassung

Die Wissenschaft stützt sich auf immer komplexere Datensätze für den Fortschritt, aber gängige Datenverwaltungsmethoden wie Tabellenkalkulationsprogramme sind für den wachsenden Umfang und die Komplexität dieser Informationen unzureichend. Datenbankverwaltungssysteme haben zwar das Potenzial, diese Probleme zu beheben, werden aber außerhalb von Geschäfts- und Informatikbereichen nicht häufig genutzt. Dennoch generieren viele Forschungslabore bereits "mittlere, niedrige Geschwindigkeiten, mehrdimensionale Daten, die von der Implementierung ähnlicher Systeme sehr profitieren könnten. In diesem Artikel bieten wir einen konzeptionellen Überblick über die Funktionsweise von Datenbanken und deren Vorteile bei Tissue Engineering-Anwendungen. Strukturelle Fibroblastendaten von Personen mit einer laminazur A/C-Mutation wurden verwendet, um Beispiele in einem spezifischen experimentellen Kontext zu veranschaulichen. Beispiele hierfür sind das Visualisieren multidimensionaler Daten, das Verknüpfen von Tabellen in einer relationalen Datenbankstruktur, das Zuordnen einer halbautomatischen Datenpipeline zum Konvertieren von Rohdaten in strukturierte Formate und das Erläutern der zugrunde liegenden Syntax einer Abfrage. Die Ergebnisse der Analyse der Daten wurden verwendet, um Diagramme mit verschiedenen Anordnungen zu erstellen, und die Bedeutung wurde in der Zellorganisation in ausgerichteten Umgebungen zwischen der positiven Kontrolle der Hutchinson-Gilford-Progerie, einer bekannten Laminopathie, und allen anderen experimentellen Gruppen demonstriert. Im Vergleich zu Tabellenkalkulationen waren Datenbankmethoden enorm zeitsparend, nach der Einrichtung einfach zu bedienen, ermöglichten den sofortigen Zugriff auf originale Dateispeicherorte und erhöhten Datenstrenge. Als Reaktion auf die Betonung der experimentellen Strenge durch die National Institutes of Health (NIH) ist es wahrscheinlich, dass viele wissenschaftliche Bereiche aufgrund ihrer starken Fähigkeit, komplexe Daten effektiv zu organisieren, schließlich Datenbanken als gängige Praxis übernehmen werden.

Einleitung

In einer Zeit, in der der wissenschaftliche Fortschritt stark von der Technologie getrieben wird, ist der Umgang mit großen Datenmengen zu einem integralen Facetten der Forschung in allen Disziplinen geworden. Die Entstehung neuer Bereiche wie Computerbiologie und Genomik unterstreicht, wie kritisch die proaktive Nutzung der Technologie geworden ist. Diese Trends werden sich aufgrund von Moores Gesetz und stetigen Fortschritten aus dem technologischen Fortschritt sicher fortsetzen1,2. Eine Folge davon sind jedoch die steigenden Mengen generierter Daten, die die Fähigkeiten bisher tragfähiger Organisationsmethoden übersteigen. Obwohl die meisten akademischen Laboratorien über ausreichende Rechenressourcen für die Verarbeitung komplexer Datensätze verfügen, fehlt vielen Gruppen das technische Know-how, das für den Aufbau kundenspezifischer Systeme erforderlich ist, die für die Entwicklung von Anforderungen geeignet sind3. Die Fähigkeit, solche Datensätze zu verwalten und zu aktualisieren, bleibt für einen effizienten Workflow und eine effiziente Ausgabe von entscheidender Bedeutung. Die Überbrückung der Lücke zwischen Daten und Fachwissen ist wichtig für die effiziente Handhabung, Neuaktualisierung und Analyse eines breiten Spektrums vielfältiger Daten.

Skalierbarkeit ist ein wesentlicher Aspekt bei der Handhabung großer Datensätze. Big Data zum Beispiel ist ein florierendes Forschungsgebiet, das neue Erkenntnisse aus der Verarbeitung von Daten enthüllt, die durch riesige Mengen, große Heterogenität und hohe Erzeugungsraten wie Audio und Video4,5gekennzeichnet sind. Die Verwendung automatisierter Organisations- und Analysemethoden ist für dieses Feld obligatorisch, um Torrents von Daten angemessen zu verarbeiten. Viele Fachbegriffe, die in Big Data verwendet werden, sind jedoch nicht klar definiert und können verwirrend sein; Beispielsweise werden "Hochgeschwindigkeitsdaten" häufig mit Millionen neuer Einträge pro Tag in Verbindung gebracht, während "Low Velocity"-Daten möglicherweise nur Hunderte von Einträgen pro Tag sind, z. B. in einer akademischen Laborumgebung. Obwohl es viele spannende Erkenntnisse gibt, die mit Big Data noch entdeckt werden müssen, benötigen die meisten akademischen Labore nicht den Umfang, die Leistungsfähigkeit und die Komplexität solcher Methoden, um ihre eigenen wissenschaftlichen Fragen zu beantworten5. Obwohl es unbestritten ist, dass wissenschaftliche Daten mit Zeit6immer komplexer werden, verwenden viele Wissenschaftler weiterhin Organisationsmethoden, die ihren wachsenden Datenanforderungen nicht mehr gerecht werden. Beispielsweise werden praktische Tabellenkalkulationsprogramme häufig verwendet, um wissenschaftliche Daten zu organisieren, aber auf Kosten der Nichtskalierbarkeit, Fehleranfälligkeit und Zeitineffizienz auf lange Sicht7,8. Umgekehrt sind Datenbanken eine effektive Lösung für das Problem, da sie skalierbar, relativ günstig und einfach zu bedienen sind, um unterschiedliche Datensätze laufender Projekte zu verarbeiten.

Unmittelbare Bedenken, die bei der Prüfung von Schemas der Datenorganisation auftreten, sind Kosten, Zugänglichkeit und Zeitinvestitionen für Schulungen und Nutzung. Datenbankprogramme, die häufig in Geschäftsumgebungen verwendet werden, sind wirtschaftlicher und entweder relativ kostengünstig oder kostenlos als die Finanzierung, die zur Unterstützung der Nutzung von Big-Data-Systemen erforderlich ist. Tatsächlich gibt es eine Vielzahl von kommerziell erhältlichen und Open-Source-Software zum Erstellen und Verwalten von Datenbanken, z. B. Oracle Database, MySQL und Microsoft (MS) Access9. Viele Forscher würden auch ermutigt zu erfahren, dass mehrere MS Office akademische Pakete mit MS Access enthalten kommen, weitere Minimierung der Kosten Überlegungen. Darüber hinaus stellen fast alle Entwickler umfangreiche Dokumentation online zur Verfügung und es gibt eine Fülle von kostenlosen Online-Ressourcen wie Codecademy, W3Schools und SQLBolt, um Forschern zu helfen, strukturierte Abfragesprache (SQL) zu verstehen und zu nutzen10,11,12. Wie jede Programmiersprache braucht das Erlernen der Verwendung von Datenbanken und Code mit SQL Zeit, aber mit den reichlich verfügbaren Ressourcen ist der Prozess einfach und lohnt sich der investierte Aufwand.

Datenbanken können leistungsstarke Tools zur Verbesserung der Datenzugänglichkeit und der einfachen Aggregation sein, aber es ist wichtig zu erkennen, welche Daten am meisten von einer stärkeren Kontrolle der Organisation profitieren würden. Multidimensionalität bezieht sich auf die Anzahl der Bedingungen, mit denen eine Messung gruppiert werden kann, und Datenbanken sind am leistungsfähigsten, wenn viele verschiedene Bedingungen verwaltet werden13. Umgekehrt sind Informationen mit geringer Dimensionalität am einfachsten mit einem Tabellenkalkulationsprogramm zu handhaben. Beispielsweise hat ein Datensatz, der Jahre und einen Wert für jedes Jahr enthält, nur eine mögliche Gruppierung (Messungen mit Jahren). Hochdimensionale Daten, z. B. aus klinischen Einstellungen, würden ein hohes Maß an manueller Organisation erfordern, um einen mühsamen und fehleranfälligen Prozess über den Rahmen von Tabellenkalkulationsprogrammen hinaus effektiv zu warten13. Nicht relationale Datenbanken (NoSQL) erfüllen auch eine Vielzahl von Rollen, vor allem in Anwendungen, in denen Daten nicht gut in Zeilen und Spalten14angeordnet sind. Diese Organisationsschemata sind nicht nur häufig Open Source, sondern umfassen auch grafische Zuordnungen, Zeitreihendaten oder dokumentbasierte Daten. NoSQL zeichnet sich durch eine bessere Skalierbarkeit aus als SQL, kann jedoch keine komplexen Abfragen erstellen, sodass relationale Datenbanken in Situationen, die Konsistenz, Standardisierung und seltene umfangreiche Datenänderungen erfordern, besser sind15. Datenbanken eignen sich am besten dazu, Daten effektiv in das große Spektrum von Konformationen zu gruppieren und erneut zu aktualisieren, die häufig in wissenschaftlichen Einstellungen benötigt werden13,16.

Die Hauptabsicht dieser Arbeit ist es daher, die wissenschaftliche Gemeinschaft über das Potenzial von Datenbanken als skalierbare Datenmanagementsysteme für "mittlere, niedrige Geschwindigkeitsdaten" zu informieren und eine allgemeine Vorlage anhand spezifischer Beispiele von zelllinienbasierten Experimenten von Patienten bereitzustellen. Andere ähnliche Anwendungen sind Geodaten von Flussbetten, Fragebögen aus längsbezogenen klinischen Studien und mikrobielle Wachstumsbedingungen in Wachstumsmedien17,18,19. In dieser Arbeit werden allgemeine Überlegungen und Nützlichkeit beim Erstellen einer Datenbank in Verbindung mit einer Datenpipeline hervorgehoben, die zum Konvertieren von Rohdaten in strukturierte Formate erforderlich ist. Die Grundlagen von Datenbankschnittstellen und Codierung für Datenbanken in SQL werden bereitgestellt und mit Beispielen veranschaulicht, die es anderen ermöglichen, das Wissen zu erlangen, das für das Erstellen grundlegender Frameworks gilt. Schließlich zeigt ein experimenteller Beispieldatensatz, wie einfach und effektiv Datenbanken so gestaltet werden können, dass facettenreiche Daten auf verschiedene Arten aggregiert werden. Diese Informationen bieten Kontext, Kommentare und Vorlagen, um Wissenschaftlerkollegen auf dem Weg zur Implementierung von Datenbanken für ihre eigenen experimentellen Bedürfnisse zu unterstützen.

Für die Erstellung einer skalierbaren Datenbank in einem Forschungslabor wurden in den letzten drei Jahren Daten aus Experimenten mit menschlichen Fibroblastengesammelten gesammelt. Der Hauptfokus dieses Protokolls liegt auf der Beurkundung der Organisation von Computersoftware, damit der Benutzer Daten kosten- und zeiteffizient aggregieren, aktualisieren und verwalten kann, aber auch die entsprechenden experimentellen Methoden werden für Kontext.

Experimentelle Einrichtung
Das Versuchsprotokoll zur Probenvorbereitung wurde bereits20,21beschrieben und wird hier kurz vorgestellt. Die Konstrukte wurden durch Spin-Coating rechteckige Glasabdeckungen mit einem 10:1-Gemisch aus Polydimethylsiloxan (PDMS) und Härtungsmittel hergestellt, um dann 0,05 mg/ml Fibronectin anzuwenden, entweder in unorganisierten (isotropen) oder 20 m-Linien mit 5 m Abstand mikromusterweise (Linien). Fibroblastenzellen wurden in Durchgang 7 (oder Durchgang 16 für positive Kontrollen) bei optimaler Dichte auf die Abdeckungen gesetzt und 48 h lang wachsen lassen, wobei die Medien nach 24 h verändert wurden. Die Zellen wurden dann mit 4% Paraformaldehyd (PFA) Lösung und 0,0005% nichtionisches Tensid fixiert, gefolgt von den Abdeckungen, die für Zellkerne immunstainiert werden (4',6'-Diaminodino-2-Phenylinodol [DAPI]), Actin (Alexa Fluor 488 phalloidin) und Fibronectin (Polycloncal Rabbit anti-human fibronin). Ein sekundärer Fleck für Fibronectin mit Ziegenanti-Kaninchen-IgG-Antikörpern (Alexa Fluor 750 Ziege Anti-Kaninchen) wurde angewendet und Konservierungsmittel wurde auf alle Abdeckungen montiert, um ein fluoreszierendes Ausbleichen zu verhindern. Nagellack wurde verwendet, um Abdeckungen auf Mikroskop-Dias zu versiegeln, dann für 24 h trocknen gelassen.

Fluoreszenzbilder wurden wie zuvor20 mit einem 40-fachen Öl-Eintauchobjektiv in Verbindung mit einer CCD-Kamera (Digital Charge Coupled Device) aufgenommen, die auf einem invertierten motorisierten Mikroskop montiert war. Für jeden Deckzettel wurden zehn zufällig ausgewählte Sichtfelder mit einer 40-fachen Vergrößerung abgebildet, was einer Auflösung von 6,22 Pixeln/m entspricht. Benutzerdefinierte Codes wurden verwendet, um verschiedene Variablen aus den Bildern zu quantifizieren, die die Kerne, Actin-Filamente und Fibronectin beschreiben; entsprechende Werte sowie Organisations- und Geometrieparameter wurden automatisch in Datendateien gespeichert.

Zelllinien
Ausführlichere Dokumentationen zu allen Beispieldatenzellzeilen finden Sie in früheren Publikationen20. Um kurz zu beschreiben, wurde die Datenerhebung genehmigt und die Einwilligung in Kenntnis der Sachlage wurde in Übereinstimmung mit dem UC Irvine Institutional Review Board (IRB 2014-1253) durchgeführt. Menschliche Fibroblastenzellen wurden aus drei Familien verschiedener Variationen der Lamin-A/C- (LMNA)Genmutation gesammelt: heterozygote LMNA-Spleiß-Site-Mutation (ca.357-2A>G)22 (Familie A); LMNA-Unsinnmutation (ca.736 C>T, pQ246X) in exon 423 (Familie B); und LMNA-Missense-Mutation (c.1003C>T, pR335W) in Exon 624 (Familie C). Fibroblastenzellen wurden auch von anderen Individuen in jeder Familie als verwandte Mutations-negative Kontrollen, die als "Kontrollen" bezeichnet werden, und andere wurden als nicht verwandte Mutation-negative Kontrollen gekauft, die als "Spender" bezeichnet werden. Als positivzu erhalten, wurden Fibroblastenzellen von einem Individuum mit Hutchinson-Gliford-Progerie (HGPS) gekauft und aus einer Hautbiopsie von einer 8-jährigen Patientin mit HGPS mit einer LMNA G608G Punktmutation25angebaut. Insgesamt wurden Fibroblasten von 22 Personen getestet und als Daten in dieser Arbeit verwendet.

Datentypen
Fibroblastendaten fielen in eine von zwei Kategorien: zelluläre Kernevariablen (d. h. Prozentsatz der dysmorphen Kerne, Kernbereich, Kernexzentrizität)20 oder strukturelle Variablen, die sich aus dem Parameter der Orientierungsreihenfolge (OOP)21,26,27 (d. h. Actin OOP, Fibronectin OOP, Kerne OOP) ergeben. Dieser Parameter entspricht dem maximalen Eigenwert des mittleren Ordertensors aller Orientierungsvektoren und wird in früheren Publikationen26,28detailliert definiert. Diese Werte werden in einer Vielzahl möglicher Übereinstimmungen aggregiert, wie Z. B. Werte gegen Alter, Geschlecht, Krankheitsstatus, Vorhandensein bestimmter Symptome usw. Beispiele für die Verwendung dieser Variablen finden Sie im Ergebnisabschnitt.

Beispielcodes und Dateien
Die Beispielcodes und andere Dateien, die auf den obigen Daten basieren, können mit diesem Papier heruntergeladen werden, und ihre Namen und Typen sind in Tabelle 1zusammengefasst.

Protokoll

HINWEIS: Siehe Tabelle der Materialien für die in diesem Protokoll verwendeten Softwareversionen.

1. Bewerten, ob die Daten von einem Datenbankorganisationsschema profitieren würden

  1. Laden Sie die Beispielcodes und Datenbanken herunter (siehe Ergänzende Codierungsdateien, die in Tabelle 1zusammengefasst sind).
  2. Verwenden Sie Abbildung 1, um auszuwerten, ob der Interessendatensatz "mehrdimensional" ist.
    HINWEIS: Abbildung 1 ist eine grafische Darstellung einer mehrdimensionalen Datenbank, die für den Beispieldatensatz bereitgestellt wird.
  3. Wenn die Daten in einer "mehrdimensionalen" Form wie dem Beispiel visualisiert werden können und wenn die Fähigkeit, ein bestimmtes experimentelles Ergebnis mit einer der Dimensionen (d. h. Bedingungen) in Beziehung zu setzen, eine größere wissenschaftliche Einsicht in die verfügbaren Daten ermöglichen würde, eine relationale Datenbank erstellen.

2. Organisieren sie die Datenbankstruktur

HINWEIS: Relationale Datenbanken speichern Informationen in Form von Tabellen. Tabellen sind im Schema von Zeilen und Spalten organisiert, ähnlich wie Tabellenkalkulationen, und können verwendet werden, um identifizierende Informationen innerhalb der Datenbank zu verknüpfen.

  1. Organisieren Sie die Datendateien, so dass sie gut durchdachte eindeutige Namen haben. Bewährte Verfahren bei Dateibenennungskonventionen und Ordner-Unterordnerstrukturen ermöglichen, wenn sie gut gemacht werden, eine breite Datenbankskalierbarkeit, ohne die Lesbarkeit des manuellen Zugriffs auf Dateien zu beeinträchtigen. Fügen Sie Datumsdateien in einem konsistenten Format hinzu, z. B. "20XX-YY-ZZ", und Namensunterordner nach Metadaten sind ein solches Beispiel.
  2. Zeichnen Sie beim Entwerfen der Datenbankstruktur Beziehungen zwischen den Feldern in verschiedenen Tabellen. So wird Multidimensionalität gehandhabt, indem verschiedene Felder (d. h. Spalten in den Tabellen) in einzelnen Tabellen miteinander verknüpft werden.
  3. Erstellen Sie eine Readme-Dokumentation, die die Datenbank und die Beziehungen beschreibt, die in Schritt 2.2 erstellt wurden. Sobald ein Eintrag zwischen verschiedenen Tabellen verknüpft ist, beziehen sich alle zugeordneten Informationen auf diesen Eintrag und können zum Aufrufen komplexer Abfragen verwendet werden, um nach den gewünschten Informationen zu filtern.
    HINWEIS: Readme-Dokumente sind eine gängige Lösung für die Bereitstellung zusätzlicher Informationen und Datenbankstrukturinformationen zu einem Projekt, ohne der Struktur uneinheitliche Daten hinzuzufügen.
  4. In den folgenden Schritten 2.1-2.3 wird das Endergebnis diesem Beispiel ähnlich, in dem die unterschiedlichen Merkmale von Individuen (Abbildung 2A) mit den zugehörigen experimentellen Daten dieser Personen zusammenhängen (Abbildung 2B). Dasselbe geschah durch die Beziehung zu Spalten von Mustertypen (Abbildung 2C) und Datentypen (Abbildung 2D) mit übereinstimmenden Einträgen in der Hauptdatenwertetabelle, um verschiedene Kurzschriftnotationen zu erklären (Abbildung 2B).
  5. Bestimmen Sie alle wesentlichen und nur hilfreichen Datenpunkte, die für die Erfassung von Daten mit großer Reichweite aufgezeichnet werden müssen.
    HINWEIS: Ein wesentlicher Vorteil der Verwendung von Datenbanken gegenüber Tabellenkalkulationsprogrammen ist, wie bereits erwähnt, die Skalierbarkeit: Zusätzliche Datenpunkte können an jedem Punkt trivial hinzugefügt werden, und Berechnungen, wie Durchschnittswerte, werden sofort aktualisiert, um neu hinzugefügte Datenpunkte widerzuspiegeln.
    1. Identifizieren Sie die erforderlichen Informationen zum Erstellen unterschiedlicher Datenpunkte vor Beginn. Lassen Sie Rohdaten unberührt, anstatt sie zu ändern oder zu speichern, sodass eine erneute Analyse möglich und zugänglich ist.
      HINWEIS: Für das gegebene Beispiel (Abbildung 2) waren der "Beschreiber", der einer Person entspricht, "Pattern type", "Coverslip" und "Variable type" wichtige Felder für die Unterscheidbarkeit des zugeordneten Werts.
    2. Fügen Sie bei Bedarf weitere hilfreiche, nicht wichtige Informationen hinzu, z. B. die "Gesamtanzahl der Coverslips", um die Anzahl der durchgeführten Wiederholungen anzugeben und festzustellen, ob in diesem Beispiel Datenpunkte fehlen.

3. Einrichten und Organisieren der Pipeline

  1. Identifizieren Sie alle verschiedenen Experimente und Datenanalysemethoden, die zur Datenerfassung führen können, zusammen mit den normalen Datenspeicherpraktiken für jeden Datentyp. Arbeiten Sie mit Open-Source-Versionskontrollsoftware wie GitHub, um die erforderliche Konsistenz und Versionskontrolle zu gewährleisten und gleichzeitig den Benutzeraufwand zu minimieren.
  2. Erstellen Sie nach Möglichkeit verfahren für die konsistente Benennung und Speicherung von Daten, um eine automatisierte Pipeline zu ermöglichen.
    ANMERKUNG: Im Beispiel wurden die Ausgaben alle konsistent benannt, wodurch eine Datenpipeline erstellt wurde, die nach bestimmten Attributen suchte, sobald die Dateien ausgewählt wurden. Wenn eine konsistente Benennung nicht möglich ist, müssen die Tabellen in der Datenbank manuell aufgefüllt werden, was nicht empfohlen wird.
  3. Verwenden Sie eine beliebige Programmiersprache, um neue Dateneinträge für die Datenbank zu generieren.
    1. Erstellen Sie kleine "Helfer"-Tabellen (Dateien #8-#10 in Tabelle 1) in separaten Dateien, die die automatisierte Auswahl von Daten steuern können. Diese Dateien dienen als Vorlage für Möglichkeiten für die Pipeline zu arbeiten und sind einfach zu bearbeiten.
    2. Um neue Dateneinträge für die Datenpipeline zu generieren (Abbildung 3D), programmieren Sie den Code (LocationPointer.m, Datei #1 in Tabelle 1), um die Hilfstabellen als vom Benutzer auszuwählende Eingaben zu verwenden (Dateien #8 #10 in Tabelle 1).
    3. Von hier aus erstellen Sie eine neue Tabelle mit Dateispeicherorten, indem Sie die neuen Einträge mit den vorherigen Einträgen kombinieren (Abbildung 3E). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in LocationPointerCompile.m (Datei #2 in Tabelle 1) gezeigt.
    4. Überprüfen Sie anschließend diese zusammengeführte Kalkulationstabelle auf Duplikate, die automatisch entfernt werden sollten. Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in LocationPointer_Remove_Duplicates.m gezeigt (Datei #3 in Tabelle 1).
    5. Überprüfen Sie außerdem die Kalkulationstabelle auf Fehler, und benachrichtigen Sie den Benutzer über ihren Grund und Standort(Abbildung 3F). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in BadPointerCheck.m (Datei #4 in Tabelle 1) gezeigt. Alternativ können Sie einen Code schreiben, der die kompilierte Datenbank überprüft und Duplikate in einem Schritt identifiziert, wie in LocationPointer_Check dargestellt (Datei #5 in Tabelle 1).
    6. Erstellen Sie einen Code, mit dem der Benutzer fehlerhafte Punkte manuell entfernen kann, ohne die Integrität der Datenbank zu verlieren, wie in Manual_Pointer_Removal.m gezeigt (Datei #6 in Tabelle 1).
    7. Verwenden Sie dann die Dateispeicherorte, um eine Datenwerttabelle zu generieren (Abbildung 3G, Datei #12 in Tabelle 1) sowie eine aktualisierte Liste von Einträgen zu erstellen, auf die zugegriffen werden kann, um Dateispeicherorte zu identifizieren oder mit zukünftigen Einträgen zusammenzuführen (Abbildung 3H). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in Database_Generate dargestellt (Datei #7 in Tabelle 1).
  4. Überprüfen Sie, ob die Pipeline die experimentelle Strenge erhöht, indem Sie strenge Namenskonventionen, automatisierte Dateiassemblycodes und automatisierte Fehlerprüfungen wie zuvor beschrieben überprüfen.

4. Erstellen der Datenbank und Abfragen

HINWEIS: Wenn Tabellen Informationen in Datenbanken speichern, sind Abfragen Anforderungen an die Datenbank nach bestimmten Kriterien. Es gibt zwei Methoden zum Erstellen der Datenbank: beginnend mit einem leeren Dokument oder beginnend mit den vorhandenen Dateien. Abbildung 4 zeigt eine Beispielabfrage mit SQL-Syntax, die mit den in Abbildung 2dargestellten Datenbankbeziehungen ausgeführt werden soll.

  1. Methode 1: Beginnen Sie bei der Erstellung der Datenbank und der Abfragen von Grund auf
    1. Erstellen Sie ein leeres Datenbankdokument.
    2. Laden Sie die Hilfstabellen (Dateien #8-#10 in Tabelle 1), indem Sie Externe Daten | Textdateiimport | Wählen Sie Datei (Dateien #8-#10) | Abgegrenzt | Erste Zeile Enthält Kopfzeilen, Komma | Standard verlassen | Wählen Sie Meinen eigenen Primärschlüssel (Beschrifterer für Zelllinien-Datei #8, Variablenname für Datentypen Datei #9, Pat-Name für Mustertypdatei #10) | Standard verlassen | Finish.
    3. Laden Sie die Datenwerttabelle (Datei #12 in Tabelle 1), indem Sie Externe Daten | Textdateiimport | Datei auswählen (Datei #12) | Abgegrenzt | Erste Zeile Enthält Kopfzeilen, Komma | Standard verlassen | Zulassen, dass Access Primärschlüssel hinzufügen | Importieren in die Tabelle: DataValues | Finish.
    4. Erstellen Sie die Beziehungen, indem Sie Datenbanktools auswählen | Beziehungen | Ziehen Sie alle Tabellen auf die Tafel | Beziehungen bearbeiten | Neue | erstellen Die DataValue-Felder mit Denertabellen-Bedesignern abgleichen | Gelenk Typ 3.
    5. Wählen Sie Erstellen | Abfrageentwurf.
    6. Wählen Sie alle relevanten Tabellen aus oder ziehen Sie sie in das obere Fenster. In diesem Beispiel 'Zellzeilen', 'Datenwerte', 'Datentypen' und 'Pattern Type'. Die Beziehungen sollten automatisch basierend auf dem vorherigen Beziehungsentwurf eingerichtet werden.
    7. Füllen Sie die Abfragespalten für die gewünschten Ergebnisse aus, z. B.:
      1. Klicken Sie auf Anzeigen | Summen.
      2. Füllen Sie die erste Spalte (Tabelle: DataValues, Feld: DataVar, Total: GroupBy, Kriterien: "Act_OOP"), die zweite Spalte (Tabelle: DataValues, Feld: PatVar, Gesamt: GroupBy, Kriterien: "Linien") und die dritte Spalte (Tabelle: Cell_Lines, Feld: Beweigerer, Summe: GroupBy, Sortieren: Aufsteigend).
      3. Füllen Sie die vierte Spalte (Tabelle: DataValues, Feld: Parameter, Summe: Ave), die fünfte Spalte (Tabelle: DataValues, Feld: Parameter, Total: StDev) und die sechste Spalte (Tabelle: DataValues, Feld: Parameter, Summe: Anzahl).
    8. Führen Sie die Abfrage aus.
  2. Alternativ können Sie die bereitgestellte Beispieldatenbank als Grundlage für Beispiele verwenden. Öffnen Sie die Datenbankdatei Database_Queries.accdb (Datei #13 in Tabelle 1), die zuvor heruntergeladen wurde. Verwenden Sie es als Vorlage, indem Sie vorhandene Tabellen durch die Daten von Interesse ersetzen.

5. Verschieben der Ausgabetabellen in eine statistische Software zur Signifikanzanalyse

  1. Verwenden Sie für diese experimentellen Stichprobendaten die einwegige Varianzanalyse (ANOVA) mithilfe des Tukey-Tests für mittlere Vergleiche zwischen verschiedenen Bedingungen.
    ANMERKUNG: Werte von p < 0,05 wurden als statistisch signifikant betrachtet.

Ergebnisse

Multidimensionalität der Daten
Im Rahmen des hier vorgestellten Beispieldatensatzes wurden die im Abschnitt Methoden beschriebenen Probanden in Gruppen von Individuen aus den drei Familien mit der herzkrankheitserregenden LMNA-Mutation ("Patienten"), verwandten nicht-mutationsnegativen Kontrollen ("Kontrollen"), nicht-mutationsbezogenen negativen Kontrollen ("Spender") und einer Person mit Hutchinson-Gilford-Progeria-Syndrom (HGPS) als positiv kontrollierbare20. Die E...

Diskussion

Technische Diskussion des Protokolls
Der erste Schritt bei der Prüfung der Verwendung von Datenbanken besteht darin, zu prüfen, ob die Daten von einer solchen Organisation profitieren würden.

Der nächste wichtige Schritt besteht darin, einen automatisierten Code zu erstellen, der die minimale Eingabe des Benutzers anfordert und die Tabellendatenstruktur generiert. Im Beispiel hat der Benutzer die Kategorie des Datentyps (Zellkerne oder Strukturmessungen), den Betreffbet...

Offenlegungen

Die Autoren haben nichts zu verraten.

Danksagungen

Diese Arbeit wird vom National Heart, Lung, and Blood Institute der National Institutes of Health, Fördernummer R01 HL129008, unterstützt. Die Autoren danken insbesondere den Mitgliedern der LMNA-Genmutation für ihre Teilnahme an der Studie. Wir danken auch Linda McCarthy für ihre Unterstützung bei der Zellkultur und der Pflege der Laborräume, Nasam Chokr für ihre Teilnahme an der Zellbildgebung und der Analyse von Kernen und Michael A. Grosberg für seine sachdienliche Beratung beim Einrichten unserer ersten Microsoft Access-Datenbank sowie bei der Beantwortung weiterer technischer Fragen.

Materialien

NameCompanyCatalog NumberComments
4',6'-diaminodino-2-phenylinodole (DAPI)Life Technologies, Carlsbad, CA
Alexa Fluor 488 PhalloidinLife Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbitLife Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10BHamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectinCorning, Corning, NY
IX-83 inverted motorized microscopeOlympus America, Center Valley, PA
Matlab R2018bMathworks, Natick, MA
MS AccessMicrosoft, Redmond, WA
paraformaldehyde (PFA)Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectinSigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)Ellsworth Adhesives, Germantown, WI
Prolong Gold AntifadeLife Technologies, Carlsbad, CA
rectangular glass coverslipsFisher Scientific Company, Hanover Park, IL
Triton-XSigma Aldrich Inc., Saint Louis, MO

Referenzen

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL - Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial - w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL - SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials - Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Weitere Artikel entdecken

BioengineeringAusgabe 153mittelgro e DatenDatenbankenLMNADatenorganisationmehrdimensionale DatenTissue Engineering

This article has been published

Video Coming Soon

JoVE Logo

Datenschutz

Nutzungsbedingungen

Richtlinien

Forschung

Lehre

ÜBER JoVE

Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten