Bases de datos para gestionar eficientemente datos de tamaño medio, baja velocidad y multidimensionales en ingeniería de tejidos

Alexander  R. Ochs; Mehrsa Mehrabi; Danielle Becker; Mira  N. Asad; Jing Zhao; Michael  V. Zaragoza; Anna Grosberg

doi:10.3791/60038

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

Resumen
Resumen
Introducción
Protocolo
Resultados
Discusión
Divulgaciones
Agradecimientos
Materiales
Referencias
Reimpresiones y Permisos

Resumen

Muchos investigadores generan datos "de tamaño medio", de baja velocidad y multidimensionales, que se pueden gestionar de forma más eficiente con bases de datos en lugar de hojas de cálculo. Aquí proporcionamos una visión general conceptual de las bases de datos, incluida la visualización de datos multidimensionales, la vinculación de tablas en estructuras de bases de datos relacionales, la asignación de canalizaciones de datos semiautomáticas y el uso de la base de datos para dilucidar el significado de los datos.

Resumen

La ciencia se basa en conjuntos de datos cada vez más complejos para el progreso, pero los métodos comunes de administración de datos, como los programas de hojas de cálculo, son inadecuados para la creciente escala y complejidad de esta información. Si bien los sistemas de gestión de bases de datos tienen el potencial de corregir estos problemas, no se utilizan comúnmente fuera de los campos de negocio e informática. Sin embargo, muchos laboratorios de investigación ya generan datos multidimensionales de "tamaño medio", baja velocidad que podrían beneficiarse en gran medida de la implementación de sistemas similares. En este artículo, proporcionamos una visión general conceptual que explica cómo funcionan las bases de datos y las ventajas que proporcionan en las aplicaciones de ingeniería de tejidos. Los datos estructurales de fibroblastos de individuos con una mutación de A/C lamin se utilizaron para ilustrar ejemplos dentro de un contexto experimental específico. Entre los ejemplos se incluyen la visualización de datos multidimensionales, la vinculación de tablas en una estructura de base de datos relacional, la asignación de una canalización de datos semiautomatizada para convertir datos sin procesar en formatos estructurados y la explicación de la sintaxis subyacente de una consulta. Los resultados del análisis de los datos se utilizaron para crear parcelas de diversos arreglos y significado se demostraron en la organización celular en entornos alineados entre el control positivo de hutchinson-Gilford progeria, una laminronopatía bien conocida y todos los demás grupos experimentales. En comparación con las hojas de cálculo, los métodos de base de datos eran enormemente eficientes en el tiempo, fáciles de usar una vez configurados, permitían el acceso inmediato a las ubicaciones de archivos originales y aumentaban el rigor de los datos. En respuesta al énfasis de los Institutos Nacionales de Salud (NIH) en el rigor experimental, es probable que muchos campos científicos finalmente adopten bases de datos como práctica común debido a su fuerte capacidad para organizar eficazmente datos complejos.

Introducción

En una época en la que el progreso científico está fuertemente impulsado por la tecnología, el manejo de grandes cantidades de datos se ha convertido en una faceta integral de la investigación en todas las disciplinas. La aparición de nuevos campos como la biología computacional y la genómica subraya lo crítica que se ha vuelto la utilización proactiva de la tecnología. Estas tendencias seguramente continuarán debido a la ley de Moore y al progreso constante obtenido de los avances tecnológicos^1,². Una consecuencia, sin embargo, es el aumento de las cantidades de datos generados que exceden las capacidades de los métodos de organización previamente viables. Aunque la mayoría de los laboratorios académicos tienen suficientes recursos computacionales para manejar conjuntos de datos complejos, muchos grupos carecen de la experiencia técnica necesaria para construir sistemas personalizados adecuados para el desarrollo de necesidades^3. Tener las habilidades para administrar y actualizar estos conjuntos de datos sigue siendo fundamental para un flujo de trabajo y una salida eficientes. Reducir la brecha entre los datos y la experiencia es importante para gestionar, actualizar y analizar de manera eficiente un amplio espectro de datos multifacéticos.

La escalabilidad es una consideración esencial al controlar grandes conjuntos de datos. El Big Data, por ejemplo, es un área floreciente de investigación que implica revelar nuevos conocimientos de datos de procesamiento caracterizados por grandes volúmenes, gran heterogeneidad y altas tasas de generación, como audio y video^4,⁵. El uso de métodos automatizados de organización y análisis es obligatorio para que este campo maneje adecuadamente torrents de datos. Sin embargo, muchos términos técnicos utilizados en big data no están claramente definidos y pueden ser confusos; por ejemplo, los datos de "alta velocidad" a menudo se asocian con millones de entradas nuevas por día, mientras que los datos de "baja velocidad" solo pueden ser cientos de entradas por día, como en un entorno de laboratorio académico. Aunque hay muchos hallazgos emocionantes aún por descubrir utilizando big data, la mayoría de los laboratorios académicos no requieren el alcance, el poder y la complejidad de estos métodos para abordar sus propias preguntas científicas⁵. Si bien es indudable que los datos científicos se vuelvan cada vez más complejos con el tiempo^6,muchos científicos siguen utilizando métodos de organización que ya no satisfacen sus necesidades de datos en expansión. Por ejemplo, los programas de hoja de cálculo convenientes se utilizan con frecuencia para organizar los datos científicos, pero a costa de ser inescalable, propenso a errores y el tiempo ineficiente a largo plazo⁷^,⁸. Por el contrario, las bases de datos son una solución eficaz para el problema, ya que son escalables, relativamente baratas y fáciles de usar en el manejo de diversos conjuntos de datos de proyectos en curso.

Las preocupaciones inmediatas que surgen al considerar esquemas de organización de datos son el costo, la accesibilidad y la inversión en tiempo para la formación y el uso. Utilizados con frecuencia en entornos empresariales, los programas de bases de datos son más económicos, ya sean relativamente baratos o gratuitos, que los fondos necesarios para apoyar el uso de sistemas de big data. De hecho, existe una variedad de software de código abierto y disponible comercialmente para crear y mantener bases de datos, como Oracle Database, MySQL y Microsoft (MS) Access^9. También se alentaría a muchos investigadores a aprender que varios paquetes académicos de MS Office vienen con MS Access incluido, minimizando aún más las consideraciones de costos. Además, casi todos los desarrolladores proporcionan una amplia documentación en línea y hay una gran cantidad de recursos en línea gratuitos como Codecademy, W3Schools y SQLBolt para ayudar a los investigadores a entender y utilizar el lenguaje de consulta estructurado (SQL)^10,¹¹^,¹². Al igual que cualquier lenguaje de programación, aprender a usar bases de datos y código con SQL lleva tiempo dominar, pero con los amplios recursos disponibles el proceso es sencillo y bien vale la pena el esfuerzo invertido.

Las bases de datos pueden ser herramientas eficaces para aumentar la accesibilidad a los datos y la facilidad de agregación, pero es importante discernir qué datos se beneficiarían más de un mayor control de la organización. La multidimensionalidad se refiere al número de condiciones con las que se puede agrupar una medición, y las bases de datos son más eficaces al administrar muchas condiciones diferentes¹³. Por el contrario, la información con baja dimensionalidad es más sencilla de manejar utilizando un programa de hoja de cálculo; por ejemplo, un conjunto de datos que contiene años y un valor para cada año solo tiene una agrupación posible (medidas con respecto a años). Los datos de alta dimensión, como los de los entornos clínicos, requerirían un gran grado de organización manual para mantener eficazmente un proceso tedioso y propenso a errores más allá del alcance de los programas de hoja de cálculo¹³. Las bases de datos no relacionales (NoSQL) también cumplen una variedad de roles, principalmente en aplicaciones donde los datos no se organizan bien en filas y columnas^14. Además de ser de código abierto con frecuencia, estos esquemas organizativos incluyen asociaciones gráficas, datos de series temporales o datos basados en documentos. NoSQL sobresale en escalabilidad mejor que SQL, pero no puede crear consultas complejas, por lo que las bases de datos relacionales son mejores en situaciones que requieren coherencia, estandarización y cambios de datos a gran escala poco frecuentes^15. Las bases de datos son las mejores para agrupar y reactualizar datos de manera efectiva en la gran variedad de conformaciones que a menudo se necesitan en los entornos científicos¹³^,¹⁶.

La intención principal de este trabajo, por lo tanto, es informar a la comunidad científica sobre el potencial de las bases de datos como sistemas de gestión de datos escalables para datos de "tamaño medio", datos de baja velocidad, así como proporcionar una plantilla general utilizando ejemplos específicos de experimentos de línea celular procedentes del paciente. Otras aplicaciones similares incluyen datos geoespaciales de lechos fluviales, cuestionarios de estudios clínicos longitudinales y condiciones de crecimiento microbiano en medios de crecimiento^17,^18,¹⁹. Este trabajo destaca las consideraciones comunes y la utilidad de construir una base de datos junto con una canalización de datos necesaria para convertir datos sin procesar en formatos estructurados. Los conceptos básicos de las interfaces de base de datos y la codificación para bases de datos en SQL se proporcionan e ilustran con ejemplos para permitir que otros obtengan los conocimientos aplicables a la creación de marcos básicos. Por último, un conjunto de datos experimental esejemplo de muestra la facilidad y eficacia con que se pueden diseñar bases de datos para agregar datos multifacéticos de diversas maneras. Esta información proporciona contexto, comentarios y plantillas para ayudar a otros científicos en el camino hacia la implementación de bases de datos para sus propias necesidades experimentales.

Con el fin de crear una base de datos escalable en un entorno de laboratorio de investigación, los datos de experimentos con células de fibroblastos humanos se recopilaron en los últimos tres años. El objetivo principal de este protocolo es informar sobre la organización del software informático para permitir al usuario agregar, actualizar y administrar datos de la manera más rentable y eficiente en el tiempo posible, pero también se proporcionan los métodos experimentales pertinentes para Contexto.

Configuración experimental
El protocolo experimental para la preparación de muestras se ha descrito anteriormente²⁰^,²¹, y se presenta brevemente aquí. Las construcciones fueron preparadas por revestimientos rectangulares de vidrio con una mezcla de 10:1 de polidimetilsiloxano (PDMS) y agente de curado, luego aplicando 0,05 mg/ml de fibronectina, ya sea en líneas no organizadas (isotrópicas) o de 20 m con arreglos micropatrones de brecha de 5 m (líneas). Las células fibroblastas fueron sembradas en el pasaje 7 (o el pasaje 16 para controles positivos) sobre los cubreobjetos en densidades óptimas y se dejaron crecer durante 48 horas con medios que se cambiaron después de 24 h. Las células se fijaron entonces usando una solución de paraformaldehído (PFA) al 4% y un tensioactivo no iónico al 0,0005%, seguido de que los cubretapas se inmunotintaban para los núcleos celulares (4',6'-diaminodino-2-fenilinodolo [DAPI]), la actina (Alexa Fluor 488 phalloidin) y la fibronectina (policlíneina). Se aplicó una mancha secundaria para la fibronectina utilizando anticuerpos IgG anticonejo de cabra (Anticonejo de cabra Alexa Fluor 750) y se montó un agente de conservación en todos los labios de cubierta para evitar el desvanecimiento fluorescente. El esmalte de uñas se utilizó para sellar los cubreobjetos en las diapositivas del microscopio y luego se dejó secar durante 24 horas.

Las imágenes de fluorescencia se obtuvieron como se describió anteriormente²⁰ utilizando un objetivo de inmersión en aceite de 40x junto con una cámara de dispositivo acoplado de carga digital (CCD) montada en un microscopio motorizado invertido. Se crearon diez campos de visión seleccionados aleatoriamente para cada punzón con un aumento de 40x, correspondiente a una resolución de 6,22 píxeles/m. Se utilizaron códigos escritos a medida para cuantificar diferentes variables de las imágenes que describen los núcleos, los filamentos de actina y la fibronectina; los valores correspondientes, así como los parámetros de organización y geometría, se guardaron automáticamente en archivos de datos.

Líneas celulares
Puede encontrar documentación más extensa sobre todas las líneas de células de datos de muestra en publicaciones anteriores²⁰. Para describir brevemente, se aprobó la recopilación de datos y se realizó el consentimiento informado de conformidad con la Junta de Revisión Institucional de UC Irvine (IRB n.o 2014-1253). Las células fibroblásticas humanas se recogieron de tres familias de diferentes variaciones de la mutación genética de lamina A/C(LMNA):mutación heterocigota del sitio LMNA (c.357-2A>G)²² (familia A); Mutación sin sentido LMNA (c.736 C>T, pQ246X) en el exón 4²³ (familia B); y mutación del missense LMNA (c.1003C>T, pR335W) en el exón 6²⁴ (familia C). Las células fibroblastas también se recogieron de otros individuos de cada familia como controles negativos de mutación relacionados, denominados "Controles", y otras fueron compradas como controles negativos de mutación no relacionados, denominados "Donantes". Como control positivo, las células fibroblastas de un individuo con Hutchinson-Gliford progeria (HGPS) fueron compradas y cultivadas a partir de una biopsia de piel tomada de una paciente de 8 años con HGPS que poseía una mutación de punto LMNA G608G^25. En total, los fibroblastos de 22 individuos fueron probados y utilizados como datos en este trabajo.

Tipos de datos
Los datos de fibroblastos se dividió en una de dos categorías: variables de núcleos celulares (es decir, porcentaje de núcleos dismórficos, área de núcleos, excentricidad de núcleos)²⁰ o variables estructurales derivadas del parámetro de orden orientativo (OOP)²¹^,^26,²⁷ (es decir, actina OOP, fibronecina OOP, nuclei OOP). Este parámetro es igual al valor máximo del tensor de orden medio de todos los vectores de orientación, y se define en detalle en las publicaciones anteriores²⁶^,²⁸. Estos valores se agregan en una variedad de posibles conformaciones, tales como valores contra la edad, género, estado de la enfermedad, presencia de ciertos síntomas, etc. En la sección de resultados se pueden encontrar ejemplos de cómo se utilizan estas variables.

Códigos y archivos de ejemplo
Los códigos de ejemplo y otros archivos basados en los datos anteriores se pueden descargar con este documento, y sus nombres y tipos se resumen en la Tabla 1.

Protocolo

NOTA: Consulte la Tabla de materiales para ver las versiones de software utilizadas en este protocolo.

1. Evaluar si los datos se beneficiarían de un esquema de organización de bases de datos

Descargue los códigos de ejemplo y las bases de datos (consulte Archivos de codificación suplementarios, que se resumen en la Tabla 1).
Utilice la Figura 1 para evaluar si el conjunto de datos de interés es "multidimensional".
NOTA: La Figura 1 es una representación gráfica de una base de datos multidimensional proporcionada para el conjunto de datos de ejemplo.
Si los datos se pueden visualizar en una forma "multidimensional" como el ejemplo y si la capacidad de relacionar un resultado experimental específico con cualquiera de las dimensiones (es decir, las condiciones) permitiría una mayor comprensión científica de los datos disponibles, construir una base de datos relacional.

2. Organizar la estructura de la base de datos

NOTA: Las bases de datos relacionales almacenan información en forma de tablas. Las tablas se organizan en el esquema de filas y columnas, similar a las hojas de cálculo, y se pueden usar para vincular la información de identificación dentro de la base de datos.

Organice los archivos de datos, para que tengan nombres únicos bien pensados. Las buenas prácticas con las convenciones de nomenclatura de archivos y las estructuras de subcarpetas de carpetas, cuando se hace bien, permiten una amplia escalabilidad de la base de datos sin comprometer la legibilidad de acceder a los archivos manualmente. Agregar archivos de fecha en un formato coherente, como "20XX-YY-ZZ", y las subcarpetas de nombre según los metadatos es uno de estos ejemplos.
A medida que se diseña la estructura de base de datos, dibuje relaciones entre los campos de tablas diferentes. Por lo tanto, la multidimensionalidad se maneja relacionando diferentes campos (es decir, columnas en las tablas) en tablas individuales entre sí.
Cree documentación léame que describa la base de datos y las relaciones que se crearon en el paso 2.2. Una vez que se vincula una entrada entre diferentes tablas, toda la información asociada está relacionada con esa entrada y se puede utilizar para llamar a consultas complejas para filtrar hasta la información deseada.
NOTA: Los documentos Léame son una solución común para proporcionar información complementaria e información estructural de la base de datos sobre un proyecto sin agregar datos no uniformes a la estructura.
Siguiendo los pasos 2.1-2.3, haga que el resultado final sea similar a este ejemplo donde las diferentes características de los individuos(Figura 2A)están relacionadas con los datos experimentales asociados de esos individuos(Figura 2B). Lo mismo se hizo relacionando columnas de tipos de patrón (Figura 2C) y tipos de datos (Figura 2D) con entradas coincidentes en la tabla de valores de datos principales para explicar varias notaciones abreviadas (Figura 2B).
Determine todos los puntos de datos esenciales y meramente útiles que deben registrarse para la recopilación de datos de largo alcance.
NOTA: Una ventaja clave de usar bases de datos sobre programas de hoja de cálculo, como se mencionó anteriormente, es la escalabilidad: los puntos de datos adicionales se pueden agregar trivialmente en cualquier punto y los cálculos, como los promedios, se actualizan instantáneamente para reflejar los puntos de datos recién agregados.
1. Identifique la información necesaria para crear puntos de datos distintos antes del comienzo. Deje los datos sin procesar intactos, en lugar de modificarlos o guardarlos, de modo que el reanálisis sea posible y accesible.
  NOTA: Para el ejemplo dado(Figura 2), el "Designador" correspondiente a un individuo, "Tipo de patrón", "Coverslip" y "Tipo variable" eran todos campos vitales para la distinción del valor asociado.
2. Si lo desea, agregue otra información útil y no vital, como el "Total de Coverslips" para indicar el número de repeticiones realizadas y ayudar a determinar si faltan puntos de datos en este ejemplo.

3. Configurar y organizar el gasoducto

Identifique todos los diversos experimentos y métodos de análisis de datos que podrían conducir a la recopilación de datos junto con las prácticas de almacenamiento de datos normales para cada tipo de datos. Trabaje con software de control de versiones de código abierto como GitHub para garantizar la coherencia y el control de versiones necesarios, a la vez que minimiza la carga del usuario.
Si es posible, cree un procedimiento para la nomenclatura y el almacenamiento coherentes de datos para permitir una canalización automatizada.
NOTA: En el ejemplo, todas las salidas se denominaron de forma coherente, creando así una canalización de datos que buscaba atributos específicos era sencillo una vez que se seleccionaban los archivos. Si no es posible la nomenclatura coherente, las tablas de la base de datos deberán rellenarse manualmente, lo que no se recomienda.
Utilice cualquier lenguaje de programación conveniente para generar nuevas entradas de datos para la base de datos.
1. Cree pequeñas tablas "ayudante" (archivos #8 #10 en la Tabla 1) en archivos independientes que puedan guiar la selección automatizada de datos. Estos archivos sirven como una plantilla de posibilidades para que la canalización funcione y son fáciles de editar.
2. Para generar nuevas entradas de datos para la canalización de datos(figura 3D), programe el código (LocationPointer.m, #1 de archivos en la tabla 1) para utilizar las tablas auxiliares como entradas que el usuario debe seleccionar (archivos #8 #10 en la tabla 1).
3. Desde aquí, ensamble una nueva hoja de cálculo de ubicaciones de archivos combinando las nuevas entradas con las entradas anteriores(Figura 3E). Cree un código para automatizar este paso como se muestra en LocationPointerCompile.m (archivo #2 en la Tabla 1).
4. Después, comprueba esta hoja de cálculo combinada en busca de duplicados, que deben eliminarse automáticamente. Cree un código para automatizar este paso como se muestra en LocationPointer_Remove_Duplicates.m (#3 de archivos en la Tabla 1).
5. Además, compruebe si hay errores en la hoja de cálculo y notifique al usuario su motivo y ubicación(Figura 3F). Cree un código para automatizar este paso como se muestra en BadPointerCheck.m (#4 de archivos en la Tabla 1). Como alternativa, escriba un código que compruebe la base de datos compilada e identifique los duplicados en un paso como se muestra en LocationPointer_Check.m (#5 de archivo en la Tabla 1).
6. Cree un código para permitir que el usuario elimine manualmente los puntos defectuosos sin perder la integridad de la base de datos como se muestra en Manual_Pointer_Removal.m (#6 de archivo en la Tabla 1).
7. A continuación, utilice las ubicaciones de archivo para generar una hoja de cálculo de valor de datos(Figura 3G, #12 de archivo en la Tabla 1), así como para crear una lista más actualizada de entradas a las que se puede acceder para identificar ubicaciones de archivos o combinarse con entradas futuras(Figura 3H). Cree un código para automatizar este paso como se muestra en Database_Generate.m (#7 de archivos en la Tabla 1).
Compruebe que la canalización se suma al rigor experimental comprobando la inclusión de convenciones de nomenclatura rigurosas, códigos de ensamblado de archivos automatizados y comprobaciones de errores automatizadas como se describió anteriormente.

4. Crear la base de datos y consultas

NOTA: Si las tablas almacenan información en bases de datos, las consultas son solicitudes a la base de datos para obtener información sobre criterios específicos. Hay dos métodos para crear la base de datos: a partir de un documento en blanco o a partir de los archivos existentes. En la figura 4 se muestra una consulta de ejemplo con sintaxis SQL diseñada para ejecutarse mediante las relaciones de base de datos que se muestran en la figura 2.

Método 1: A partir de cero en la creación de la base de datos y consultas
1. Cree un documento de base de datos en blanco.
2. Cargar las tablas auxiliares (archivos #8-#10 en la Tabla 1) seleccionando Datos externos ( External Data ) Importación de archivos de texto ? Elija Archivo (archivos #8-#10) Delimitados Primera fila contiene encabezados, coma ? dejar por defecto ? Elija Mi propia clave principal (Designator for Cell Lines File #8, Variable Name for Data Types File #9, Pat Name for Pattern Type File #10) dejar por defecto ? Finalizar.
3. Cargar la tabla de valores de datos (#12 de archivo en la Tabla 1) seleccionando Datos externos ( Datos externos ) Importación de archivos de texto ? Elija Archivo (#12 de archivo) Delimitados Primera fila contiene encabezados, coma ? dejar por defecto ? Deje que el acceso agregue la clave principal ? Importar a la tabla: DataValues ? Finalizar.
4. Cree las relaciones seleccionando Herramientas de base de datos ( Database Tools) Relaciones ? Arrastre todas las tablas al tablero . Editar relaciones ? Crear nuevo ? Haga coincidir los campos DataValue con los designadores de tablas auxiliares . Tipo de junta 3.
5. Seleccione Crear (Crear) Diseño de consultas.
6. Seleccione o arrastre todas las tablas relevantes a la ventana superior. En este ejemplo, 'Líneas de celda', 'Valores de datos', 'Tipos de datos' y 'Tipo de patrón'. Las relaciones deben configurarse automáticamente en función del diseño de relación anterior.
7. Rellene las columnas de consulta para obtener los resultados deseados, por ejemplo:
  1. Haga clic en Mostrar ? Totales.
  2. Rellene la primera columna (Tabla: DataValues, Field: DataVar, Total: GroupBy, Criteria: "Act_OOP"), la segunda columna (Tabla: DataValues, Field: PatVar, Total: GroupBy, Criteria: "Lines"), y la tercera columna (Tabla: Cell_Lines, Campo: Designador, Total: GroupBy, Sort: Ascending).
  3. Rellene la cuarta columna (Tabla: DataValues, Field: Parameter, Total: Ave), la quinta columna (Tabla: DataValues, Field: Parameter, Total: StDev) y la sexta columna (Tabla: DataValues, Field: Parameter, Total: Count).
8. Ejecute la consulta.
Como alternativa, utilice la base de datos de ejemplo proporcionada como base para ejemplos. Abra el archivo de base de datos Database_Queries.accdb (#13 de archivo en la tabla 1) que se descargó anteriormente. Utilícelo como plantilla reemplazando las tablas existentes por los datos de interés.

5. Mueva las tablas de salida a un software estadístico para el análisis de significancias

Para este ejemplo de datos experimentales, utilice el análisis unidireccional de la varianza (ANOVA) utilizando la prueba de Tukey para comparaciones medias entre diversas condiciones.
NOTA: Los valores de p < 0.05 se consideraron estadísticamente significativos.

Resultados

Multidimensionalidad de los datos
En el contexto del ejemplo de conjunto de datos presentado aquí, los sujetos, descritos en la sección Métodos, se dividieron en grupos de individuos de las tres familias con la mutación LMNA causante de enfermedades cardíacas ("Pacientes"), controles negativos no mutaciones relacionados ("Controles"), controles negativos no mutaciones no relacionados ("Donantes"), y un individuo con síndrome de Hutchinson-Gilford progeria (HGPS) como control positivo

Discusión

Discusión técnica del protocolo
El primer paso al considerar el uso de bases de datos es evaluar si los datos se beneficiarían de una organización de este tipo.

El siguiente paso esencial es crear un código automatizado que pedirá la entrada mínima del usuario y genere la estructura de datos de la tabla. En el ejemplo, el usuario ha introducido la categoría de tipo de datos (núcleos de células o medidas estructurales), el designador de asunto de las líneas de cel...

Divulgaciones

Los autores no tienen nada que revelar.

Agradecimientos

Este trabajo es apoyado por el Instituto Nacional del Corazón, los Pulmones y la Sangre de los Institutos Nacionales de Salud, número de concesión R01 HL129008. Los autores agradecen especialmente a los miembros de la familia de mutaciones del gen LMNA por su participación en el estudio. También nos gustaría agradecer a Linda McCarthy por su ayuda con el cultivo celular y el mantenimiento de los espacios de laboratorio, Nasam Chokr por su participación en imágenes celulares y el análisis de datos de núcleos, y Michael A. Grosberg por su consejo pertinente con la creación de nuestra base de datos inicial de Microsoft Access, así como la respuesta a otras preguntas técnicas.

Materiales

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

Referencias

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
. Learn SQL - Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
. SQL Tutorial - w3schools.com Available from: https://www.w3schools.com/sql (2018)
. Introduction to SQL - SQLBolt Available from: https://sqlbolt.com (2018)
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
. SQL Training and Tutorials - Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Bioingenier a N mero 153 datos de tama o medio bases de datos LMNA organizaci n de datos datos multidimensionales ingenier a de tejidos

This article has been published

Video Coming Soon

Keep me updated: