Los datos científicos se han vuelto cada vez más complejos y ricos en las últimas dos décadas, pero los científicos siguen utilizando métodos de organización que ya no satisfacen sus necesidades de datos en expansión. La principal ventaja de una técnica descrita en este vídeo es que permite una base de datos que proporciona una canalización de datos y almacenamiento rigurosos, al tiempo que mantiene la flexibilidad para el análisis de datos. Para comenzar la evaluación del conjunto de datos de interés, descargue los códigos de ejemplo y las bases de datos que se muestran en esta tabla.
A continuación, utilice esta representación gráfica de una base de datos multidimensional para evaluar si el conjunto de datos de interés es realmente multidimensional. Los datos deben cumplir dos condiciones para beneficiarse de la organización de la base de datos. En primer lugar, los datos deben poder visualizarse de forma multidimensional.
Y en segundo lugar, debe obtener una mayor visión científica al ser capaz de relacionar un resultado experimental específico con cualquiera de las dimensiones. Las bases de datos relacionales almacenan información en forma de tablas que están organizadas en filas y columnas y se pueden utilizar para vincular información de identificación dentro de la base de datos. La multidimensionalidad se controla relacionando diferentes campos, como las columnas de la tabla y las tablas individuales, entre sí.
En primer lugar, organizar los archivos de datos para que tengan bien pensado, nombres únicos. Las buenas prácticas con convenciones de nomenclatura de archivos y estructuras de carpetas y subcarpetas permiten una amplia escalabilidad de la base de datos sin comprometer la legibilidad de acceder a los archivos manualmente. Agregue archivos con fecha en un formato coherente y asigne un nombre a las subcarpetas según los metadatos.
A medida que se diseña la estructura de la base de datos, dibuje relaciones entre los campos de diferentes tablas. Cree documentación README que describa la base de datos y las relaciones que se crearon. Puede ser tanto gráfico como esta figura o basado en texto.
Una vez vinculada una entrada entre tablas diferentes, toda la información asociada está relacionada con esa entrada y se puede usar para llamar a consultas complejas para filtrar a la información deseada. Haga que el resultado final sea similar a este ejemplo donde las diferentes características de los individuos están relacionadas con los datos experimentales asociados de esos individuos. Lo mismo se hizo a través de la relación de columnas de tipos de patrón y tipos de datos con entradas coincidentes en la tabla Principal de Valores de datos para explicar varias notaciones abreviadas.
Identifique todos los diversos experimentos y métodos de análisis de datos que podrían dar lugar a la recopilación de datos, junto con las prácticas normales de almacenamiento de datos para cada tipo de datos. Trabaje con software de control de versiones de código abierto, como GitHub, para garantizar la coherencia y el control de versiones necesarios, al tiempo que se minimiza la carga del usuario. Asegúrese de crear un procedimiento para asignar y almacenar datos de forma coherente para permitir una canalización automatizada.
Utilice cualquier lenguaje de programación conveniente para generar nuevas entradas de datos para la base de datos. Cree pequeñas tablas auxiliares en archivos independientes que puedan guiar la selección automatizada de datos. Estos archivos sirven como una plantilla de posibilidades para que la canalización funcione bajo y son fáciles de editar.
Para generar nuevas entradas de datos para la canalización de datos, programe el código de forma similar al ejemplo que se muestra aquí que se proporciona en los archivos suplementarios con este artículo. Esto permitirá utilizar las tablas auxiliares como entradas que el usuario seleccionará. Desde aquí, ensamble una nueva hoja de cálculo de ubicaciones de archivos combinando las nuevas entradas con las entradas anteriores.
El código que se muestra aquí y se proporciona en los archivos suplementarios se puede utilizar para automatizar este proceso. Después, compruebe la hoja de cálculo combinada en busca de duplicados utilizando el código que se muestra aquí para automatizar este paso. Además, compruebe si hay errores en la hoja de cálculo utilizando un método automatizado y notifique al usuario su razón y ubicación.
Además, puede escribir un código que compruebe la base de datos compilada e identificará los puntos de datos incorrectos que faltan. Elimine manualmente los puntos incorrectos sin perder la integridad de la base de datos mediante código similar al que se muestra aquí. Relance estos pasos para agregar más puntos de datos.
A continuación, utilice las ubicaciones de archivo para generar una hoja de cálculo de valores de datos. Además, cree una lista actualizada de entradas a las que se pueda acceder para identificar ubicaciones de archivos o combinadas con entradas futuras. Para comenzar la creación de la base de datos, primero cree un documento de base de datos en blanco para cargar la tabla auxiliar para las líneas de celda, los tipos de datos y los tipos de patrón.
Vaya al menú Datos externos, seleccione Importación de archivos de texto, haga clic en Examinar y, a continuación, seleccione el archivo deseado. En el Asistente para importación, seleccione Delimitado y pulse Siguiente. Seleccione Primera fila Contiene nombres de campo y coma para el tipo de delimitador.
Después de hacer clic en Siguiente, seleccione las opciones de campo predeterminadas y, a continuación, seleccione Sin clave principal. Haga clic en Siguiente y, a continuación, en Finalizar. A continuación, cargue los tipos de datos y patrones repitiendo estos mismos pasos.
A continuación, cargue la tabla de valores de datos. Vaya al menú Datos externos, seleccione Importación de archivos de texto, haga clic en Examinar y, a continuación, seleccione el archivo deseado. En el Asistente para importación, seleccione Delimitado y pulse Siguiente.
Seleccione Primera fila Contiene nombres de campo y coma para el tipo de delimitador. Después de hacer clic en Siguiente, seleccione las opciones de campo predeterminadas y, a continuación, seleccione Permitir que Access agregue clave principal. Haga clic en Siguiente y, a continuación, en Finalizar.
Ahora cree las relaciones seleccionando las herramientas de base de datos, yendo a Relaciones y arrastrando todas las tablas al tablero. A continuación, vaya a Editar relaciones y seleccione Crear nuevo. Seleccione los nombres de tabla y columna y, a continuación, haga clic en el tipo de unión que apuntará a las tablas auxiliares.
Después de configurar cada relación deseada, vaya a Crear y seleccione Diseño de consulta y seleccione o arrastre todas las tablas relevantes a la ventana superior. En este ejemplo, se muestran las líneas de celda, los valores de datos, los tipos de datos y el tipo de patrón. Las relaciones deben configurarse automáticamente en función del diseño de relación anterior.
Ahora, rellene las columnas de consulta para obtener los resultados deseados. Para este conjunto de datos, vaya a Mostrar y seleccione Totales. Rellene la primera columna, la segunda columna y la tercera columna como se muestra aquí.
Rellene la cuarta columna, la quinta columna y la sexta columna también. Cuando haya terminado de rellenar las columnas, guarde y ejecute la consulta. Para este ejemplo de datos experimentales, utilice el análisis unidireccional de la varianza utilizando la prueba de Tukey para las comparaciones medias entre varias condiciones.
Cuando se le da una multitud de posibles confirmaciones, puede ser difícil identificar dónde existen relaciones novedosas mediante métodos de agregación de datos manuales. Aquí, la organización de filamentos de actina subcelulares en múltiples condiciones se midió utilizando el grado de orden orientativo consultando la base de datos en diferentes confirmaciones. Los conjuntos de datos anisotrópicos e isotrópicos muestran OOP muy diferentes, lo que se esperaba ya que la micropatrería de fibronectina influye fuertemente en la organización del tejido.
Sin embargo, no hubo diferencias significativas entre las condiciones de estado de mutación al comparar los tejidos isotrópicos. Por el contrario, los tejidos del patrón estaban estadísticamente menos organizados en la línea celular de control positivo. Esta relación se mantuvo incluso cuando los datos fueron agregados por diferentes familias frente a un control positivo y negativo.
Si es necesario, los datos se pueden analizar más. Por ejemplo, aquí actin OOP se antispiró contra la edad del individuo en el momento de la biopsia, separados por estado de mutación y familia para ilustrar la agregación contra una variable clínica. Con este conjunto de datos, no hay correlación entre la organización actin y la edad de un individuo.
Esto muestra cómo se pueden analizar los mismos datos en diferentes combinaciones y la facilidad con la que normalmente difícil tarea de agregar datos que se encuentran en varias clases se puede realizar mediante bases de datos. Este protocolo para crear una canalización organizativa de datos y generar una base de datos proporciona un rigor científico que es absolutamente esencial en esta era de recopilación de datos de gran volumen.