Les données scientifiques sont devenues de plus en plus complexes et riches au cours des deux dernières décennies, mais les scientifiques continuent d’utiliser des méthodes d’organisation qui ne répondent plus à leurs besoins croissants en données. Le principal avantage d’une technique décrite dans cette vidéo est qu’elle permet une base de données qui donne un pipeline de données rigoureux et le stockage tout en conservant la flexibilité pour l’analyse des données. Pour commencer l’évaluation de l’ensemble de données d’intérêt, téléchargez les codes d’exemple et les bases de données indiqués dans ce tableau.
Ensuite, utilisez cette représentation graphique d’une base de données multidimensionnelle pour évaluer si l’ensemble de données d’intérêt est en effet multidimensionnel. Les données doivent répondre à deux conditions pour bénéficier de l’organisation de la base de données. Tout d’abord, les données doivent pouvoir être visualisées sous une forme multidimensionnelle.
Deuxièmement, il doit acquérir une meilleure connaissance scientifique en étant en mesure de relier un résultat expérimental spécifique à l’une des dimensions. Les bases de données relationnelles stockent des informations sous forme de tableaux organisés en lignes et colonnes et peuvent être utilisés pour relier les informations d’identification dans la base de données. La multidimensionnalité est gérée en relatant différents domaines, tels que les colonnes de la table et les tables individuelles, les uns aux autres.
Tout d’abord, organiser les fichiers de données afin qu’ils aient bien pensé, des noms uniques. Les bonnes pratiques avec les conventions de nommage de fichiers et les structures de dossiers/sous-fichiers permettent une grande évolutivité de base de données sans compromettre la lisibilité de l’accès manuel aux fichiers. Ajouter des fichiers datés dans un format cohérent et des sous-bandes de noms en fonction des métadonnées.
Au fur et à mesure que la structure de la base de données est conçue, établir des relations entre les champs dans différentes tables. Créez la documentation README qui décrit la base de données et les relations qui ont été créées. Il peut être à la fois graphique comme cette figure ou basé sur le texte.
Une fois qu’une entrée entre les différentes tables est liée, toutes les informations associées sont liées à cette entrée et peuvent être utilisées pour appeler des requêtes complexes pour filtrer vers le bas pour les informations souhaitées. Rendre le résultat final semblable à cet exemple où les caractéristiques différentes des individus sont liées aux données expérimentales associées de ces personnes. La même chose a été faite par le biais de colonnes relatives de types de motifs et de types de données à des entrées correspondantes dans le tableau principal DataValues pour expliquer diverses notations sténoriques.
Identifiez toutes les différentes expériences et méthodes d’analyse des données qui pourraient mener à la collecte de données, ainsi que les pratiques normales de stockage de données pour chaque type de données. Travaillez avec un logiciel de contrôle de version open source tel que GitHub pour assurer la cohérence et le contrôle de version nécessaires tout en minimisant le fardeau de l’utilisateur. Assurez-vous de créer une procédure de dénomination et de stockage cohérents des données pour permettre un pipeline automatisé.
Utilisez n’importe quel langage de programmation pratique pour générer de nouvelles entrées de données pour la base de données. Créez de petites tables d’aide dans des fichiers distincts qui peuvent guider la sélection automatisée des données. Ces fichiers servent de modèle de possibilités pour le pipeline de fonctionner sous et sont faciles à modifier.
Pour générer de nouvelles entrées de données pour le pipeline de données, programmez le code d’une manière similaire à l’exemple montré ici qui est fourni dans les fichiers supplémentaires avec cet article. Cela permettra d’utiliser les tables d’aide comme entrées à sélectionner par l’utilisateur. À partir de là, assemblez une nouvelle feuille de calcul des emplacements de fichiers en combinant les nouvelles entrées avec les entrées précédentes.
Le code affiché ici et fourni dans les fichiers supplémentaires peut être utilisé pour automatiser ce processus. Ensuite, vérifiez la feuille de calcul fusionnée pour les doublons en utilisant le code indiqué ici pour automatiser cette étape. En outre, vérifiez la feuille de calcul pour les erreurs à l’aide d’une méthode automatisée et informez l’utilisateur de sa raison et de son emplacement.
En outre, vous pouvez écrire un code qui vérifiera la base de données compilée et identifiera les points de données manquants mauvais. Supprimez manuellement les mauvais points sans perdre l’intégrité de la base de données en utilisant un code similaire à ce qui est montré ici. Répétez ces étapes afin d’ajouter plus de points de données.
Utilisez ensuite les emplacements des fichiers pour générer une feuille de calcul de valeur de données. En outre, créez une liste mise à jour des entrées qui peuvent être consultées pour identifier les emplacements des fichiers ou fusionnées avec les entrées futures. Pour commencer la création de bases de données, créez d’abord un document de base de données vierge pour charger la table d’aide pour les lignes cellulaires, les types de données et les types de motifs.
Allez au menu Données externes, sélectionnez l’importation de fichier texte, cliquez sur Parcourir, puis sélectionnez le fichier désiré. Dans l’assistant d’importation, sélectionnez Délimité et frappez Suivant. Sélectionnez Première ligne Contient des noms de champ et virgule pour le type de délimitation.
Après avoir cliqué sur Suivant, sélectionnez les options de champ par défaut, puis sélectionnez Pas de clé principale. Cliquez sur Suivant, puis Terminer. Ensuite, chargez les données et les types de motifs en répétant ces mêmes étapes.
Ensuite, chargez la table de valeur des données. Allez au menu Données externes, sélectionnez l’importation de fichier texte, cliquez sur Parcourir, puis sélectionnez le fichier désiré. Dans l’assistant d’importation, sélectionnez Délimité et frappez Suivant.
Sélectionnez Première ligne Contient des noms de champ et virgule pour le type de délimitation. Après avoir cliqué sur Suivant, sélectionnez les options de champ par défaut, puis sélectionnez Let Access ajouter la clé principale. Cliquez sur Suivant, puis Terminer.
Maintenant, créez les relations en sélectionnant les outils de base de données, en allant à Relations, et en faisant glisser toutes les tables au tableau. Ensuite, allez modifier les relations et sélectionnez Créer de nouvelles. Sélectionnez les noms de table et de colonne, puis cliquez sur le type de jointure qui indiquera les tables d’aide.
Une fois chaque relation désirée configurée, allez créer et sélectionnez Query Design et sélectionnez ou faites glisser toutes les tables pertinentes dans la fenêtre supérieure. Dans cet exemple, les lignes cellulaires, les valeurs de données, les types de données et le type de modèle sont affichés. Les relations doivent être automatiquement configuré en fonction de la conception précédente de la relation.
Maintenant, remplissez les colonnes de requête pour les résultats souhaités. Pour cet ensemble de données, allez afficher et sélectionnez Totaux. Remplissez la première colonne, la deuxième colonne et la troisième colonne comme indiqué ici.
Remplissez également la quatrième colonne, la cinquième colonne et la sixième colonne. Lorsque vous avez terminé de remplir les colonnes, enregistrez et exécutez la requête. Pour cet exemple de données expérimentales, utilisez l’analyse uni sensique de la variance à l’aide du test de Tukey pour des comparaisons moyennes entre différentes conditions.
Lorsqu’on leur donne une multitude de confirmations possibles, il peut être difficile d’identifier où de nouvelles relations existent en utilisant des méthodes manuelles d’agrégation de données. Ici, l’organisation des filaments subcellulaires d’actine à travers de multiples conditions ont été mesurées en utilisant le degré d’ordre d’orientation en interrogeant la base de données dans différentes confirmations. Les ensembles de données anisotropiques et isotropiques montrent des OPO très différents, ce qui était attendu puisque le micropatrin de fibronectine influence fortement l’organisation des tissus.
Cependant, il n’y avait aucune différence significative entre des conditions de statut de mutation en comparant des tissus isotropiques. Inversement, les tissus de modèle ont été statistiquement moins organisés dans la ligne positive de cellule de contrôle. Cette relation a eu lieu même lorsque les données ont été agrégées par différentes familles par rapport à un contrôle positif et négatif.
Si nécessaire, les données peuvent être analyses plus avant. À titre d’exemple, ici actin OOP a été tracé contre l’âge de l’individu au moment de la biopsie, séparé par le statut de mutation et la famille pour illustrer l’agrégation contre une variable clinique. Avec cet ensemble de données, il n’y a pas de corrélation entre l’organisation actine et l’âge d’une personne.
Cela montre comment les mêmes données peuvent être analysées dans différentes combinaisons et à quel point la tâche normalement difficile d’agrégation des données qui relève de plusieurs classes peut être accomplie à l’aide de bases de données. Ce protocole visant à créer un pipeline organisationnel de données et à générer une base de données fournit une rigueur scientifique absolument essentielle en cette ère de collecte de données à grand volume.