I dati scientifici sono diventati sempre più complessi e ricchi negli ultimi due decenni, eppure gli scienziati continuano a utilizzare metodi di organizzazione che non soddisfano più le loro esigenze di dati in espansione. Il vantaggio principale di una tecnica descritta in questo video è che consente un database che offre una pipeline e un archivio dati rigorosi mantenendo al contempo la flessibilità per l'analisi dei dati. Per iniziare la valutazione del set di dati di interesse, scaricare i codici di esempio e i database mostrati in questa tabella.
Utilizzare quindi questa rappresentazione grafica di un database multidimensionale per valutare se il set di dati di interesse è effettivamente multidimensionale. I dati devono soddisfare due condizioni per trarre vantaggio dall'organizzazione del database. Innanzitutto, i dati devono essere in grado di essere visualizzati in una forma multidimensionale.
E in secondo luogo, deve acquisire una maggiore comprensione scientifica essendo in grado di mettere in relazione uno specifico risultato sperimentale con una qualsiasi delle dimensioni. I database relazionali memorizzano le informazioni sotto forma di tabelle organizzate in righe e colonne e possono essere utilizzate per collegare le informazioni identificative all'interno del database. La multidimensionalità viene gestita relazionando tra loro campi diversi, ad esempio le colonne della tabella e le singole tabelle.
Innanzitutto, organizza i file di dati in modo che abbiano nomi ben pensati e univoci. Le buone pratiche con le convenzioni di denominazione dei file e le strutture di cartelle/sottocartelle consentono un'ampia scalabilità del database senza compromettere la leggibilità dell'accesso manuale ai file. Aggiungere file datati in un formato coerente e assegnare nomi alle sottocartelle in base ai metadati.
Man mano che la struttura del database è progettata, disegnare relazioni tra i campi in tabelle diverse. Creare la documentazione di README che descrive il database e le relazioni create. Può essere sia grafico come questa figura che basato su testo.
Una volta collegata una voce tra tabelle diverse, tutte le informazioni associate sono correlate a tale voce e possono essere utilizzate per chiamare query complesse per filtrare le informazioni desiderate. Rendere il risultato finale simile a questo esempio in cui le diverse caratteristiche degli individui sono correlate ai dati sperimentali associati di tali individui. Lo stesso è stato fatto attraverso la relazione di colonne di tipi di pattern e tipi di dati con voci corrispondenti nella tabella DataValues principale per spiegare varie notazioni stenografiche.
Identificare tutti i vari esperimenti e metodi di analisi dei dati che potrebbero portare alla raccolta dei dati, insieme alle normali pratiche di archiviazione dei dati per ogni tipo di dati. Lavora con software di controllo della versione open source come GitHub per garantire la coerenza e il controllo della versione necessari riducendo al minimo il carico degli utenti. Assicurarsi di creare una procedura per la denominazione e l'archiviazione coerenti dei dati per consentire una pipeline automatizzata.
Utilizzare qualsiasi comodo linguaggio di programmazione per generare nuove voci di dati per il database. Creare tabelle di supporto di piccole dimensioni in file separati in grado di guidare la selezione automatica dei dati. Questi file fungono da modello di possibilità per la pipeline di operare sotto e sono facili da modificare.
Per generare nuove voci di dati per la pipeline di dati, programmare il codice in modo simile all'esempio mostrato qui fornito nei file supplementari con questo articolo. Ciò consentirà di utilizzare le tabelle di helper come input che devono essere selezionati dall'utente. Da qui, assemblare un nuovo foglio di calcolo delle posizioni dei file combinando le nuove voci con le voci precedenti.
Il codice mostrato qui e fornito nei file supplementari può essere utilizzato per automatizzare questo processo. Successivamente, controllare la presenza di duplicati nel foglio di calcolo unito utilizzando il codice mostrato qui per automatizzare questo passaggio. Inoltre, controlla la presenza di errori nel foglio di calcolo utilizzando un metodo automatizzato e notifica all'utente il motivo e la posizione.
Inoltre, è possibile scrivere un codice che controllerà il database compilato e identificherà eventuali punti dati mancanti. Rimuovere manualmente i punti negativi senza perdere l'integrità del database utilizzando codice simile a quello mostrato qui. Ripetere questi passaggi per aggiungere altri punti dati.
Quindi utilizzare i percorsi dei file per generare un foglio di calcolo del valore dei dati. Creare inoltre un elenco aggiornato di voci a cui è possibile accedere per identificare i percorsi dei file o unite a voci future. Per iniziare la creazione del database, creare innanzitutto un documento di database vuoto per caricare la tabella di assistenza per le righe di cella, i tipi di dati e i tipi di serie.
Passare al menu Dati esterni, selezionare Importazione file di testo, fare clic su Sfoglia e quindi selezionare il file desiderato. Nell'Importazione guidata selezionare Delimitato e premere Avanti. Selezionare Prima riga Contiene nomi di campo e virgola per il tipo di delimitatore.
Dopo aver fatto clic su Avanti, selezionare le opzioni predefinite del campo e quindi nessuna chiave primaria. Fare clic su Avanti e quindi su Fine. Quindi, caricare i tipi di dati e modelli ripetendo questi stessi passaggi.
Caricare quindi la tabella dei valori dei dati. Passare al menu Dati esterni, selezionare Importazione file di testo, fare clic su Sfoglia e quindi selezionare il file desiderato. Nell'Importazione guidata selezionare Delimitato e premere Avanti.
Selezionare Prima riga Contiene nomi di campo e virgola per il tipo di delimitatore. Dopo aver fatto clic su Avanti, selezionare le opzioni predefinite dei campi e quindi selezionare Lascia che Access aggiudi la chiave primaria. Fare clic su Avanti e quindi su Fine.
A questo punto creare le relazioni selezionando gli strumenti di database, andando a Relazioni e trascinando tutte le tabelle sulla bacheca. Quindi passare a Modifica relazioni e selezionare Crea nuovo. Selezionare i nomi delle tabelle e delle colonne e quindi fare clic sul tipo di join che farà riferimento alle tabelle degli helper.
Dopo aver impostato ogni relazione desiderata, passare a Crea e selezionare Progettazione query e selezionare o trascinare tutte le tabelle pertinenti nella finestra superiore. In questo esempio vengono visualizzate le righe di cella, i valori dei dati, i tipi di dati e il tipo di serie. Le relazioni devono essere impostate automaticamente in base alla progettazione della relazione precedente.
A questo ora, compilare le colonne di query per i risultati desiderati. Per questo set di dati, vedere mostrare e selezionare Totali. Compilare la prima colonna, la seconda colonna e la terza colonna, come illustrato di seguito.
Compilare anche la quarta colonna, la quinta colonna e la sesta colonna. Al termine della compilazione delle colonne, salvare ed eseguire la query. Per questi dati sperimentali di esempio, utilizzare l'analisi uni-way della varianza usando il test di Tukey per confronti meschino tra varie condizioni.
Quando vengono fornite una moltitudine di possibili conferme, può essere difficile identificare dove esistono nuove relazioni utilizzando metodi manuali di aggregazione dei dati. Qui, l'organizzazione dei filamenti di actina subcellulare in più condizioni è stata misurata usando il grado di ordine orientativa interrogando il database in diverse conferme. I set di dati anisotropici e isotropi mostrano OOP molto diversi, che ci si aspettava dal micropatterning della fibronectina influenza fortemente l'organizzazione dei tessuti.
Tuttavia, non ci sono state differenze significative tra le condizioni di stato della mutazione quando si confrontano i tessuti isotropi. Al contrario, i tessuti modello erano statisticamente meno organizzati nella linea cellulare di controllo positivo. Questa relazione si è tenuta anche quando i dati sono stati aggregati da diverse famiglie rispetto al controllo positivo e negativo.
Se necessario, i dati possono essere ulteriormente analizzati. Ad esempio, qui actin OOP è stato tracciato contro l'età dell'individuo al momento della biopsia, separato dallo stato di mutazione e dalla famiglia per illustrare l'aggregazione contro una variabile clinica. Con questo set di dati, non esiste alcuna correlazione tra l'organizzazione actin e l'età di un individuo.
Questo mostra come gli stessi dati possono essere analizzati in diverse combinazioni e la facilità con cui il compito normalmente difficile di aggregare i dati che rientrano in più classi può essere svolto utilizzando i database. Questo protocollo per creare una pipeline organizzativa di dati e generare un database fornisce rigore scientifico assolutamente essenziale in questa era di raccolta di dati di grandi volumi.