Os dados científicos tornaram-se cada vez mais complexos e ricos nas últimas duas décadas, mas os cientistas continuam a usar métodos de organização que não atendem mais às suas necessidades de dados em expansão. A principal vantagem de uma técnica descrita neste vídeo é que ele permite um banco de dados que fornece um rigoroso pipeline de dados e armazenamento, mantendo a flexibilidade para análise de dados. Para iniciar a avaliação do conjunto de dados de interesse, baixe os códigos de exemplo e bancos de dados mostrados nesta tabela.
Em seguida, use esta representação gráfica de um banco de dados multidimensional para avaliar se o conjunto de dados de interesse é de fato multidimensional. Os dados precisam atender a duas condições para se beneficiar da organização do banco de dados. Primeiro, os dados precisam ser capazes de serem visualizados de forma multidimensional.
E segundo, deve ganhar maior percepção científica por ser capaz de relacionar um desfecho experimental específico a qualquer uma das dimensões. Bancos de dados relacionais armazenam informações na forma de tabelas que são organizadas em linhas e colunas e podem ser usadas para vincular informações de identificação dentro do banco de dados. A multidimensionalidade é tratada relacionando diferentes campos, como colunas da tabela e tabelas individuais, entre si.
Primeiro, organize os arquivos de dados para que eles tenham nomes únicos bem pensados. Boas práticas com convenções de nomeação de arquivos e estruturas de pasta/subpastoram permitem uma ampla escalabilidade de banco de dados sem comprometer a legibilidade de acessar arquivos manualmente. Adicione arquivos datados em um formato consistente e subpastas de nome de acordo com metadados.
À medida que a estrutura do banco de dados é projetada, desenhar relações entre os campos em diferentes tabelas. Crie a documentação README que descreve o banco de dados e relacionamentos criados. Pode ser tanto gráfico como esta figura ou baseado em texto.
Uma vez que uma entrada entre diferentes tabelas esteja vinculada, todas as informações associadas estão relacionadas a essa entrada e podem ser usadas para chamar consultas complexas para filtrar até as informações desejadas. Faça o resultado final semelhante a este exemplo em que as diferentes características dos indivíduos estão relacionadas aos dados experimentais associados desses indivíduos. O mesmo foi feito através de colunas de tipos de padrões e tipos de dados para entradas correspondentes na tabela dataValues principal para explicar várias notações de taquigrafia.
Identifique todos os vários experimentos e métodos de análise de dados que podem levar à coleta de dados, juntamente com as práticas normais de armazenamento de dados para cada tipo de dados. Trabalhe com software de controle de versão de código aberto, como o GitHub, para garantir a consistência necessária e o controle de versão, minimizando a carga do usuário. Certifique-se de criar um procedimento para nomeação e armazenamento consistentes de dados para permitir um pipeline automatizado.
Use qualquer linguagem de programação conveniente para gerar novas entradas de dados para o banco de dados. Crie pequenas tabelas de ajuda em arquivos separados que podem orientar a seleção automatizada de dados. Esses arquivos servem como um modelo de possibilidades para o pipeline operar sob e são fáceis de editar.
Para gerar novas entradas de dados para o pipeline de dados, programe o código de forma semelhante ao exemplo aqui mostrado que é fornecido nos arquivos suplementares com este artigo. Isso permitirá que se use as tabelas de ajuda como entradas a serem selecionadas pelo usuário. A partir daqui, monte uma nova planilha de locais de arquivos combinando as novas entradas com as entradas anteriores.
O código aqui mostrado e fornecido nos arquivos suplementares pode ser usado para automatizar esse processo. Posteriormente, verifique a planilha mesclada para duplicatas usando o código aqui mostrado para automatizar esta etapa. Além disso, verifique a planilha se há erros usando um método automatizado e notifique o usuário de sua razão e localização.
Além disso, você pode escrever um código que irá verificar o banco de dados compilado e identificar quaisquer pontos de dados ruins ausentes. Remova manualmente pontos ruins sem perder a integridade do banco de dados usando código semelhante ao mostrado aqui. Repita essas etapas para adicionar mais pontos de dados.
Em seguida, use os locais de arquivo para gerar uma planilha de valor de dados. Além disso, crie uma lista atualizada de entradas que podem ser acessadas para identificar locais de arquivos ou mescladas com entradas futuras. Para iniciar a criação do banco de dados, crie primeiro um documento de banco de dados em branco para carregar a tabela de ajuda para as linhas de celular, tipos de dados e tipos de padrões.
Vá para o menu Dados Externos, selecione importação de arquivo de texto, clique em Procurar e selecione o arquivo desejado. No Assistente de Importação, selecione Delimitar e acerte o Next. Selecione Primeira linha contém nomes de campo e vírgula para o tipo de delimitador.
Depois de clicar em Next, selecione as opções de campo padrão e selecione Nenhuma tecla principal. Clique em Next e, em seguida, termine. Em seguida, carregue os dados e os tipos de padrões repetindo esses mesmos passos.
Em seguida, carregue a tabela de valor de dados. Vá para o menu Dados Externos, selecione importação de arquivo de texto, clique em Procurar e selecione o arquivo desejado. No Assistente de Importação, selecione Delimitar e acerte o Next.
Selecione Primeira linha contém nomes de campo e vírgula para o tipo de delimitador. Depois de clicar em Next, selecione as opções de campo padrão e selecione Deixar acessar adicionar a chave principal. Clique em Next e, em seguida, termine.
Agora crie os relacionamentos selecionando as ferramentas do banco de dados, indo para relacionamentos e arrastando todas as tabelas para o conselho. Em seguida, vá para Editar relacionamentos e selecione Criar novo. Selecione os nomes da tabela e da coluna e clique no Tipo Dessarmes que apontará para as tabelas de ajuda.
Depois que cada relacionamento desejado for configurado, vá para Criar e selecione Design de consulta e selecione ou arraste todas as tabelas relevantes para a janela superior. Neste exemplo, linhas de celular, valores de dados, tipos de dados e tipo de padrão são mostrados. Os relacionamentos devem ser configurados automaticamente com base no design de relacionamento anterior.
Agora, preencha as colunas de consulta para os resultados desejados. Para este conjunto de dados, vá mostrar e selecione Totais. Preencha a primeira coluna, a segunda coluna e a terceira coluna, como mostrado aqui.
Preencha a quarta coluna, a quinta coluna e a sexta coluna também. Quando terminar de preencher as colunas, salve e execute a consulta. Para esta amostra de dados experimentais, use a análise unidirecano de variância usando o teste de Tukey para comparações médias entre várias condições.
Quando dada uma infinidade de possíveis confirmações, pode ser difícil identificar onde novas relações existem usando métodos manuais de agregação de dados. Aqui, a organização de filamentos de actina subcelular em múltiplas condições foi medida utilizando-se o grau de ordem orientacional consultando o banco de dados em diferentes confirmações. Os conjuntos de dados anisotrópicos e isotrópicos mostram OOPs muito diferentes, o que era esperado, uma vez que a micropatterning fibronectina influencia fortemente a organização do tecido.
No entanto, não houve diferenças significativas entre as condições de status da mutação ao comparar tecidos isotrópicos. Por outro lado, os tecidos padrão foram estatisticamente menos organizados na linha celular de controle positivo. Essa relação se manteve mesmo quando os dados foram agregados por diferentes famílias versus controle positivo e negativo.
Se necessário, os dados podem ser analisados mais adiante. Como exemplo, aqui o OOP foi traçado contra a idade do indivíduo no momento da biópsia, separado pelo estado de mutação e família para ilustrar a agregação contra uma variável clínica. Com esse conjunto de dados, não há correlação entre organização actin e idade de um indivíduo.
Isso mostra como os mesmos dados podem ser analisados em diferentes combinações e quão facilmente a tarefa normalmente difícil de agregar dados que se enquadram em várias classes pode ser realizada usando bancos de dados. Este protocolo para criar um pipeline organizacional de dados e gerar um banco de dados fornece rigor científico que é absolutamente essencial nesta era de coleta de dados de grande volume.