É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
Muitos pesquisadores geram dados "de tamanho médio", de baixa velocidade e multidimensionais, que podem ser gerenciados de forma mais eficiente com bancos de dados em vez de planilhas. Aqui fornecemos uma visão conceitual dos bancos de dados, incluindo a visualização de dados multidimensionais, a vinculação de tabelas em estruturas de banco de dados relacionais, o mapeamento de pipelines de dados semiautomatizados e o uso do banco de dados para elucidar o significado dos dados.
A ciência depende de conjuntos de dados cada vez mais complexos para o progresso, mas os métodos comuns de gerenciamento de dados, como programas de planilhas, são inadequados para a crescente escala e complexidade dessas informações. Embora os sistemas de gerenciamento de banco de dados tenham o potencial de corrigir esses problemas, eles não são comumente utilizados fora dos campos de negócios e informática. No entanto, muitos laboratórios de pesquisa já geram dados multidimensionais de "tamanho médio", de baixa velocidade que poderiam se beneficiar muito da implementação de sistemas semelhantes. Neste artigo, fornecemos uma visão conceitual explicando como os bancos de dados funcionam e as vantagens que eles fornecem em aplicações de engenharia de tecidos. Os dados estruturais do fibroblasto dos indivíduos com uma mutação do Laminado A/C foram usados para ilustrar exemplos dentro de um contexto experimental específico. Exemplos incluem visualizar dados multidimensionais, vincular tabelas em uma estrutura de banco de dados relacional, mapear um pipeline de dados semiautomatizado para converter dados brutos em formatos estruturados e explicar a sintaxe subjacente de uma consulta. Os resultados da análise dos dados foram usados para criar parcelas de vários arranjos e significado foi demonstrado na organização celular em ambientes alinhados entre o controle positivo da progeria Hutchinson-Gilford, uma laminopatia bem conhecida, e todos os outros grupos experimentais. Em comparação com planilhas, os métodos de banco de dados foram extremamente eficientes em termos de tempo, simples de usar uma vez configurados, permitidos para acesso imediato aos locais de arquivos originais e maior rigor de dados. Em resposta à ênfase dos Institutos Nacionais de Saúde (NIH) no rigor experimental, é provável que muitos campos científicos adotem eventualmente bases de dados como prática comum devido à sua forte capacidade de organizar eficazmente dados complexos.
Em uma época em que o progresso científico é fortemente impulsionado pela tecnologia, lidar com grandes quantidades de dados tornou-se uma faceta integrante da pesquisa em todas as disciplinas. O surgimento de novos campos, como biologia computacional e genômica, ressalta a crítica a utilização proativa da tecnologia. Estas tendências são certas continuar devido à lei de Moore e ao progresso constante ganhado dos avanços tecnológicos1,2. Uma consequência, no entanto, é o aumento das quantidades de dados gerados que excedem as capacidades dos métodos de organização anteriormente viáveis. Embora a maioria dos laboratórios acadêmicos tenha recursos computacionais suficientes para lidar com conjuntos de dados complexos, muitos grupos não possuem a experiência técnica necessária para construir sistemas personalizados adequados para o desenvolvimento de necessidades3. Ter as habilidades para gerenciar e atualizar esses conjuntos de dados continua a ser fundamental para um fluxo de trabalho e saída eficientes. Preencher a lacuna entre dados e conhecimentos é importante para lidar, reatualizar e analisar de forma eficiente um amplo espectro de dados multifacetados.
A escalabilidade é uma consideração essencial ao lidar com grandes conjuntos de dados. Big data, por exemplo, é uma área florescente de pesquisa que envolve a revelação de novos insights de processamento de dados caracterizados por grandes volumes, grande heterogeneidade e altas taxas de geração, como áudio e vídeo4,5. O uso de métodos automatizados de organização e análise é obrigatório para que esse campo manuseie adequadamente torrentes de dados. Muitos termos técnicos usados em big data não são claramente definidos, no entanto, e podem ser confusos; por exemplo, os dados de "alta velocidade" são frequentemente associados a milhões de novas entradas por dia, enquanto os dados de "baixa velocidade" podem ser apenas centenas de entradas por dia, como em um ambiente de laboratório acadêmico. Embora existam muitas descobertas interessantes ainda a serem descobertas usando big data, a maioria dos laboratórios acadêmicos não requer o escopo, o poder e a complexidade de tais métodos para abordar suas próprias questões científicas5. Embora seja inquestionável que os dados científicos se aumentem cada vez mais complexos com o tempo6,muitos cientistas continuam a usar métodos de organização que não atendem mais às suas necessidades de dados em expansão. Por exemplo, programas convenientes de planilhas são frequentemente usados para organizar dados científicos, mas à custa de serem incaláveis, propensos a erros e ineficientes de tempo a longo prazo7,8. Por outro lado, os bancos de dados são uma solução eficaz para o problema, pois são escaláveis, relativamente baratos e fáceis de usar no manuseio de conjuntos de dados variados de projetos em andamento.
Preocupações imediatas que surgem quando se considera schemas da organização de dados são custo, acessibilidade e investimento de tempo para treinamento e uso. Frequentemente usados em configurações de negócios, os programas de banco de dados são mais econômicos, sendo relativamente baratos ou gratuitos, do que o financiamento necessário para suportar o uso de sistemas de big data. Na verdade, existe uma variedade de software de código aberto e comercialmente disponível para a criação e manutenção de bancos de dados, como Oracle Database, MySQL e Microsoft (MS) Access9. Muitos investigadores também seriam encorajados a saber que vários pacotes académicos do MS Office vêm com o MS Access incluído, minimizando ainda mais as considerações de custos. Além disso, quase todos os desenvolvedores fornecem documentação extensa on-line e há uma infinidade de recursos on-line gratuitos, como Codecademy, W3Schools e SQLBolt para ajudar os pesquisadores a entender e utilizar linguagem consultada estruturada (SQL)10,11,12. Como qualquer linguagem de programação, aprender a usar bancos de dados e código usando SQL leva tempo para dominar, mas com os amplos recursos disponíveis, o processo é simples e vale a pena o esforço investido.
Os bancos de dados podem ser ferramentas poderosas para aumentar a acessibilidade de dados e a facilidade de agregação, mas é importante discernir quais dados mais se beneficiariam de um maior controle da organização. Multidimensionalidade refere-se ao número de condições que uma medição pode ser agrupada contra, e bancos de dados são mais poderosos ao gerenciar muitas condições diferentes13. Por outro lado, a informação com baixa dimensionalidade é mais simples de lidar com o uso de um programa de planilha; por exemplo, um conjunto de dados contendo anos e um valor para cada ano tem apenas um possível agrupamento (medições contra anos). Dados de alta dimensão, como de configurações clínicas, exigiriam um grande grau de organização manual para manter efetivamente, um processo tedioso e propenso a erros além do escopo dos programas de planilha13. Os bancos de dados não relacionais (NoSQL) também cumprem uma variedade de funções, principalmente em aplicativos onde os dados não se organizam bem em linhas e colunas14. Além de serem frequentemente de código aberto, esses esquemas organizacionais incluem associações gráficas, dados de séries de tempo ou dados baseados em documentos. NoSQL se destaca em escalabilidade melhor do que SQL, mas não pode criar consultas complexas, de modo bancos de dados relacionais são melhores em situações que exigem consistência, padronização e dados em larga escala pouco frequentes muda15. Os bancos de dados são os melhores em agrupar e reatualizar efetivamente os dados para a grande variedade de conformações muitas vezes necessárias em ambientes científicos13,16.
A principal intenção deste trabalho, portanto, é informar a comunidade científica sobre o potencial dos bancos de dados como sistemas escaláveis de gerenciamento de dados para dados de "tamanho médio", de baixa velocidade, bem como fornecer um modelo geral usando exemplos específicos de experimentos de linha celular de origem do paciente. Outras aplicações semelhantes incluem dados geoespaciais de leitos de rios, questionários de estudos clínicos longitudinais e condições de crescimento microbiana na mídia de crescimento17,18,19. Este trabalho destaca considerações comuns e utilidade da construção de um banco de dados juntamente com um pipeline de dados necessário para converter dados brutos em formatos estruturados. Os conceitos básicos de interfaces de banco de dados e codificação para bancos de dados em SQL são fornecidos e ilustrados com exemplos para permitir que outros obtenham o conhecimento aplicável à construção de estruturas básicas. Finalmente, um conjunto de dados experimentais de amostra demonstra a facilidade e eficácia dos bancos de dados para agregar dados multifacetados de várias maneiras. Essas informações fornecem contexto, comentários e modelos para ajudar colegas cientistas no caminho para a implementação de bancos de dados para suas próprias necessidades experimentais.
Para fins de criação de um banco de dados escalável em um ambiente de laboratório de pesquisa, dados de experimentos usando células fibroblastos humanas foram coletados nos últimos três anos. O foco principal deste protocolo é informar sobre a organização do software de computador para permitir que o usuário agregue, atualize e gerencie dados da maneira mais econômica e eficiente quanto ao tempo possível, mas os métodos experimentais relevantes também são fornecidos para Contexto.
Configuração experimental
O protocolo experimental para a preparação de amostras foi descrito anteriormente20,21,e é apresentado brevemente aqui. As construções foram preparadas por revestimentos retangulares de revestimento giratório com uma mistura 10:1 de polidimitilsiloxano (PDMS) e agente de cura, aplicando então 0,05 mg/mL fibronectina, em linhas desorganizadas (isotrópicas) ou 20 μm com arranjos micropadronizados de 5 μm gap (linhas). As células fibroblastas foram semeadas na passagem 7 (ou passagem 16 para controles positivos) para os lábios em densidades ideais e deixadas para crescer por 48 h, com a mídia sendo alterada após 24 h. As células foram então fixadas usando a solução de paraformaldeído (PFA) de 4% e surfactante nonionic de 0,0005%, seguida dos lábios sendo imunossmanizadas para núcleos celulares (4',6'-diaminodino-2-fenilodole [DAPI]), actina (Alexa Fluor 488 phalloidin) e fibronecina (fibronecina policlonco-humano). Uma mancha secundária para fibronectina usando anticorpos IgG anti-coelho de cabra (Alexa Fluor 750 cabra anti-coelho) foi aplicada e agente de preservação foi montado em todos os coverslips para evitar o desbotamento fluorescente. Esmalte foi usado para selar coverslips em lâminas de microscópio, em seguida, deixou para secar por 24 h.
As imagens de fluorescência foram obtidas conforme descrito anteriormente20 usando um objetivo de imersão de óleo 40x juntamente com uma câmera de dispositivo acoplado à carga digital (CCD) montada em um microscópio motorizado invertido. Dez campos de visão selecionados aleatoriamente foram visualizados para cada deslizamento de cobertura em ampliação 40x, correspondendo a uma resolução de 6,22 pixels/μm. Códigos personalizados foram usados para quantificar diferentes variáveis das imagens que descrevem os núcleos, filamentos de actina e fibronectina; Os valores correspondentes, bem como os parâmetros de organização e geometria, foram automaticamente salvos em arquivos de dados.
Linhas celulares
Documentação mais extensa em todas as linhas de células de dados de amostra pode ser encontrada em publicações anteriores20. Para descrever brevemente, a coleta de dados foi aprovada e o consentimento informado foi realizado de acordo com o Conselho de Revisão Institucional da UC Irvine (IRB # 2014-1253). Células fibroblastas humanas foram coletadas de três famílias de diferentes variações da mutação genética lamina A/C (LMNA),mutação do sítio de emenda lmna heterozigêutica LMNA (c.357-2A>G)22 (família A); Mutação sem sentido LMNA (c.736 C>T, pQ246X) em exon 423 (família B); e mutação insensata LMNA (c.1003C>T, pR335W) em exon 624 (família C). As células fibroblastos também foram coletadas de outros indivíduos em cada família como controles relacionados de mutação negativa, referidos como "Controles", e outros foram comprados como controles negativos de mutação não relacionados, referidos como "Doadores". Como um controle positivo, as pilhas do fibroblasto de um indivíduo com progeria de Hutchinson-Gliford (HGPS) foram compradas e crescidas de uma biópsia da pele tomada de um paciente fêmea dos anos de idade 8 com HGPS que possui uma mutação25do ponto de LMNA G608G. No total, os fibroblastos de 22 indivíduos foram testados e utilizados como dados neste trabalho.
Tipos de dados
Os dados do fibroblasto caíram em uma das duas categorias: variáveis de núcleos celulares (ou seja, percentual de núcleos dismórficos, área de núcleos, excentricidade de núcleos)20 ou variáveis estruturais decorrentes do parâmetro de ordem orientacional (OOP)21,26,27 (ou seja, actino, fibronectina OOP, núcleos OOP). Este parâmetro é igual ao eigenvalue máximo do tensor médio da ordem de todos os vetores da orientação, e é definido em detalhe em publicações precedentes26,28. Esses valores são agregados em uma variedade de possíveis conformações, como valores contra idade, sexo, estado da doença, presença de certos sintomas, etc. Exemplos de como essas variáveis são usadas podem ser encontrados na seção de resultados.
Exemplo de códigos e arquivos
Os códigos de exemplo e outros arquivos com base nos dados acima podem ser baixados com este papel, e seus nomes e tipos são resumidos na Tabela 1.
NOTA: Veja a tabela de materiais para as versões de software usadas neste protocolo.
1. Avaliar se os dados se beneficiariam de um esquema de organização de banco de dados
2. Organizar a estrutura do banco de dados
NOTA: Bancos de dados relacionais armazenam informações na forma de tabelas. As tabelas são organizadas em esquemas de linhas e colunas, semelhantes às planilhas, e podem ser usadas para vincular informações de identificação no banco de dados.
3. Configurar e organizar o gasoduto
4. Criar o banco de dados e consultas
NOTA: Se as tabelas armazenam informações em bancos de dados, então as consultas são solicitações ao banco de dados para obter informações dadas critérios específicos. Existem dois métodos para criar o banco de dados: a partir de um documento em branco ou a partir dos arquivos existentes. A figura 4 mostra uma consulta de exemplo usando a sintaxe SQL que é projetada para ser executada usando as relações de banco de dados mostradas na Figura 2.
5. Mova as tabelas de saída para um software estatístico para análise de significância
Multidimensionalidade dos dados
No contexto do exemplo de conjunto de dados apresentado aqui, os sujeitos, descritos na seção Métodos, foram divididos em grupos de indivíduos das três famílias com a mutação lmna causador de doençacardíaca ("Pacientes"), controles negativos não mutacionais relacionados ("Controles), controles negativos não-mutações não relacionados ("Doadores"), e um indivíduo com síndrome de progeria Hutchinson-Gilford (HGPS) como um controle positivo
Discussão técnica do protocolo
O primeiro passo ao considerar o uso de bancos de dados é avaliar se os dados se beneficiariam de tal organização.
O próximo passo essencial é criar um código automatizado que peça a entrada mínima do usuário e gere a estrutura de dados da tabela. No exemplo, o usuário entrou na categoria de tipo de dados (núcleos celulares ou medidas estruturais), designador de sujeitos das linhas celulares e número de arquivos selecionados. Os ...
Os autores não têm nada a divulgar.
Este trabalho é apoiado pelo National Heart, Lung, and Blood Institute no National Institutes of Health, número de subvenção R01 HL129008. Os autores agradecer especialmente os membros da família mutação do gene LMNA por sua participação no estudo. Também gostaríamos de agradecer a Linda McCarthy por sua ajuda com a cultura celular e manutenção dos espaços de laboratório, Nasam Chokr por sua participação em imagens celulares e na análise de dados de núcleos, e Michael A. Grosberg por seu conselho pertinente com a criação de nosso banco de dados inicial do Microsoft Access, bem como responder a outras questões técnicas.
Name | Company | Catalog Number | Comments |
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados