在过去的几十年里,科学数据变得越来越复杂和丰富,然而科学家继续使用不再满足其不断扩大的数据需求的组织方法。本视频中描述的技术的主要优点是,它允许数据库提供严格的数据管道和存储,同时保持数据分析的灵活性。要开始评估感兴趣的数据集,请下载此表中显示的示例代码和数据库。
接下来,使用此多维数据库的图形表示来评估感兴趣的数据集是否确实是多维数据集。数据需要满足两个条件才能从数据库组织中受益。首先,数据需要能够以多维形式可视化。
其次,它必须通过能够将特定的实验结果与任何维度联系起来来获得更大的科学洞察力。关系数据库以按行和列组织的表的形式存储信息,可用于链接数据库中的标识信息。多维性通过将不同的字段(如表的列和单个表)相互关联来处理。
首先,组织数据文件,以便它们有深思熟虑,唯一的名称。使用文件命名约定和文件夹/子文件夹结构的良好做法允许广泛的数据库可伸缩性,同时不影响手动访问文件的可读性。添加格式一致的过时文件,并根据元数据命名子文件夹。
在设计数据库结构时,绘制不同表中的字段之间的关系。创建描述数据库和创建的关系的 README 文档。它可以是图形,如这个数字或基于文本。
链接不同表之间的条目后,所有相关信息都与该条目相关,并可用于调用复杂查询以筛选到所需的信息。使最终结果类似于此示例,其中个人的不同特征与这些个体的相关实验数据相关。通过将模式类型和数据类型的列与主 DataValues 表中的匹配条目关联,以解释各种速记符号,也完成了相同的操作。
确定可能导致数据收集的所有各种实验和数据分析方法,以及每种数据类型的正常数据存储实践。使用开源版本控制软件(如 GitHub)以确保必要的一致性和版本控制,同时最大限度地减轻用户负担。请确保创建一个过程,以便一致地命名和存储数据,以允许自动管道。
使用任何方便的编程语言为数据库生成新的数据条目。在单独的文件中创建小型帮助器表,以指导数据的自动选择。这些文件作为管道在下运行的可能性的模板,并且易于编辑。
若要为数据管道生成新的数据条目,请以与本文的补充文件中提供的示例类似的方式对代码进行编程。这将允许使用帮助器表作为用户要选择的输入。从这里,通过将新条目与以前的条目组合在一起,组装文件位置的新电子表格。
此处显示和在补充文件中提供的代码可用于自动执行此过程。之后,使用此处显示的代码检查合并的电子表格中有没有重复项,以自动执行此步骤。此外,使用自动方法检查电子表格中的错误,并通知用户其原因和位置。
此外,您可以编写一个代码,该代码将检查已编译的数据库并识别任何丢失的错误数据点。使用类似于此处显示的代码手动删除错误点,而不会丢失数据库的完整性。重复这些步骤以添加更多数据点。
然后使用文件位置生成数据值电子表格。此外,创建可访问以标识文件位置或与将来的条目合并的条目的更新列表。要开始创建数据库,请先创建一个空白数据库文档,以加载单元格行、数据类型和模式类型的帮助器表。
转到"外部数据"菜单,选择"文本文件导入",单击"浏览",然后选择所需的文件。在"导入向导"中,选择"已分隔"并单击"下一步"。为分隔符类型选择"第一行包含字段名称"和"逗号"。
单击"下一步"后,选择默认字段选项,然后选择"无主键"。单击"下一步",然后完成。接下来,通过重复这些相同的步骤来加载数据和模式类型。
接下来,加载数据值表。转到"外部数据"菜单,选择"文本文件导入",单击"浏览",然后选择所需的文件。在"导入向导"中,选择"已分隔"并单击"下一步"。
为分隔符类型选择"第一行包含字段名称"和"逗号"。单击"下一步"后,选择默认字段选项,然后选择"让访问添加主键"。单击"下一步",然后完成。
现在,通过选择数据库工具、访问关系以及将所有表拖动到板来创建关系。然后转到"编辑关系"并选择"创建新"。选择表和列名称,然后单击将指向帮助器表的联接类型。
设置每个所需关系后,转到"创建"并选择"查询设计",然后选择所有相关表或将所有相关表拖动到顶部窗口中。在此示例中,将显示单元格行、数据值、数据类型和模式类型。关系应根据以前的关系设计自动设置。
现在,填写查询列以了解所需的结果。对于此数据集,请转到显示并选择"总计"。填写第一列、第二列和第三列,如下所示。
填写第四列、第五列和第六列。填写完列后,保存并运行查询。对于此示例实验数据,使用 Tukey 的测试对不同条件进行平均比较,使用方差的双向分析。
当给出大量可能的确认时,使用手动数据聚合方法可能难以识别存在新关系的地方。在这里,通过不同确认查询数据库,利用方向顺序测量跨多个条件的亚细胞行为素丝的组织。各向异性数据集和同向异性数据集显示的 OOP 非常不同,这是由于纤维素微模式严重影响组织组织而预期的。
然而,在比较等向性组织时,突变状态条件之间没有显著差异。相反,在正控制细胞系中,模式组织在统计学上组织较少。即使数据由不同的家族聚合,而不是正控制与负控制,这种关系也保持。
如果需要,可以进一步分析数据。例如,此处针对活检时个体的年龄绘制了行动 OOP,由突变状态和家族分隔,以说明针对临床变量的聚合。有了这个数据集,行为组织与个人的年龄之间没有关联。
这显示了如何以不同的组合分析相同的数据,以及使用数据库聚合属于多个类下的数据通常困难的任务是多么容易。此创建数据组织管道和生成数据库的协议提供了科学严谨性,这对于这个大容量数据收集的时代是绝对必要的。