在组织工程中高效管理中等规模、低速度、多维数据的数据库

Alexander  R. Ochs; Mehrsa Mehrabi; Danielle Becker; Mira  N. Asad; Jing Zhao; Michael  V. Zaragoza; Anna Grosberg

doi:10.3791/60038

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

摘要
摘要
引言
研究方案
结果
讨论
披露声明
致谢
材料
参考文献
转载和许可

摘要

许多研究人员生成"中等大小"、低速和多维数据，这些数据可以通过数据库而不是电子表格更高效地进行管理。在这里，我们提供了数据库的概念概述，包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以及使用数据库阐明数据含义。

摘要

科学依赖于日益复杂的数据集来取得进展，但常见的数据管理方法（如电子表格程序）不足以影响这些信息日益扩大的规模和复杂性。虽然数据库管理系统有可能纠正这些问题，但它们不通常在业务和信息学领域之外使用。然而，许多研究实验室已经生成了"中等大小"的低速多维数据，这些数据可以从实施类似系统中获益匪浅。在本文中，我们将提供概念概述，解释数据库如何工作，以及它们在组织工程应用中提供的优势。来自具有层压A/C突变的个体的结构成纤维细胞数据用于说明特定实验环境中的示例。示例包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以将原始数据转换为结构化格式，以及解释查询的基础语法。分析数据的结果被用来创建各种排列和意义的图，在哈钦森-吉尔福德老年病的正控制与所有其他实验组之间的一致环境中，细胞组织得到了证明。与电子表格相比，数据库方法具有极大的时间效率，一旦设置就易于使用，允许立即访问原始文件位置，并增加了数据严谨性。国家卫生研究院（NIH）强调实验严谨性，由于数据库具有有效组织复杂数据的强大能力，因此很可能最终将采用数据库作为常见做法。

引言

在科学进步在很大程度上由技术驱动的时代，处理大量数据已成为所有学科研究不可或缺的方面。计算生物学和基因组学等新领域的出现，突显出主动利用技术变得多么重要。这些趋势肯定会继续，由于摩尔定律和从^{技术进步1，2}取得的稳步进展。但是，一个后果是生成的数据数量不断增加，超过了以前可行的组织方法的功能。虽然大多数学术实验室有足够的计算资源来处理复杂的数据集，但许多小组缺乏必要的技术专长来构建适合开发需要的定制^系统3。具备管理和更新此类数据集的技能对于高效的工作流和输出仍然至关重要。弥合数据和专业知识之间的差距对于高效处理、重新更新和分析广泛的多层面数据非常重要。

在处理大型数据集时，可伸缩性是一个必不可少的考虑因素。例如，大数据是一个蓬勃发展的研究领域，它涉及从处理数据中揭示新的见解，其特点是数据量大、异质性大、生成率高，例如音频和视频^4、5。使用自动化的组织和分析方法对于此字段来说，要适当地处理数据洪流是强制性的。但是，大数据中使用的许多技术术语没有明确界定，可能会令人困惑;例如，"高速"数据通常与每天数百万个新条目相关联，而"低速"数据可能每天只有几百个条目，例如在学术实验室环境中。虽然有许多令人兴奋的发现尚未发现使用大数据，大多数学术实验室并不要求这些方法的范围，权力和复杂性，以解决自己的科学^问题5。虽然科学数据随着^时间6而变得越来越复杂是毫无疑问的，但许多科学家继续使用不再满足其不断增长的数据需求的组织方法。例如，方便的电子表格程序经常用于组织科学数据，但代价是无法扩展、容易出错，以及长期时间^{效率低下。}相反，数据库是解决问题的有效解决方案，因为它们具有可扩展性、相对便宜且易于处理正在进行的项目的各种数据集。

在考虑数据组织架构时，产生的直接问题包括成本和培训和使用的时间投资。数据库程序在业务设置中经常使用，与支持使用大数据系统所需的资金相比，它更经济、相对便宜或免费。事实上，存在各种商用和开源软件来创建和维护数据库，如 Oracle 数据库、MySQL 和 Microsoft （MS）访问⁹。许多研究人员也会被鼓励学习，包括一些 MS Office 学术包，这进一步最大限度地减少了成本考虑。此外，几乎所有的开发人员都在网上提供广泛的文档，并且有大量的免费在线资源，如 Codecademy、W3学校和 SQLBolt，以帮助研究人员理解和利用结构化查询语言（SQL） 10、11、12 。与任何编程语言一样，学习如何使用 SQL 使用数据库和代码需要时间来掌握，但拥有充足的可用资源，该过程非常简单，值得投入大量精力。

数据库可以是提高数据可访问性和易于聚合的强大工具，但必须确定哪些数据最受益于对组织的更大控制。多维性是指可以根据度量进行分组的条件的数量，而数据库在管理许多不同的条件时功能最强大¹³。相反，使用电子表格程序处理维度低的信息是最简单的;例如，包含年份和每年值的数据集只有一个可能的分组（对年份的度量）。高维数据，如来自临床设置将需要大量的手工组织才能有效地维护，一个繁琐和容易出错的过程超出了电子表格程序^{的范围13。}非关系（NoSQL）数据库也执行各种角色，主要是在数据不能很好地组织到行和列¹⁴的应用程序中。除了经常开源外，这些组织架构还包括图形关联、时间序列数据或基于文档的数据。NoSQL 优于 SQL 的可伸缩性，但不能创建复杂的查询，因此关系数据库在需要一致性、标准化和不频繁的大规模^{数据更改的情况下}更好。数据库最有效地将数据分组和重新更新到科学^{设置13、16}中经常需要的大量符合性中。

因此，这项工作的主要目的是向科学界宣传数据库作为"中等规模"、低速数据可扩展的数据管理系统的潜力，并利用患者来源的细胞线实验的具体实例提供一般模板。其他类似的应用包括河床的地理空间数据、纵向临床研究的问卷，以及生长^{介质17、18、19}中的微生物生长条件。这项工作强调了构建数据库以及将原始数据转换为结构化格式所需的数据管道的常见注意事项和效用。在 SQL 中提供数据库接口和数据库编码的基础知识，并举例说明，以便其他人获得适用于构建基本框架的知识。最后，一个实验数据集示例演示了如何轻松地有效地设计数据库，以多种方式聚合多层面数据。这些信息提供了背景、评论和模板，帮助其他科学家在按照自己的实验需求实施数据库的道路上。

为了在研究实验室环境中建立一个可扩展的数据库，在过去三年中收集了使用人类成纤维细胞的实验数据。该协议的主要重点是报告计算机软件的组织情况，使用户能够以尽可能经济、最高效的方式聚合、更新和管理数据，但还提供了相关的实验方法。上下文。

实验设置
制备样品的实验方案已经描述^{在20，21，}并在这里简要介绍。构造由旋转涂层矩形玻璃盖玻片制备，其聚二甲基硅氧烷（PDMS）和固化剂的混合物为 10:1，然后在无组织（各向异性）或 20 μm 线中应用 0.05 mg/mL 纤维化（同种）或 20 μm 线，带 5 μm 间隙微模式排列（线）。成纤维细胞在通道7（或通道16为正控制）以最佳密度播种到盖玻片上，在24小时后更换介质后，保持生长48小时。然后，使用4%甲醛（PFA）溶液和0.0005%非离子表面活性剂固定细胞，然后对细胞核进行免疫染色（4'，6'-diaminodino-2-pheninnodole[DAPI]），actin（Alexa Fluor 488类黄激素），以及纤维素兔（多氯环素）。使用山羊抗兔子IgG抗体（Alexa Fluor 750山羊抗兔子）的纤维素二级染色剂被应用，并安装在所有盖玻片上，以防止荧光褪色。指甲油用于将盖玻片密封在显微镜幻灯片上，然后离开干燥 24 小时。

荧光^图像是使用40倍油浸物物和安装在倒置电动显微镜上的数字电荷耦合装置（CCD）摄像机获得的。以 40 倍的放大倍率为每个封面滑动成像 10 个随机选择的视场，对应于 6.22 像素/μm 分辨率。自定义代码用于量化描述原子核、肌蛋白丝和纤维素的图像的不同变量;相应的值以及组织和几何参数自动保存在数据文件中。

单元格线
有关所有样本数据单元系的较广泛文档，可在先前^出版物20中找到。简单描述一下，数据收集已获批准，并根据加州大学欧文分校机构审查委员会（IRB # 2014-1253）进行了知情同意。人类成纤维细胞从三个不同变异的层A/C（LMNA）基因突变中收集:杂合LMNA拼接位点突变（c.357-2A>G）22（A族）;LMNA无意义突变（c.736 C>T， pQ246X）在外生 4²³ （家庭 B）;和LMNA异义基因突变（c.1003C>T， pR335W）在外生6²⁴ （系列 C）.纤维细胞也从每个家族中的其他个体中收集，作为相关的突变阴性对照，称为"控制"，其他细胞作为不相关的突变阴性对照，称为"捐赠者"。作为一种阳性控制，来自哈钦森-格里福德老年病（HGPS）个体的成纤维细胞是从一名8岁女性患者的皮肤活检中采集的，该患者拥有LMNA G608G点^突变25。在这项工作中，对22个人的成纤维细胞进行了测试并用作数据。

数据类型
成纤维细胞数据分为两类:细胞核变量（即变形核的百分比、核区、核偏^心）20或源自定向顺序参数（OOP）21、26、27（即肌蛋白OOP、纤维素OOP、核OOP）的结构变量。此参数等于所有方向矢量的平均阶张量的最大条件值，并在以前的出版物^26、28中详细定义。这些值被聚合到各种可能的一致性中，例如针对年龄、性别、疾病状况、某些症状的存在等值。如何使用这些变量的示例可以在结果部分中找到。

示例代码和文件
基于上述数据的示例代码和其他文件可随本文一起下载，其名称和类型在表 1中进行了总结。

Access restricted. Please log in or start a trial to view this content.

研究方案

注: 有关此协议中使用的软件版本，请参阅材料表。

1. 评估数据是否受益于数据库组织方案

下载示例代码和数据库（参见补充编码文件，这些文件在表 1中总结）。
使用图 1评估感兴趣的数据集是否为"多维"。
注:图 1是为示例数据集提供的多维数据库的图形表示形式。
如果数据可以像示例那样以"多维"形式可视化，并且将特定实验结果与任何维度（即条件）相关联的能力将允许对可用数据进行更深入的科学洞察，则请继续构造关系数据库。

2. 组织数据库结构

注:关系数据库以表的形式存储信息。表按行和列的架构组织，类似于电子表格，可用于链接数据库中的标识信息。

组织数据文件，以便他们经过深思熟虑的唯一名称。文件命名约定和文件夹子文件夹结构的良好做法如果完成良好，将允许广泛的数据库可伸缩性，而不会影响手动访问文件的可读性。以一致的格式添加日期文件（如"20XX-YY-ZZ"），并根据元数据命名子文件夹就是一个例子。
在设计数据库结构时，绘制不同表中的字段之间的关系。因此，多维性是通过将各个表中的不同字段（即表中的列）相互关联来处理的。
创建描述在步骤 2.2 中创建的数据库和关系的 readme 文档。不同表之间的条目链接后，所有相关信息都与该条目相关，并可用于调用复杂查询以筛选到所需的信息。
注: Readme 文档是一种常见解决方案，用于提供有关项目的补充信息和数据库结构信息，而无需向结构添加非统一数据。
按照步骤 2.1_2.3，使最终结果类似于此示例，其中个体的不同特征（图 2A）与这些个体的相关实验数据相关（图 2B）。通过将模式类型（图 2C）和数据类型（图 2D）与主数据值表中的条目进行关联，以解释各种速记符号（图2B），也做了同样的操作。
确定为远程数据收集需要记录的所有重要且仅有用的数据点。
注: 与前面提到的使用数据库比电子表格程序使用的一个关键优势是可伸缩性:可以在任何点单独添加其他数据点，并且计算（如平均值）会立即更新以反映新添加的数据点。
1. 确定在开始之前创建不同数据点所需的信息。保留原始数据不变，而不是对其进行修改或保存，以便可以且可访问重新分析。
  注:对于给定的示例（图2），对应于单个的"模式类型"、"封面类型"和"可变类型"都是关联值不同性的重要字段。
2. 如果需要，请添加其他有用的非重要信息，如"盖玻片总数"，以指示重复次数，并帮助确定在此示例中是否缺少数据点。

3. 设置和组织管道

确定可能导致数据收集的所有各种实验和数据分析方法，以及每种数据类型的正常数据存储实践。使用开源版本控制软件（如 GitHub）以确保必要的一致性和版本控制，同时最大限度地减少用户负担。
如果可能，请创建一致命名和存储数据的过程，以允许自动管道。
注: 在示例中，输出都是一致命名的，因此创建一个数据管道来查找特定属性，一旦选择了文件，就非常简单。如果无法进行一致的命名，则需要手动填充数据库中的表，不建议这样做。
使用任何方便的编程语言为数据库生成新的数据条目。
1. 在可以指导自动选择数据的独立文件中创建小型"帮助器"表（表1中#8#10文件）。这些文件作为管道运行的可能性的模板，易于编辑。
2. 要为数据管道生成新的数据条目（图3D），请程序编写代码（位置指针.m，表1中的文件#1）以使用帮助器表作为供用户选择的输入（#8#10在表 1中的文件）。
3. 在此处，通过将新条目与前面的条目（图 3E）组合新文件位置的电子表格。创建一个代码来自动执行此步骤，如位置指针编译.m（文件#2表 1 所示）。
4. 之后，检查此合并的电子表格中重复项，应自动删除。创建一个代码来自动执行此步骤，如表 1 中LocationPointer_Remove_Duplicates.m（文件#3所示）。
5. 此外，请检查电子表格中是否存在错误，并通知用户其原因和位置（图3F）。创建一个代码来自动执行此步骤，如 BadPointerCheck.m（文件#4表 1 所示）。或者，编写一个代码，检查已编译的数据库，并在一个步骤中识别重复项，如表1中LocationPointer_Check.m（文件#5所示）。
6. 创建一个代码，让用户手动删除坏点，而不会丢失数据库的完整性，如Manual_Pointer_Removal.m（文件#6表 1 所示）。
7. 然后使用文件位置生成数据值电子表格（图 3G，文件#12表 1中），以及创建可访问以标识文件位置或与将来的条目合并的最更新的条目列表（图3H）。创建一个代码来自动执行此步骤，如表 1中Database_Generate.m（文件#7所示）。
仔细检查管道是否增加了实验的严格性，检查是否包含严格的命名约定、自动文件汇编代码和如前所述的自动错误检查。

4. 创建数据库和查询

注: 如果表在数据库中存储信息，则查询是请求数据库以获取给定条件的信息。创建数据库有两种方法:从空白文档开始或从现有文件开始。图 4显示了使用 SQL 语法的示例查询，该语法旨在使用图 2所示的数据库关系运行。

方法 1:从头开始创建数据库和查询
1. 创建空白数据库文档。
2. 通过选择外部数据来加载帮助器表（表 1中#8#10文件） |文本文件导入|选择文件（文件#8#10）|分隔|第一行包含标题、逗号|保留默认值|选择自己的主键（单元格行文件#8的指定符、数据类型文件的可变名称#9、模式类型文件的 Pat 名称#10） |保留默认值|完成。
3. 通过选择外部数据加载数据值表（表 1中的文件#12 ） |文本文件导入|选择文件（文件#12） |分隔|第一行包含标题、逗号|保留默认值|允许访问添加主密钥|导入到表:数据值|完成。
4. 通过选择数据库工具创建关系 |关系|将所有表拖到板上|编辑关系|创建新|将数据价值字段与帮助器表指定程序匹配 |接头类型 3.
5. 选择"创建|查询设计.
6. 选择或拖动所有相关表到顶部窗口。在此示例中，"单元格行"，"数据值"，"数据类型"和"模式类型"。关系应根据以前的关系设计自动设置。
7. 填写查询列以获得所需的结果，例如:
  1. 点击显示|总计。
  2. 填写第一列（表:数据值，字段:DataVar，总计:按组，条件:"Act_OOP"），第二列（表:数据值，字段:字段:帕特瓦尔，总计:按组，条件:"行"），第三列（表:Cell_Lines、字段:指定符、总计:分组，排序:升序）。
  3. 填写第四列（表:数据值，字段:参数，总计:Ave），第五列（表:数据值，字段:参数，总计:StDev），第六列（表:数据值，字段:参数，总计:计数）。
8. 运行查询。
或者，使用提供的示例数据库作为示例的基础。打开以前下载的数据库文件Database_Queries.accdb（表 1中的文件#13）。将现有表替换为感兴趣的数据，将其用作模板。

5. 将输出表移动到统计软件中进行显著性分析

对于此示例实验数据，使用 Tukey 的检验值差（ANOVA）单向分析，以比较各种条件之间的均值。
注: p < 0.05 的值被认为具有统计显著性。

Access restricted. Please log in or start a trial to view this content.

结果

数据的多维性
在本文介绍的示例数据集的上下文中，方法部分中描述的受试者被分为三个家族中的个体组，这些个体具有导致心脏病的LMNA突变（"患者"），相关的非突变阴性对照（"控制"），不相关的非突变阴性对照（"捐赠者"），以及哈钦森-吉尔福德前列腺综合征（HGPS）作为阳性对照^的个体。鉴于对照组和捐赠者集体缺乏LMNA突变，其结果可进一步...

Access restricted. Please log in or start a trial to view this content.

讨论

协议的技术讨论
在考虑使用数据库时，第一步是评估数据是否从此类组织中受益。

下一个重要步骤是创建一个自动代码，该代码将询问用户的最小输入并生成表数据结构。在此示例中，用户输入了数据类型（细胞核或结构测量）、细胞行的主题指示符和所选文件数的类别。然后由用户选择相关文件（表 2，第 1 列），自动创建行条目，并填充文件?...

Access restricted. Please log in or start a trial to view this content.

披露声明

作者没有什么可透露的。

致谢

这项工作得到了国家卫生研究院国家心肺血液研究所的支持，资助号为R01 HL129008。作者特别感谢LMNA基因突变家庭成员参与这项研究。我们还要感谢琳达·麦卡锡在细胞培养和维护实验室空间方面给予的帮助，感谢纳萨姆·乔克尔（Nasam Chokr）参与细胞成像和核数据分析，感谢迈克尔·格罗斯伯格就建立我们最初的 Microsoft Access 数据库以及回答其他技术问题提供相关建议。

Access restricted. Please log in or start a trial to view this content.

材料

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

参考文献

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755(2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28(2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2(2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548(2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256(2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003(2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421(2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40(2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190(2015).
Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363(2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177(2016).
Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Access restricted. Please log in or start a trial to view this content.

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

153 LMNA

This article has been published

Video Coming Soon

Keep me updated: