JoVE Logo

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

  • Резюме
  • Аннотация
  • Введение
  • протокол
  • Результаты
  • Обсуждение
  • Раскрытие информации
  • Благодарности
  • Материалы
  • Ссылки
  • Перепечатки и разрешения

Резюме

Многие исследователи генерируют "средние", низкоскоростные и многомерные данные, которые могут управляться более эффективно с помощью баз данных, а не электронных таблиц. Здесь мы предоставляем концептуальный обзор баз данных, включая визуализацию многомерных данных, увязку таблиц в реляционных структурах баз данных, картирование полуавтоматических конвейеров данных и использование базы данных для выяснения значения данных.

Аннотация

Наука опирается на все более сложные наборы данных для прогресса, но общие методы управления данными, такие как программы электронных таблиц, недостаточны для роста масштабов и сложности этой информации. Хотя системы управления базами данных обладают потенциалом для исправления этих проблем, они обычно не используются за пределами областей бизнеса и информатики. Тем не менее, многие исследовательские лаборатории уже генерируют "средние", низкие скорости, многомерные данные, которые могли бы извлечь большую пользу из внедрения аналогичных систем. В этой статье мы предоставляем концептуальный обзор, объясняющий, как функционируют базы данных и как их преимущества они предоставляют в приложениях для разработки тканей. Структурные данные фибробластов от лиц с мутацией a/C ламина были использованы для иллюстрации примеров в определенном экспериментальном контексте. Примеры включают визуализацию многомерных данных, увязку таблиц в реляционной структуре базы данных, отображение полуавтоматизированного конвейера данных для преобразования необработанных данных в структурированные форматы и объяснение лежащего в основе синтаксиса запроса. Результаты анализа данных были использованы для создания участков различных механизмов и значение было продемонстрировано в организации клеток в выровненных средах между положительным контролем Прогерии Хатчинсона-Гилфорда, известной ламинопатии, и всеми другими экспериментальными группами. По сравнению с электронными таблицами методы баз данных были чрезвычайно эффективными по времени, простыми в использовании после настройки, позволяли немедленный доступ к исходным местоположениям файлов и увеличивали строгость данных. В ответ на то, что Национальные институты здравоохранения (НИЗ) уделяют особое внимание экспериментальной строгости, вполне вероятно, что многие научные области в конечном итоге примут базы данных в качестве обычной практики из-за их мощной способности эффективно организовывать сложные данные.

Введение

В эпоху, когда научный прогресс в значительной степени определяется технологией, обработка больших объемов данных стала неотъемлемым аспектом исследований во всех дисциплинах. Появление новых областей, таких как вычислительная биология и геномика, подчеркивает, насколько важным стало упреждающее использование технологий. Эти тенденции, несомненно, будет продолжаться в связи с законом Мура и устойчивый прогресс, полученный от технического прогресса1,2. Одним из следствий, однако, является рост количества генерируемых данных, которые превышают возможности ранее жизнеспособных методов организации. Хотя большинство академических лабораторий имеют достаточные вычислительные ресурсы для обработки сложных наборов данных, многие группы не имеют технических знаний, необходимых для создания пользовательских систем, подходящих для разработки потребностей3. Наличие навыков управления и обновления таких наборов данных по-прежнему имеет решающее значение для эффективного рабочего процесса и вывода. Преодоление разрыва между данными и опытом имеет важное значение для эффективного обработки, повторного обновления и анализа широкого спектра многогранных данных.

Масштабируемость является важным фактором при обработке больших наборов данных. Большие данные, например, является процветающей области исследований, которая включает в себя выявление новых идей от обработки данных характеризуется огромными объемами, большой неоднородности, и высокие темпы генерации, такие как аудио и видео4,5. Использование автоматизированных методов организации и анализа является обязательным для этой области для надлежащей обработки потоков данных. Однако многие технические термины, используемые в больших данных, четко не определены и могут ввести в заблуждение; например, данные о "высокой скорости" часто ассоциируются с миллионами новых записей в день, в то время как данные о низкой скорости могут составить лишь сотни записей в день, например, в учебной лаборатории. Хотя Есть много интересных выводов еще предстоит обнаружить с помощью больших данных, большинство академических лабораторий не требуют масштабов, мощности и сложности таких методов для решения своих собственных научных вопросов5. Хотя не вызывает сомнений, что научные данные становятся все более сложными со временем6,многие ученые продолжают использовать методы организации, которые больше не отвечают их расширяющимся потребностям данных. Например, удобные программы электронной таблицы часто используются для организации научных данных, но за счет того, что немасштабируемы, подвержены ошибкам, и время неэффективно в долгосрочной перспективе7,8. И наоборот, базы данных являются эффективным решением проблемы, поскольку они масштабируемы, относительно дешевы и просты в обработке различных наборов данных текущих проектов.

Непосредственными проблемами, возникающими при рассмотрении схем организации данных, являются затраты, доступность и время инвестирования для обучения и использования. Часто используемые в бизнес-настройках программы баз данных являются более экономичными, либо относительно недорогими или бесплатными, чем средства, необходимые для поддержки использования систем больших данных. На самом деле, существует множество коммерчески доступных и открытых исходных программ для создания и обслуживания баз данных, таких как Oracle Database, MyS'L и Microsoft (MS) Access9. Многие исследователи также будет поощряться, чтобы узнать, что несколько MS Office академических пакетов поставляются с MS Access включены, дальнейшее сведение к минимуму расходы соображений. Кроме того, почти все разработчики предоставляют обширную документацию в Интернете и есть множество бесплатных интернет-ресурсов, таких как Codecademy, W3Schools, и S'LBolt, чтобы помочь исследователям понять и использовать структурированный язык запроса (S'L)10,11,12. Как и любой язык программирования, научиться использовать базы данных и код с помощью S'L требуется время, чтобы освоить, но с достаточными ресурсами, доступных процесс прост и стоит вложенных усилий.

Базы данных могут быть мощными инструментами для повышения доступности данных и простоты агрегирования, но важно определить, какие данные в наибольшей степени выиграют от усиления контроля над организацией. Многомерность относится к числу условий, с которыми можно сгруппировать измерения, а базы данных являются наиболее мощными при управлении различными условиями13. И наоборот, информацию с низкой размерностью проще всего обрабатывать с помощью программы электронных таблиц; например, набор данных, содержащий годы и значение за каждый год, имеет только одну возможную группировку (измерения по отношению к годам). Высокомерные данные, такие как из клинических параметров потребует большой степени ручной организации для того, чтобы эффективно поддерживать, утомительный и подверженный ошибкам процесс за пределами объема электронных таблиц программ13. Нереляционные базы данных (NoS'L) также выполняют различные роли, в первую очередь в приложениях, где данные не организуются хорошо в строки и столбцы14. Помимо того, что эти организационные схемы часто используются с открытым исходным кодом, они включают графические ассоциации, данные временных рядов или данные на основе документов. НоСЗЛ лучше масштабирует масштабируемость, чем S'L, но не может создавать сложные запросы, поэтому реляционные базы данных лучше в ситуациях, требующих согласованности, стандартизации и нечастых крупномасштабных изменений данных15. Базы данных лучше всего на эффективной группировки и повторного обновления данных в большой массив конформации часто необходимы в научных условиях13,16.

Таким образом, основная цель этой работы заключается в информировании научного сообщества о потенциале баз данных в качестве масштабируемых систем управления данными для "средних", данных о низкой скорости, а также в предоставлении общего шаблона с использованием конкретных примеров экспериментов на клеточных линиях, полученных пациентом. Другие аналогичные приложения включают геопространственные данные о руслах рек, анкеты из продольных клинических исследований, а также условия роста микробов в носителях роста17,18,19. В этой работе освещаются общие соображения и полезность построения базы данных в сочетании с конвейером данных, необходимым для преобразования необработанных данных в структурированные форматы. Основы интерфейсов баз данных и кодирования баз данных в СЗЛ представлены и иллюстрированы примерами, позволяющими другим получить знания, применимые к созданию базовых рамок. Наконец, пример экспериментального набора данных показывает, насколько легко и эффективно базы данных могут быть разработаны для агрегирования многогранных данных различными способами. Эта информация предоставляет контекст, комментарии и шаблоны для оказания помощи коллегам-ученым на пути к внедрению баз данных для их собственных экспериментальных потребностей.

Для создания масштабируемой базы данных в исследовательской лаборатории за последние три года были собраны данные экспериментов с использованием клеток фибробластов человека. Основное внимание в этом протоколе заключается в представлении информации об организации компьютерного программного обеспечения, с тем чтобы пользователь мог агрегировать, обновлять и управлять данными максимально экономичным и экономичным способом, но соответствующие экспериментальные методы предоставляются также для Контексте.

Экспериментальная установка
Экспериментальный протокол для подготовки образцов был описан ранее20,21, и представлен кратко здесь. Конструкции были подготовлены спин-покрытие прямоугольных стеклянных покрывало с 10:1 смесь полидиметилсилоксана (PDMS) и лечащий агент, затем применение 0,05 мг / мл фибронектин, либо в неорганизованных (изотропных) или 20 мкм линий с 5 мкм разрыв микропаттернов (линий). Клетки фибробласта были посеяны при прохождении 7 (или проходе 16 для положительного контроля) на крышки при оптимальной плотности и оставлены расти в течение 48 ч с носителями, меняемыми после 24 ч. Клетки были затем исправлены с помощью 4% параформальдегида (PFA) раствор и 0,0005% неионический сурфактант, а затем крышки иммуноокрашенные для ядер клеток (4',6'-diaminodino-2-phenylinodole (DAPI), актин (Alexa Fluor 488 phalloidin), и фиброн. Вторичное пятно для фибронектина с использованием козла анти-кроликig IgG антител (Alexa Fluor 750 коза анти-кролик) был применен и сохранения агент был установлен на все крышки для предотвращения флуоресцентных выцветания. Лак для ногтей был использован для уплотнения coverslips на микроскоп слайды затем оставили высохнуть в течение 24 ч.

Флуоресценция изображения были получены, как описано ранее20 с помощью 40x нефти погружения цели в сочетании с цифровой заряда соединенных устройств (CCD) камера установлена на перевернутой моторизованной микроскоп. Десять случайно выбранных полей зрения были изображены для каждого coverslip на 40x увеличение, что соответствует 6,22 пикселей / мкм резолюции. Пользовательские написанные коды использовались для количественной оценки различных переменных изображений, описывающих ядра, актиновые нити и фибронектин; соответствующие значения, а также параметры организации и геометрии были автоматически сохранены в файлах данных.

Сотовые линии
Более обширная документация по всем линиям ячейки выборочных данных содержится в предыдущих публикациях20. Для краткого описания, сбор данных был одобрен и информированное согласие было выполнено в соответствии с UC Irvine Институциональный обзор совета (IRB 2014-1253). Клетки фибробласта человека были собраны из трех семейств различных вариаций мутации гена ламина A/C(LMNA): гетерозиготная мутация сращивания LMNA (c.357-2A-gt;G)22 (семья A); Мутация нонсенса LMNA (c.736 C'gt;T, p'246X) в экзоне 423 (семья B); и мутация LMNA (c.1003C-gt;T, pR335W) в экзоне 624 (семья C). Клетки фибробласта были также собраны у других людей в каждой семье в качестве связанных мутационно-отрицательных элементов управления, именуемых «Контролем», а другие были приобретены как несвязанные мутационно-отрицательные элементы управления, именуемые «донорами». В качестве положительного контроля, фибробластные клетки от человека с Хатчинсон-Глифорд прогерия (HGPS) были приобретены и выросли из биопсии кожи взяты из 8-летняя пациентка с HGPS обладающих LMNA G608G точки мутации25. В общей сложности, фибробласты из 22 человек были протестированы и использованы в качестве данных в этой работе.

Типы данных
Данные Fibroblast делятся на одну из двух категорий: клеточные переменные ядер (т.е. процент дисморфических ядер, площадь ядер, эксцентриситет ядер)20 или структурные переменные, вытекающие из параметра ориентационного порядка (OOP)21,26,27 (т.е. актин OOP, fibronectin OOP, nuopiO). Этот параметр равен максимальной eigenvalue среднего заказа тензор всех векторов ориентации, и он подробно определен в предыдущих публикациях26,28. Эти значения агрегируются в различные возможные конформации, такие как значения по возрасту, полу, статусу заболевания, наличие определенных симптомов и т.д. Примеры использования этих переменных можно найти в разделе результатов.

Пример кодов и файлов
Примеры кодов и других файлов, основанных на приведенных выше данных, могут быть загружены в этом документе, а их имена и типы суммируются в таблице 1.

протокол

ПРИМЕЧАНИЕ: Смотрите таблицу материалов для версий программного обеспечения, используемых в этом протоколе.

1. Оценить, выиграют ли данные от схемы организации баз данных

  1. Скачать пример коды и базы данных (см. Дополнительные файлы кодирования, которые суммируются в таблице 1).
  2. Используйте рисунок 1 для оценки того, является ли набор данных, представляющий интерес, «многомерным».
    ПРИМЕЧАНИЕ: Рисунок 1 представляет собой графическое представление многомерной базы данных, предусмотренной для набора примеров данных.
  3. Если данные могут быть визуализированы в "многомерной" форме, как пример, и если способность соотнести конкретный экспериментальный результат с любым из измерений (т.е. условия) позволит более глубокое научное понимание имеющихся данных, приступить к создать реляционные базы данных.

2. Организовать структуру базы данных

ПРИМЕЧАНИЕ: Реляционные базы данных хранят информацию в виде таблиц. Таблицы организованы в схемах строк и столбцов, похожие на электронные таблицы, и могут быть использованы для ссылки идентифицирующей информации в базе данных.

  1. Организуйте файлы данных, чтобы они хорошо продумали уникальные имена. Надуствная практика с конвенциями именования файлов и структурами, подставными папками, когда все сделано хорошо, позволяет обеспечить широкую масштабируемость базы данных без ущерба для читаемости доступа к файлам вручную. Добавление файлов дат в согласованном формате, например, "20XX-YY-Я", и одним из таких примеров является субфалеры имен в соответствии с метаданными.
  2. По мере разработки структуры базы данных нарисуйте отношения между полями в разных таблицах. Таким образом, многомерность обрабатывается путем соотвествуления различных полей (т.е. столбцов в таблицах) в отдельных таблицах друг с другом.
  3. Создайте документацию чтения, описывающая базу данных и отношения, созданные на шаг 2.2. После того, как запись между различными таблицами связана, вся связанная информация связана с этой записью и может быть использована для вызова сложных запросов для фильтрации до нужной информации.
    ПРИМЕЧАНИЕ: Документы Readme являются общим решением для предоставления дополнительной информации и структурной информации о проекте без добавления неоднородных данных в структуру.
  4. Следуя шагам 2.1-2.3, сделайте конечный результат похожим на этот пример, когда различные характеристики отдельных лиц(рисунок 2A) связаны с связанными экспериментальными данными этих лиц(рисунок 2B). То же самое было сделано через связанные столбцы типов шаблонов(рисунок 2C) и типов данных(рисунок 2D) для сопоставления записей в таблице значений основных данных для объяснения различных обозначений сокращения(Рисунок 2B).
  5. Определите все важные и просто полезные точки данных, которые необходимо записать для сбора данных на большой дальности.
    ПРИМЕЧАНИЕ: Ключевым преимуществом использования баз данных над программами электронных таблиц, как упоминалось ранее, является масштабируемость: дополнительные точки данных могут быть тривиально добавлены в любой момент, а расчеты, такие как средние, мгновенно обновляются для отражения новых добавленных точек данных.
    1. Определите необходимую информацию для создания отдельных точек данных до начала. Оставьте необработанные данные нетронутыми, а не изменять или экономить на них, так что повторное анализ возможно и доступно.
      ПРИМЕЧАНИЕ: Для данного примера(Рисунок 2), "Обозначение", соответствующее индивидууму, "Тип шаблона", "Coverslip" и "Переменный тип" были жизненно важными полями для отчетства связанного значения.
    2. При желании добавьте другую полезную, нежизненную информацию, такую как "Всего - обложки", чтобы указать количество проведенных повторений и помочь определить, отсутствуют ли точки данных в этом примере.

3. Настройка и организация трубопровода

  1. Определите все различные эксперименты и методы анализа данных, которые могут привести к сбору данных наряду с обычными методами хранения данных для каждого типа данных. Работайте с программным обеспечением для управления версиями с открытым исходным кодом, таким как GitHub, чтобы обеспечить необходимую согласованность и управление версиями при минимизации нагрузки на пользователей.
  2. Если это возможно, создайте процедуру последовательного именования и хранения данных для автоматического конвейера.
    ПРИМЕЧАНИЕ: В примере все выводы были последовательно названы, таким образом, создание конвейера данных, который искал конкретные атрибуты было просто после того, как файлы были выбраны. Если последовательное наименование невозможно, таблицы в базе данных должны быть заполнены вручную, что не рекомендуется.
  3. Используйте любой удобный язык программирования для создания новых записей данных для базы данных.
    1. Создавайте небольшие таблицы «помощников» (файлы #8 #10 в таблице 1)в отдельных файлах, которые могут направлять автоматизированный отбор данных. Эти файлы служат шаблоном возможностей для работы конвейера и легко отожоблены.
    2. Для создания новых записей данных для конвейера данных(рисунок 3D),запрограммируйте код (LocationPointer.m, файл #1 в таблице 1),чтобы использовать таблицы помощников в качестве входных данных, которые будут выбраны пользователем (файлы #8 #10 в таблице 1).
    3. Отсюда соберите новую таблицу файлов местах путем объединения новых записей с предыдущими записями(Рисунок 3E). Создайте код для автоматизации этого шага, как показано в LocationPointerCompile.m (файл #2 в таблице 1).
    4. После этого проверьте эту объединенную таблицу на наличие дубликатов, которые должны быть автоматически удалены. Создайте код для автоматизации этого шага, показанного в LocationPointer_Remove_Duplicates.m (файл #3 в таблице 1).
    5. Кроме того, проверьте электронную таблицу на наличие ошибок и уведомите пользователя об их причине и местонахождении(рисунок 3F). Создайте код для автоматизации этого шага, как показано в BadPointerCheck.m (файл #4 в таблице 1). Кроме того, напишите код, который проверит собранную базу данных и идентифицирует дубликаты в одном шаге, как показано в LocationPointer_Check.m (файл #5 в таблице 1).
    6. Создайте код, чтобы пользователь вручную удалял плохие точки, не теряя целостности базы данных, показанной в Manual_Pointer_Removal.м. (файл #6 в таблице 1).
    7. Затем используйте местоположения файлов для создания таблицы значения данных(рисунок 3G,файл #12 в таблице 1),а также для создания наиболее обновленного списка записей, которые могут быть доступны для идентификации местоположения файлов или объединены с будущими записями (Рисунок 3H). Создайте код для автоматизации этого шага, показанного в Database_Generate.м. (файл #7 в таблице 1).
  4. Двойная проверка того, что конвейер добавляет к экспериментальной строгости, проверяя на включение строгих именования конвенций, автоматизированных кодов сборки файлов, а также автоматизированных проверок ошибок, как описано ранее.

4. Создание базы данных и запросов

ПРИМЕЧАНИЕ: Если таблицы хранят информацию в базах данных, то запросы — это запросы в базу данных для получения информации с учетом конкретных критериев. Существует два способа создания базы данных: начиная с пустого документа или начиная с существующих файлов. На рисунке 4 показан пример запроса с использованием синтаксиса S'L, который предназначен для выполнения с использованием отношений базы данных, показанных на рисунке 2.

  1. Метод 1: Начиная с нуля при создании базы данных и запросов
    1. Создайте пустой документ базы данных.
    2. Загрузите таблицы помощников (файлы #8 #10 в таблице 1),выбрав внешние данные Импорт текстовых файлов Выберите файл (файлы #8 #10) Делимитированое (ru) Первый ряд содержит заголовки, запятая оставить по умолчанию Выберите мой собственный основной ключ (Обозначение для клеточных линий файл #8, переменное имя для типов данных файл #9, Пэт Имя для шаблона Тип файла #10) оставить по умолчанию Закончить.
    3. Загрузите таблицу значений данных (файл #12 в таблице 1),выбрав внешние данные Импорт текстовых файлов Выберите файл (файл #12) Делимитированое (ru) Первый ряд содержит заголовки, запятая оставить по умолчанию Пусть доступ Добавить основной ключ Импорт в таблицу: Стоимость данных Закончить.
    4. Создавайте отношения, выбирая инструменты базы данных (ru) Отношения Перетащите все таблицы на доску Отсечение отношений (ru) Создание нового Матч DataValue поля с помощником Таблицы Обозначения (ru) Совместный тип 3.
    5. Выберите Создать (ru) Дизайн запроса.
    6. Выберите или перетащите все соответствующие таблицы в верхнее окно. В этом примере "Линии ячеек", "Значения данных", "Типы данных" и "Тип шаблона". Отношения должны автоматически настраиваться на основе предыдущего дизайна Отношения.
    7. Заполните столбцы запросов для желаемых результатов, например:
      1. Нажмите на шоу Итого .
      2. Заполните первую колонку (Таблица: DataValues, Field: DataVar, Total: GroupBy, Criteria: "Act_OOP"), вторая колонка (таблица: DataValues, Поле: PatVar, Total: GroupBy, Критерии: "Lines") и третья колонка (Таблица: Cell_Lines, Поле: Обозначение, Всего: ГруппаBy, Сортировка: Восхождение).
      3. Заполните четвертую колонку (таблица: DataValues, Поле: Параметр, Всего: Ave), пятую колонку (таблица: DataValues, Поле: Параметр, Всего: StDev) и шестую колонку (таблица: DataValues, Поле: Параметр, Всего: Количество: Количество).
    8. Выполнить запрос.
  2. Кроме того, используйте приведенную базу данных в качестве основы для примеров. Откройте файл базы данных Database_Queries.accdb (файл #13 в таблице 1),который был загружен ранее. Используйте его в качестве шаблона, заменяя существующие таблицы данными, представляющими интерес.

5. Переместите таблицы выводов в статистическое программное обеспечение для анализа значимости

  1. Для этого образца экспериментальных данных используйте односторонний анализ дисперсии (ANOVA) с использованием теста Tukey для среднего сравнения между различными условиями.
    ПРИМЕЧАНИЕ: Значения p qlt; 0.05 были учтены статистически значимыми.

Результаты

Многомерность данных
В контексте приведенного здесь набора данных испытуемые, описанные в разделе Методы, были разделены на группы лиц из трех семейс с сердечно-сказательной мутацией LMNA ("Пациенты"), связанные с немутационным негативным контролем ("Контроль"), не связанн?...

Обсуждение

Техническое обсуждение протокола
Первым шагом при рассмотрении вопроса об использовании баз данных является оценка того, выиграют ли данные от такой организации.

Следующим важным шагом является создание автоматизированного кода, который будет запрашивать м...

Раскрытие информации

Авторам нечего раскрывать.

Благодарности

Эта работа поддерживается Национальным институтом сердца, легких и крови при Национальных институтах здравоохранения, грант номер R01 HL129008. Авторы особенно благодарит членов семьи мутации гена LMNA за их участие в исследовании. Мы также хотели бы поблагодарить Линду Маккарти за помощь в культуре клеток и поддержание лабораторных пространств, Насама Чокра за ее участие в визуализации клеток и анализе данных ядер, и Майкла А. Гросберга за его соответствующие советы с настройкой нашей первоначальной базы данных Microsoft Access, а также ответами на другие технические вопросы.

Материалы

NameCompanyCatalog NumberComments
4',6'-diaminodino-2-phenylinodole (DAPI)Life Technologies, Carlsbad, CA
Alexa Fluor 488 PhalloidinLife Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbitLife Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10BHamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectinCorning, Corning, NY
IX-83 inverted motorized microscopeOlympus America, Center Valley, PA
Matlab R2018bMathworks, Natick, MA
MS AccessMicrosoft, Redmond, WA
paraformaldehyde (PFA)Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectinSigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)Ellsworth Adhesives, Germantown, WI
Prolong Gold AntifadeLife Technologies, Carlsbad, CA
rectangular glass coverslipsFisher Scientific Company, Hanover Park, IL
Triton-XSigma Aldrich Inc., Saint Louis, MO

Ссылки

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL - Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial - w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL - SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials - Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

153LMNA

This article has been published

Video Coming Soon

JoVE Logo

Исследования

Образование

О JoVE

Авторские права © 2025 MyJoVE Corporation. Все права защищены