Научные данные становятся все более сложными и богатыми за последние пару десятилетий, но ученые продолжают использовать методы организации, которые больше не отвечают их расширяющимся потребностям в данных. Основным преимуществом метода, описанного в этом видео, является то, что он позволяет создать базу данных, которая обеспечивает строгий конвейер данных и хранение, сохраняя при этом гибкость для анализа данных. Чтобы начать оценку интересного набора данных, загрузите примерные коды и базы данных, показанные в этой таблице.
Далее используйте это графическое представление многомерной базы данных для оценки того, действительно ли набор данных является многомерным. Данные должны соответствовать двум условиям, чтобы извлечь выгоду из организации базы данных. Во-первых, данные должны быть визуализированы в многомерной форме.
А во-вторых, она должна получить более глубокое научное понимание, будучи в состоянии связать конкретные экспериментальные результаты с любым из измерений. Реляционные базы данных хранят информацию в виде таблиц, которые организованы строками и столбцами и могут быть использованы для увязки идентифицяющих данных в базе данных. Многомерность обрабатывается путем отношения различных полей, таких как столбцы таблицы и отдельные таблицы, друг к другу.
Во-первых, организовать файлы данных, чтобы они хорошо продуманы, уникальные имена. Стим-практика с конвенциями по именованию файлов и структурами папок/субфолдеров позволяет обеспечить широкую масштабируемость базы данных без ущерба для читаемости доступа к файлам вручную. Добавляйте устаревшие файлы в согласованном формате и субфолдеры имен в соответствии с метаданными.
При построении структуры базы данных нарисуйте взаимосвязи между полями в разных таблицах. Создайте документацию README, описывая созданную базу данных и отношения. Она может быть как графической, так и текстовой.
После того, как запись между различными таблицами связана, вся связанная информация связана с этой записью и может быть использована для вызова сложных запросов для фильтрации до нужной информации. Сделайте конечный результат похожим на этот пример, когда различные характеристики людей связаны с связанными экспериментальными данными этих людей. То же самое было сделано путем сопоставления столбцов типов шаблонов и типов данных с сопоставления записей в основной таблице DataValues для объяснения различных коротких нотаций.
Определите все различные эксперименты и методы анализа данных, которые могут привести к сбору данных, а также обычные методы хранения данных для каждого типа данных. Работа с программным обеспечением для управления версиями с открытым исходным кодом, таким как GitHub, чтобы обеспечить необходимую согласованность и управление версиями при минимизации бремени пользователей. Убедитесь в том, чтобы создать процедуру последовательного именования и хранения данных, чтобы обеспечить автоматизированный конвейер.
Используйте любой удобный язык программирования для создания новых записей данных для базы данных. Создавайте небольшие таблицы помощников в отдельных файлах, которые могут направлять автоматизированный выбор данных. Эти файлы служат шаблоном возможностей для работы конвейера и просты в редактировании.
Для создания новых записей данных для конвейера данных запрограммировать код таким же образом, как и приведенный здесь пример, который приведен в дополнительных файлах с этой статьей. Это позволит использовать таблицы помощников в качестве входных данных, которые будут выбраны пользователем. Отсюда соберите новую таблицу местоположения файлов, объединив новые записи с предыдущими записями.
Код, показанный здесь и представленный в дополнительных файлах, может быть использован для автоматизации этого процесса. После этого проверьте объединенную таблицу на наличие дубликатов с использованием кода, показанного здесь для автоматизации этого шага. Кроме того, проверьте электронную таблицу на наличие ошибок с помощью автоматизированного метода и уведомите пользователя об их причине и местонахождении.
Кроме того, вы можете написать код, который проверит составленную базу данных и определит любые недостающие плохие точки данных. Вручную удалите плохие точки, не теряя целостности базы данных, используя код, аналогичный тому, что показано здесь. Повторите эти шаги, чтобы добавить больше точек данных.
Затем используйте расположение файлов для создания электронной таблицы значения данных. Кроме того, создайте обновленный список записей, доступ к которые можно получить для определения местоположения файлов или слияния с будущими записями. Для начала создания базы данных сначала создайте пустой документ базы данных для загрузки таблицы помощников для ячеев, типов данных и типов шаблонов.
Перейдите в меню Внешние данные, выберите импорт текстовых файлов, нажмите на Просмотр, а затем выберите нужный файл. В Импорт Волшебник, выберите Delimited и ударил Далее. Select First Row содержит имена поля и запятую для типа делимитатора.
После нажатия на Next выберите параметры поля по умолчанию, а затем выберите Нет основного ключа. Нажмите на Следующий, а затем закончить. Затем загрузите данные и типы шаблонов, повторив эти же шаги.
Затем загрузите таблицу значений данных. Перейдите в меню Внешние данные, выберите импорт текстовых файлов, нажмите на Просмотр, а затем выберите нужный файл. В Импорт Волшебник, выберите Delimited и ударил Далее.
Select First Row содержит имена поля и запятую для типа делимитатора. После нажатия на Next выберите параметры поля по умолчанию, а затем выберите Let Access, чтобы добавить основной ключ. Нажмите на Следующий, а затем закончить.
Теперь создайте отношения, выбрав инструменты базы данных, переходя к отношениям и перетаскивая все таблицы на доску. Затем перейдите к редактированию отношений и выберите Создать новый. Выберите имена таблицы и столбца, а затем нажмите на тип Join Type, который указать на таблицы помощников.
После настройки каждого желаемого отношения перейдите к созданию и выбору дизайна запросов и выберите или перетащите все соответствующие таблицы в верхнее окно. В этом примере показаны линии ячееок, значения данных, типы данных и тип шаблона. Отношения должны автоматически на настройку на основе предыдущего дизайна отношений.
Теперь заполните столбцы запросов для достижения желаемых результатов. Для этого набора данных, перейдите, чтобы показать и выбрать итоги. Заполните первую колонку, вторую колонку и третью колонку, как показано здесь.
Заполните четвертую колонну, пятую колонну и шестую колонну. По момент завершения заполнения столбцов сохраните и запустите запрос. Для этого образца экспериментальных данных используйте одноуговейный анализ дисперсии с помощью теста Tukey для среднего сравнения между различными условиями.
При получении множества возможных подтверждений может быть трудно определить, где существуют новые взаимосвязи с использованием ручных методов агрегирования данных. Здесь организация субклеточных нитей актина в различных условиях измерялась с использованием степени ориентационного порядка путем запроса базы данных в различных подтверждениях. Анисотропные и изотропные наборы данных показывают значительно разные ООП, что ожидалось с тех пор, как микропаттернирование фибронектина сильно влияет на организацию тканей.
Тем не менее, не было никаких существенных различий между условиями статуса мутации при сравнении изотропных тканей. И наоборот, структура тканей были статистически менее организованы в положительной линии клеток контроля. Эта взаимосвязь проводилась даже тогда, когда данные агрегируются различными семьями по сравнению с положительным и отрицательным контролем.
При необходимости данные можно дополнительно разобрать. В качестве примера, здесь актин OOP был построен в отношении возраста человека во время биопсии, разделенных мутации статуса и семьи, чтобы проиллюстрировать агрегации против клинической переменной. С этим набором данных нет никакой корреляции между организацией актина и возрастом человека.
Это показывает, как можно анализировать одинаковые данные в различных комбинациях и как легко обычно трудная задача агрегирования данных, помекающих несколько классов, может быть выполнена с помощью баз данных. Этот протокол для создания организационного конвейера данных и создания базы данных обеспечивает научную строгость, которая абсолютно необходима в этот век сбора данных большого объема.