Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.
Method Article
Многие исследователи генерируют "средние", низкоскоростные и многомерные данные, которые могут управляться более эффективно с помощью баз данных, а не электронных таблиц. Здесь мы предоставляем концептуальный обзор баз данных, включая визуализацию многомерных данных, увязку таблиц в реляционных структурах баз данных, картирование полуавтоматических конвейеров данных и использование базы данных для выяснения значения данных.
Наука опирается на все более сложные наборы данных для прогресса, но общие методы управления данными, такие как программы электронных таблиц, недостаточны для роста масштабов и сложности этой информации. Хотя системы управления базами данных обладают потенциалом для исправления этих проблем, они обычно не используются за пределами областей бизнеса и информатики. Тем не менее, многие исследовательские лаборатории уже генерируют "средние", низкие скорости, многомерные данные, которые могли бы извлечь большую пользу из внедрения аналогичных систем. В этой статье мы предоставляем концептуальный обзор, объясняющий, как функционируют базы данных и как их преимущества они предоставляют в приложениях для разработки тканей. Структурные данные фибробластов от лиц с мутацией a/C ламина были использованы для иллюстрации примеров в определенном экспериментальном контексте. Примеры включают визуализацию многомерных данных, увязку таблиц в реляционной структуре базы данных, отображение полуавтоматизированного конвейера данных для преобразования необработанных данных в структурированные форматы и объяснение лежащего в основе синтаксиса запроса. Результаты анализа данных были использованы для создания участков различных механизмов и значение было продемонстрировано в организации клеток в выровненных средах между положительным контролем Прогерии Хатчинсона-Гилфорда, известной ламинопатии, и всеми другими экспериментальными группами. По сравнению с электронными таблицами методы баз данных были чрезвычайно эффективными по времени, простыми в использовании после настройки, позволяли немедленный доступ к исходным местоположениям файлов и увеличивали строгость данных. В ответ на то, что Национальные институты здравоохранения (НИЗ) уделяют особое внимание экспериментальной строгости, вполне вероятно, что многие научные области в конечном итоге примут базы данных в качестве обычной практики из-за их мощной способности эффективно организовывать сложные данные.
В эпоху, когда научный прогресс в значительной степени определяется технологией, обработка больших объемов данных стала неотъемлемым аспектом исследований во всех дисциплинах. Появление новых областей, таких как вычислительная биология и геномика, подчеркивает, насколько важным стало упреждающее использование технологий. Эти тенденции, несомненно, будет продолжаться в связи с законом Мура и устойчивый прогресс, полученный от технического прогресса1,2. Одним из следствий, однако, является рост количества генерируемых данных, которые превышают возможности ранее жизнеспособных методов организации. Хотя большинство академических лабораторий имеют достаточные вычислительные ресурсы для обработки сложных наборов данных, многие группы не имеют технических знаний, необходимых для создания пользовательских систем, подходящих для разработки потребностей3. Наличие навыков управления и обновления таких наборов данных по-прежнему имеет решающее значение для эффективного рабочего процесса и вывода. Преодоление разрыва между данными и опытом имеет важное значение для эффективного обработки, повторного обновления и анализа широкого спектра многогранных данных.
Масштабируемость является важным фактором при обработке больших наборов данных. Большие данные, например, является процветающей области исследований, которая включает в себя выявление новых идей от обработки данных характеризуется огромными объемами, большой неоднородности, и высокие темпы генерации, такие как аудио и видео4,5. Использование автоматизированных методов организации и анализа является обязательным для этой области для надлежащей обработки потоков данных. Однако многие технические термины, используемые в больших данных, четко не определены и могут ввести в заблуждение; например, данные о "высокой скорости" часто ассоциируются с миллионами новых записей в день, в то время как данные о низкой скорости могут составить лишь сотни записей в день, например, в учебной лаборатории. Хотя Есть много интересных выводов еще предстоит обнаружить с помощью больших данных, большинство академических лабораторий не требуют масштабов, мощности и сложности таких методов для решения своих собственных научных вопросов5. Хотя не вызывает сомнений, что научные данные становятся все более сложными со временем6,многие ученые продолжают использовать методы организации, которые больше не отвечают их расширяющимся потребностям данных. Например, удобные программы электронной таблицы часто используются для организации научных данных, но за счет того, что немасштабируемы, подвержены ошибкам, и время неэффективно в долгосрочной перспективе7,8. И наоборот, базы данных являются эффективным решением проблемы, поскольку они масштабируемы, относительно дешевы и просты в обработке различных наборов данных текущих проектов.
Непосредственными проблемами, возникающими при рассмотрении схем организации данных, являются затраты, доступность и время инвестирования для обучения и использования. Часто используемые в бизнес-настройках программы баз данных являются более экономичными, либо относительно недорогими или бесплатными, чем средства, необходимые для поддержки использования систем больших данных. На самом деле, существует множество коммерчески доступных и открытых исходных программ для создания и обслуживания баз данных, таких как Oracle Database, MyS'L и Microsoft (MS) Access9. Многие исследователи также будет поощряться, чтобы узнать, что несколько MS Office академических пакетов поставляются с MS Access включены, дальнейшее сведение к минимуму расходы соображений. Кроме того, почти все разработчики предоставляют обширную документацию в Интернете и есть множество бесплатных интернет-ресурсов, таких как Codecademy, W3Schools, и S'LBolt, чтобы помочь исследователям понять и использовать структурированный язык запроса (S'L)10,11,12. Как и любой язык программирования, научиться использовать базы данных и код с помощью S'L требуется время, чтобы освоить, но с достаточными ресурсами, доступных процесс прост и стоит вложенных усилий.
Базы данных могут быть мощными инструментами для повышения доступности данных и простоты агрегирования, но важно определить, какие данные в наибольшей степени выиграют от усиления контроля над организацией. Многомерность относится к числу условий, с которыми можно сгруппировать измерения, а базы данных являются наиболее мощными при управлении различными условиями13. И наоборот, информацию с низкой размерностью проще всего обрабатывать с помощью программы электронных таблиц; например, набор данных, содержащий годы и значение за каждый год, имеет только одну возможную группировку (измерения по отношению к годам). Высокомерные данные, такие как из клинических параметров потребует большой степени ручной организации для того, чтобы эффективно поддерживать, утомительный и подверженный ошибкам процесс за пределами объема электронных таблиц программ13. Нереляционные базы данных (NoS'L) также выполняют различные роли, в первую очередь в приложениях, где данные не организуются хорошо в строки и столбцы14. Помимо того, что эти организационные схемы часто используются с открытым исходным кодом, они включают графические ассоциации, данные временных рядов или данные на основе документов. НоСЗЛ лучше масштабирует масштабируемость, чем S'L, но не может создавать сложные запросы, поэтому реляционные базы данных лучше в ситуациях, требующих согласованности, стандартизации и нечастых крупномасштабных изменений данных15. Базы данных лучше всего на эффективной группировки и повторного обновления данных в большой массив конформации часто необходимы в научных условиях13,16.
Таким образом, основная цель этой работы заключается в информировании научного сообщества о потенциале баз данных в качестве масштабируемых систем управления данными для "средних", данных о низкой скорости, а также в предоставлении общего шаблона с использованием конкретных примеров экспериментов на клеточных линиях, полученных пациентом. Другие аналогичные приложения включают геопространственные данные о руслах рек, анкеты из продольных клинических исследований, а также условия роста микробов в носителях роста17,18,19. В этой работе освещаются общие соображения и полезность построения базы данных в сочетании с конвейером данных, необходимым для преобразования необработанных данных в структурированные форматы. Основы интерфейсов баз данных и кодирования баз данных в СЗЛ представлены и иллюстрированы примерами, позволяющими другим получить знания, применимые к созданию базовых рамок. Наконец, пример экспериментального набора данных показывает, насколько легко и эффективно базы данных могут быть разработаны для агрегирования многогранных данных различными способами. Эта информация предоставляет контекст, комментарии и шаблоны для оказания помощи коллегам-ученым на пути к внедрению баз данных для их собственных экспериментальных потребностей.
Для создания масштабируемой базы данных в исследовательской лаборатории за последние три года были собраны данные экспериментов с использованием клеток фибробластов человека. Основное внимание в этом протоколе заключается в представлении информации об организации компьютерного программного обеспечения, с тем чтобы пользователь мог агрегировать, обновлять и управлять данными максимально экономичным и экономичным способом, но соответствующие экспериментальные методы предоставляются также для Контексте.
Экспериментальная установка
Экспериментальный протокол для подготовки образцов был описан ранее20,21, и представлен кратко здесь. Конструкции были подготовлены спин-покрытие прямоугольных стеклянных покрывало с 10:1 смесь полидиметилсилоксана (PDMS) и лечащий агент, затем применение 0,05 мг / мл фибронектин, либо в неорганизованных (изотропных) или 20 мкм линий с 5 мкм разрыв микропаттернов (линий). Клетки фибробласта были посеяны при прохождении 7 (или проходе 16 для положительного контроля) на крышки при оптимальной плотности и оставлены расти в течение 48 ч с носителями, меняемыми после 24 ч. Клетки были затем исправлены с помощью 4% параформальдегида (PFA) раствор и 0,0005% неионический сурфактант, а затем крышки иммуноокрашенные для ядер клеток (4',6'-diaminodino-2-phenylinodole (DAPI), актин (Alexa Fluor 488 phalloidin), и фиброн. Вторичное пятно для фибронектина с использованием козла анти-кроликig IgG антител (Alexa Fluor 750 коза анти-кролик) был применен и сохранения агент был установлен на все крышки для предотвращения флуоресцентных выцветания. Лак для ногтей был использован для уплотнения coverslips на микроскоп слайды затем оставили высохнуть в течение 24 ч.
Флуоресценция изображения были получены, как описано ранее20 с помощью 40x нефти погружения цели в сочетании с цифровой заряда соединенных устройств (CCD) камера установлена на перевернутой моторизованной микроскоп. Десять случайно выбранных полей зрения были изображены для каждого coverslip на 40x увеличение, что соответствует 6,22 пикселей / мкм резолюции. Пользовательские написанные коды использовались для количественной оценки различных переменных изображений, описывающих ядра, актиновые нити и фибронектин; соответствующие значения, а также параметры организации и геометрии были автоматически сохранены в файлах данных.
Сотовые линии
Более обширная документация по всем линиям ячейки выборочных данных содержится в предыдущих публикациях20. Для краткого описания, сбор данных был одобрен и информированное согласие было выполнено в соответствии с UC Irvine Институциональный обзор совета (IRB 2014-1253). Клетки фибробласта человека были собраны из трех семейств различных вариаций мутации гена ламина A/C(LMNA): гетерозиготная мутация сращивания LMNA (c.357-2A-gt;G)22 (семья A); Мутация нонсенса LMNA (c.736 C'gt;T, p'246X) в экзоне 423 (семья B); и мутация LMNA (c.1003C-gt;T, pR335W) в экзоне 624 (семья C). Клетки фибробласта были также собраны у других людей в каждой семье в качестве связанных мутационно-отрицательных элементов управления, именуемых «Контролем», а другие были приобретены как несвязанные мутационно-отрицательные элементы управления, именуемые «донорами». В качестве положительного контроля, фибробластные клетки от человека с Хатчинсон-Глифорд прогерия (HGPS) были приобретены и выросли из биопсии кожи взяты из 8-летняя пациентка с HGPS обладающих LMNA G608G точки мутации25. В общей сложности, фибробласты из 22 человек были протестированы и использованы в качестве данных в этой работе.
Типы данных
Данные Fibroblast делятся на одну из двух категорий: клеточные переменные ядер (т.е. процент дисморфических ядер, площадь ядер, эксцентриситет ядер)20 или структурные переменные, вытекающие из параметра ориентационного порядка (OOP)21,26,27 (т.е. актин OOP, fibronectin OOP, nuopiO). Этот параметр равен максимальной eigenvalue среднего заказа тензор всех векторов ориентации, и он подробно определен в предыдущих публикациях26,28. Эти значения агрегируются в различные возможные конформации, такие как значения по возрасту, полу, статусу заболевания, наличие определенных симптомов и т.д. Примеры использования этих переменных можно найти в разделе результатов.
Пример кодов и файлов
Примеры кодов и других файлов, основанных на приведенных выше данных, могут быть загружены в этом документе, а их имена и типы суммируются в таблице 1.
ПРИМЕЧАНИЕ: Смотрите таблицу материалов для версий программного обеспечения, используемых в этом протоколе.
1. Оценить, выиграют ли данные от схемы организации баз данных
2. Организовать структуру базы данных
ПРИМЕЧАНИЕ: Реляционные базы данных хранят информацию в виде таблиц. Таблицы организованы в схемах строк и столбцов, похожие на электронные таблицы, и могут быть использованы для ссылки идентифицирующей информации в базе данных.
3. Настройка и организация трубопровода
4. Создание базы данных и запросов
ПРИМЕЧАНИЕ: Если таблицы хранят информацию в базах данных, то запросы — это запросы в базу данных для получения информации с учетом конкретных критериев. Существует два способа создания базы данных: начиная с пустого документа или начиная с существующих файлов. На рисунке 4 показан пример запроса с использованием синтаксиса S'L, который предназначен для выполнения с использованием отношений базы данных, показанных на рисунке 2.
5. Переместите таблицы выводов в статистическое программное обеспечение для анализа значимости
Многомерность данных
В контексте приведенного здесь набора данных испытуемые, описанные в разделе Методы, были разделены на группы лиц из трех семейс с сердечно-сказательной мутацией LMNA ("Пациенты"), связанные с немутационным негативным контролем ("Контроль"), не связанн?...
Техническое обсуждение протокола
Первым шагом при рассмотрении вопроса об использовании баз данных является оценка того, выиграют ли данные от такой организации.
Следующим важным шагом является создание автоматизированного кода, который будет запрашивать м...
Авторам нечего раскрывать.
Эта работа поддерживается Национальным институтом сердца, легких и крови при Национальных институтах здравоохранения, грант номер R01 HL129008. Авторы особенно благодарит членов семьи мутации гена LMNA за их участие в исследовании. Мы также хотели бы поблагодарить Линду Маккарти за помощь в культуре клеток и поддержание лабораторных пространств, Насама Чокра за ее участие в визуализации клеток и анализе данных ядер, и Майкла А. Гросберга за его соответствующие советы с настройкой нашей первоначальной базы данных Microsoft Access, а также ответами на другие технические вопросы.
Name | Company | Catalog Number | Comments |
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены