Method Article
Это исследование сравнивает реляционных и нереляционных (NoSQL) стандартизированных систем медицинской информации. Вычислительная сложность время отклика запроса таких систем управления базами данных (СУБД) вычисляется с помощью удвоения размера баз данных. Эти результаты помогут обсуждение целесообразности подхода каждой базы данных проблем и различных сценариев.
Это исследование показывает протокол для оценки вычислительная сложность запроса реляционных и нереляционных (NoSQL (не только язык структурированных запросов)) стандартизированных электронных медицинских записей (ЭМК) системы медицинской информации базы данных (СУБД). Он использует набор трех удвоение размера баз данных, т.е. баз хранения 5000, 10000 и 20000 реалистичные стандартизированные экстракты EHR, в трех систем управления различными базами данных (СУБД): реляционного MySQL объектно реляционного сопоставления (ORM), на основе документа NoSQL MongoDB и родной расширяемый язык разметки (XML) NoSQL существуют.
Среднее время ответа для шести увеличения сложности запросов были рассчитаны, и результаты показали линейное поведение в случаях NoSQL. В поле NoSQL MongoDB представляет много льстить линейной наклон, чем существует.
NoSQL системы также могут быть более целесообразным сохранить стандартизированных медицинских информационных систем из-за особого характера обновления политики медицинской информации, которая не должна затрагивать согласованности и эффективности данных, хранящихся в базах данных NoSQL.
Одно ограничение этого протокола является отсутствие прямых результатов улучшения реляционных систем, таких как архетип реляционного сопоставления (ARM) с теми же данными. Однако интерполяции результатов удвоение размера базы данных для тех, кто представил в литературе и других опубликованных результатов свидетельствует о том, что NoSQL системы может быть более подходящим во многих конкретных сценариев и решить проблемы. К примеру NoSQL может подходить для задач, на основе документов, например EHR экстракты, используемые в клинической практике, издание и визуализация или в ситуациях, где целью является не только медицинской информации запроса, но и для восстановления EHR в точно в его первоначальном виде.
NoSQL (не только SQL) СУБД недавно появились как альтернатива традиционной реляционной СУБД (ВЫСОКОМАСШТАБИРУЕМЫЙ). РСУБД доминировали как данные хранились в базе данных систем на протяжении десятилетий. Хорошо изучена и понял Реляционная алгебра и математический анализ гарантируют эффективность и согласованность РСУБД1. NoSQL системы не станут заменителей для реляционных систем, но они могут вести себя выгодно, в некоторых сценариях и при нескольких условиях.
Некоторые из этих конкретных сценариев и условий произойдет при проектировании базы данных сохраняемости систем электронного здравоохранения запись (EHR) используется для управления и хранения медицинской информации. Для того, чтобы быть совместимой и устойчивым на практике, некоторые международные стандарты, как ISO/EN 13606, openEHR и HL72,,345 ,были использованы для стандартизации EHR экстрактов.
Некоторые стандарты, как ISO/EN 13606 и openEHR отделили информации и знаний на двух различных уровнях абстракции, представлены в модели ссылки (RM) и специальных данных структур, называемых архетипов. Это разделение часто называют двойной модель и позволяет EHR систем быть семантически интероперабельной и медицинских знаний развиваться без перепрограммирования системы в целом EHR и, следовательно, в сопровождении и устойчивым на практике6 . Однако двойной модели реализованы в стандартизированных систем EHR требует что организации информации соответствует определенной структуре, и это имеет серьезные последствия в способ сохранения уровень базы данных системы разработанные7.
Объект Relational Mapping (ORM)8 является одной методологии внедрить систему EHR, с использованием парадигмы реляционной базы данных. ORM исчерпывающим образом сопоставляет структуры стандартизированных файлов XML (расширяемый язык разметки) EHR экстракты, используемые системой для реляционной базы данных. ORM создает много реляционных таблиц исчерпывающе после структуры стандартизированных экстрактов EHR XML-файлов. Эти реляционные таблицы связаны посредством многих внешних ключей и результирующая система не может быть очень эффективным.
Были предложены несколько реляционных улучшения ORM. openEHR путь узла +9 уменьшает число реляционных таблиц путем сериализации поддеревья экстракта всего XML-файла в капли (больших двоичных объектов). Однако это упрощение вызывает сложные поиска логики, повредив сложных запросов. Архетип реляционного сопоставления (ARM)10 генерирует обусловлен архетипы, строительство новой реляционной схемы, на основе сопоставлений между архетипы и реляционными таблицами модели базы данных. Следовательно некоторые сведения немедицинских EHR экстракта теряется.
Многие на основе документов баз данных NoSQL хранить целые документы как весь капли, уважая оригинальный XML или JSON (объектная нотация JavaScript) формат. Это означает, что не реляционные таблицы строятся. Эти базы данных NoSQL имеют не схема и они не поддерживают либо соединения или (кислота) свойства11, т.е., атомарности, согласованности, изоляции или прочность. В результате они могут быть очень неэффективно, если элемент документа ссылается на элементы одного и того же или других таких документов, используя ссылку косвенного обращения. Это происходит, потому что, с тем чтобы сохранить последовательность, полностью ссылочные документы должны обрабатываться последовательно. Однако нереляционная база данных может быть еще уместным, если основная задача, выполняемая СУБД на основе документа задача. Это потому, что данные могут оставаться в форме, более тесно приближения его истинное представление, с использованием базы данных на основе документа NoSQL, хотя это также из-за специальных сохранение политики, проделанную EHR медицинские документы (см. раздел "обсуждение").
Цель этих методов заключается в демонстрации нескольких экспериментов, чтобы сравнить реализации сохраняемости слоя стандартизованной системы EHR, используя три различных СУБД: один реляционных (MySQL) и два NoSQL (на основе документа MongoDB и поддержкой XML существуют). Был их вычислительной сложности вычисляется и сравнивается используя три различных увеличение размера базы данных и шесть различных увеличения сложности запросов. Три базы данных серверов были установлены и настроены локально в том же компьютере, где были выполнены запросы. Смотрите Таблицу материалы для технических деталей.
Проводились также параллелизма эксперименты с целью сравнения производительности реляционных СУБД MongoDB NoSQL и MySQL. Описаны улучшения ORM (+ путь узла и ARM) также были по сравнению с использованием соответствующих соответствующие результаты из литературы10.
Систем управления базами данных непрерывно развиваются быстрыми темпами. Никто бы думать об этом экспоненциальное развитие когда единственной существующей парадигмы является реляционная модель. В качестве примера, увидеть например12, где модель была предложена для реализации время отклика более реляционных баз данных, сохраняя свойства ACID.
1. Построьте реляционной СУБД MySQL для хранения трех двойной размера EHR стандартизированных экстрактов баз данных
2. Построьте NoSQL MongoDB СУБД для хранения трех двойной размера EHR стандартизированных экстрактов баз данных
3. Построение NoSQL существует СУБД для магазина три двойной размера стандартизированных EHR извлекает баз данных
4. дизайн и в реляционных MySQL баз данных 3 6 увеличение сложности запросов
5. Разработка и выполнение в NoSQL MongoDB баз данных 3 6 увеличение сложности запросов
6. Разработка и выполнение в 3 NoSQL существует растущая сложность запросов баз данных 6
7. Разработка и выполнение параллелизма эксперимент с использованием MySQL и баз данных экстрактов MongoDB 5000
Примечание: Существует база данных удалена из эксперимента на данном этапе ввиду хуже, производительность в предыдущих экспериментах.
Шесть различных запросов, выполненных на реалистичные стандартизированных экстрактов EHR, содержащий информацию о проблемах пациентов, включая их имена, начальная и конечная даты и серьезности, показаны в таблице 1.
Среднее время ответа шесть запросов в трех удвоение размера баз данных в каждой СУБД приведены в таблицах 2-4. Цифры 1-6 показать те же результаты графически (Обратите внимание, что вертикальных осей используют очень разные шкалы на протяжении эти цифры).
Сильный линейное поведение вычислительной сложности очевидно на протяжении всех запросов баз данных NoSQL, хотя с соответствующей осторожностью ввиду относительно небольшого размера 3 наборов данных, используемые. Однако в реляционной базе данных ORM показывает неясным линейное поведение. В базе данных MongoDB имеет много льстить наклон, чем база данных существует.
Результаты улучшения реляционных систем, обсуждались в введении, опубликованных в литературе приводится в таблице 5. Интерполяции MongoDB результаты из таблицы 3 с сходных запросов и баз данных размеров руки результаты из таблицы 5 равна обе базы данных системы в Q1, но способствует MongoDB в Q3.
Результаты экспериментов параллелизма можно найти в таблице 5 и Таблица6. MongoDB бьет MySQL как в пропускную способность и время отклика. В самом деле MongoDB ведет себя лучше чем параллелизма в изоляции и стоит впечатляющий базу данных в качестве параллельного выполнения.
Рисунок 1 : Алгоритмической сложности ORM MySQL, MongoDB, и существуют СУБД для запросов Q1 и Q4. Эта цифра была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает баз данных для каждой СУБД и запросы Q1 и Q4. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 2 : Алгоритмическая сложность СУБД MySQL ORM для запроса Q2. Эта цифра показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает ORM MySQL базу данных для запроса Q2. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 3 : Алгоритмической сложности MongoDB и существуют СУБД для запроса Q2 и Q5. Эта цифра была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/licenses/, / 4.0) и показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает баз данных для каждой СУБД и запросы Q2 и Q5. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 4 : Алгоритмической сложности ORM СУБД MySQL запросов Q3 и Q5. Показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает баз данных для каждой СУБД и запросы Q3 и Q5. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 5: алгоритмической сложности существуют и MongoDB СУБД для запроса Q3. Эта цифра была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/licenses//4.0 /) и показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает баз данных для каждой СУБД и запроса Q3. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 6 : Алгоритмическая сложность ORM MySQL, существуют и MongoDB СУБД для запроса Q6. Эта цифра была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/licenses//4.0 /) и показывает время отклика в секундах для 5000, 10000 и 20000 размера EHR извлекает баз данных для каждой СУБД и запросов Q6. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Запрос | |
Q1 | Найти все проблемы одного пациента |
Q2 | Найти все проблемы всех пациентов |
Q3 | Начальная дата, Дата резолюции и тяжести |
из одной проблемы одного пациента | |
Q4 | Начальная дата, Дата резолюции и тяжести |
из всех проблем проблемы одного пациента | |
Q5 | Начальная дата, Дата резолюции и тяжести |
все проблемы проблемы всех пациентов | |
Q6 | Найти все больные проблемы «фарингит», |
Начало > = ' 16/10/2007 ', резолюции Дата | |
< = ' 06/05/2008 ' и «высокий» |
Таблица 1: шесть запросов выполняются на реляционных и баз данных NoSQL содержащие стандартизированные EHR извлекает о проблемах пациентов. Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает шесть растущей сложности запросов осуществляется на трех баз данных становится размера для каждой СУБД, выраженная в природных язык.
ORM/MySQL | 5000 документов | 10 000 документов | 20 000 документов |
Q1 (s) | 25.0474 | 32.6868 | 170.7342 |
Q2 (s) | 0.0158 | 0.0147 | 0.0222 |
Q3 (s) | 3.3849 | 6.4225 | 207.2348 |
Q4 (s) | 33.5457 | 114.6607 | 115.4169 |
Q5 (s) | 9.6393 | 74.3767 | 29.0993 |
Q6 (s) | 1.4382 | 2.4844 | 183.4979 |
Размер базы данных | 4,6 ГБ | 9,4 ГБ | 19.4 ГБ |
Всего экстракты | 5000 | 10 000 | 20 000 |
Таблица 2: среднее время отклика в секундах шесть запросов на удвоение размера баз данных реляционной СУБД ORM MySQL. Эта таблица показывает шесть время отклика для каждого запроса для трех удвоение размера базы данных с помощью реляционной СУБД ORM MySQL и размер в памяти трех баз данных.
MongoDB | 5000 документов | 10 000 документов | 20 000 документов | склон (*10exp(-6)) |
Q1 (s) | 0,046 | 0,057 | 0.1221 | 5.07 |
Q2 (s) | 34.5181 | 68.6945 | 136.2329 | 6,780.99 |
Q3 (s) | 0,048 | 0,058 | 0.1201 | 4.81 |
Q4 (s) | 0.052 | 0,061 | o.1241 | 4.81 |
Q5 (s) | 38.0202 | 75.4376 | 149.933 | 7460.85 |
Q6 (s) | 9.5153 | 18.5566 | 36.7805 | 1,817.68 |
Размер базы данных | 1,95 ГБ | 3.95 ГБ | 7,95 ГБ | |
Всего экстракты | 5000 | 10 000 | 20 000 |
Таблица 3: среднее время отклика в секундах шесть запросов на удвоение размера баз данных NoSQL СУБД MongoDB. Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает шесть отклика каждого запроса для трех удвоение размера базы данных с использованием СУБД MongoDB NoSQL и размер в памяти из трех баз данных. Показано также линейной склоне каждого запроса.
Существует | 5000 документов | 10 000 документов | 20 000 документов | склон (*10exp(-6)) |
Q1 (s) | 0.6608 | 3.7834 | 7.3022 | 442.76 |
Q2 (s) | 60.7761 | 129.3645 | 287.362 | 15,105.73 |
Q3 (s) | 0.6976 | 1,771 | 4.1172 | 227.96 |
Q4 (s) | 0.6445 | 3.7604 | 7.3216 | 445.17 |
Q5 (s) | 145.3373 | 291.2502 | 597.7216 | 30,158.93 |
Q6 (s) | 68.3798 | 138.9987 | 475.2663 | 27,125.82 |
Размер базы данных | 1,25 ГБ | 2.54GB | 5.12 ГБ | |
Всего экстракты | 5000 | 10 000 | 20 000 |
Таблица 4: среднее время отклика в секундах шесть запросов на удвоение размера базы данных существуют NoSQL СУБД. Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает, что существуют шесть отклика каждого запроса для трех удвоение размера баз данных, используя NoSQL СУБД и размер в памяти три базы данных. Показано также линейной склоне каждого запроса.
ARM бумага | РУКА (s) | Путь узла + (s) | |
Q1 | Запрос 2.1 | 0.191 | 24.866 |
Q3 | Запрос 3.1 | 0,27 | 294.774 |
Размер базы данных | 2.90 ГБ | 43.87 ГБ | |
Всего экстракты | 29,743 | 29,743 |
Таблица 5: среднее время отклика в секундах запросов похож на Q1 и Q3 улучшение реляционных систем, представленных в 10 . Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает два наиболее сходных запросов Q1 и Q3, представлены в10 соответствующих двух систем повышения реляционной базы данных и времени их отклика. Также отображаются размеры двух баз данных.
ORM/MySQL | Пропускная способность | Время отклика |
Q1 (s) | 4,711.60 | 0.0793 |
Q3 (s) | 4,711.60 | 0.1558 |
Q4 (s) | 4,711.60 | 0.9674 |
Таблица 6: средняя пропускная способность и время отклика в секундах запросов Q1, Q3 и Q4 ORM MySQL в параллельного выполнения реляционных СУБД. Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает высокая средняя пропускная способность трех запросов одного пациента и их среднего времени отклика в одновременных Выполнение эксперимента с помощью реляционной системы ORM MySQL.
MongoDB | Пропускная способность | Время отклика |
Q1 (s) | 178,672.60 | 0.003 |
Q3 (s) | 178,672.60 | 0,0026 |
Q4 (s) | 178,672.60 | 0,0034 |
Таблица 7: средняя пропускная способность и время отклика в секундах запросов Q1, Q3 и Q4 MongoDB NoSQL СУБД в параллельного выполнения. Эта таблица была изменена от7 с использованием лицензии Creative Commons (http://creativecommons.org/ licenses/by/4.0/) и показывает высокая средняя пропускная способность трех запросов одного пациента и их среднего времени отклика в одновременных Выполнение эксперимента с использованием системы MongoDB NoSQL.
Дополнительный рисунок 1: скриншот показывает экран программного обеспечения для подключения к MySQL серверу. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Дополнительные рис: скриншот показывает интерфейс SQL в MySQL сервер где был написан первый запрос SQL. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Дополнительная цифра 3: 2.6 MongoDB localhost сервер запускается в окне DOS системы путем выполнения сервера mongod. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Дополнительный рисунок 4: скриншот показывает запрос, написанные в текстовые поля построитель запросов, как показано в шагах 5.7.1 через 5.7.4. Скриншот иллюстрирует шаг 5.7.3. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Дополнительная цифра 5: скриншот показывает шаг 5.7.6. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Дополнительный рис: скриншот иллюстрирует написания запроса XPath части диалогового окна. Пожалуйста, нажмите здесь, чтобы скачать этот показатель.
Этот протокол показывает, что чисто реляционных систем ORM не представляется практичным для одного пациента запросов (Q1, Q3 и Q4), поскольку время отклика медленнее, вероятно из-за большого числа реляционных таблиц, выполнение многих операций дорогих join и из-за система хранения данных используется особый вид базы данных. NoSQL баз данных хранят данные в моде, на основе документа, в то время как реляционные системы используют таблицы на основе моды, который распространяется в каждом документе на протяжении всей базы данных. NoSQL системы показывают линейной склон, с MongoDB, выполняя значительно быстрее, чем существует СУБД. В параллелизма MongoDB также ведет себя гораздо лучше, чем реляционных MySQL ORM7.
Этот протокол представляет неполадок протокола для получения результатов, представленных в7 относительно СУБД MySQL ORM. Система MySQL был обновлен до последней версии, и результаты были слегка изменены. Кроме того критической точки в документе NoSQL системах таких как MongoDB является, что они могут сохранить согласованность при хранении медицинской информации7 , потому что когда Выдержка EHR обновляется, он не перезаписывается, но целый новый экстракт с новыми данными генерируется и хранится в системе, и сохраняется оригинальный экстракт. Это строгое требование медицинской информации, потому что некоторые врачи сделали важные медицинские решения, основанные на исходных данных.
Улучшенная система реляционной РУКУ резко уменьшается число реляционных таблиц и улучшает производительность реляционного. Однако поскольку она изменяет реляционной схемы, медицинской информации, хранящейся в экстракты могут быть запрошены, но выдержки не могут быть восстановлены в их точное оригинальные формы.
Для очень больших баз данных вторичного использования (исследования), не ясно, какая система базы данных более подходящим, поскольку все пациент запросов (Q2 и Q5) себя лучше в ORM, чем в системах NoSQL, но эти системы работают лучше, чем упрощенной реляционных системы в 12. Мы считаем Q6, специальных запросов между клинической практики и вторичного использования, поведение которых не может определяться результаты принесли эти эксперименты.
Однако одно ограничение метода является отсутствие прямых экспериментов, сравнивая усовершенствованной системы реляционных РУКУ с NoSQL MongoDB относительно одного пациента, медицинской практике запросы с точно те же данные, используемые в протоколе. Мы поддерживали результатов интерполяции таблицы 3 и Таблица 5 относительно одним пациентом запросы до тех пор, пока был проведен эксперимент, включая оптимизированные РУКУ в протоколе. Мы оставим эти эксперименты для будущих приложений. Один важный шаг в рамках протокола является выбор бесплатные базы данных, аналогичные версии программного обеспечения в последние годы, так что мы может сравнить точное состояние о--искусство трех технологий.
Это одна из первых попыток непосредственно сравнить реляционных и NoSQL систем с использованием фактических, реалистичные, стандартизированные медицинской информации. Однако системе определенных использоваться зависит гораздо фактический сценарий и проблема быть выполнено8.
Авторы не имеют ничего сообщать. Наборы данных, используемые в этих экспериментов были предоставлены несколько испанских больницах под лицензией для этих экспериментов и поэтому не являются общедоступными. ISO/EN 13606 RM XML-схема была представлена центром Университета Колледж Лондон для здравоохранения информатики и Multiprofessional образования (звон).
Авторы хотели бы поблагодарить д-ра Dipak Калра, руководитель Целевой группы EHRCom, которая определена ISO/EN 13606 стандарта и его команда из университетского колледжа Лондона за их любезное разрешение использовать ISO/EN 13606 схемы W3C XML.
Эта работа была поддержана Институту Salud Карлоса III [номера грантов PI15/00321, PI15/00003, PI1500831, PI15CIII/00010 и RD16CIII].
Name | Company | Catalog Number | Comments |
MySQL 5.7.20 | MySQL experiments | ||
Red Hat Enterprise Linux Server release 7.4 (Maipo), 2.60GHz, RAM 16GB | |||
MongoDB 2.6 | MongoDB experiments | ||
Windows 7, 2.66GHz, RAM 12GB | |||
eXist 3.0RC1 | eXist experiments | ||
Windows 7, 2.66GHz, RAM 12GB | |||
Studio 3T 5.5.1 | 3T Software Labs Gmbh | MongoDB GUI |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены
Мы используем файлы cookie для улучшения качества работы на нашем веб-сайте.
Продолжая пользоваться нашим веб-сайтом или нажимая кнопку «Продолжить», вы соглашаетесь принять наши файлы cookie.