Method Article
Мы представляем протокола и связанных с ними метаданных шаблон для извлечения текста, описывающий биомедицинских концепций в клинических случаев. Структурированные текстовые значения производится через этот протокол может поддерживать глубокий анализ тысяч клинических повествования.
Клинические случаи (КЦДЗ) являются ценным средством обмена наблюдения и исследования в области медицины. Меняется форма этих документов, и их содержание включает в себя описания многочисленных, Роман болезни презентаций и лечения. До настоящего времени текстовые данные в КЦДЗ основном неструктурированных, требующих значительных усилий человека и вычислительные вынести эти данные полезны для углубленного анализа. В этом протоколе мы описываем методы для определения метаданных, соответствующих конкретным биомедицинских понятия, часто наблюдается в КЦДЗ. Мы предоставляем шаблон метаданных как руководство для документа аннотации, признавая, что введение структуры на КЦДЗ могут осуществляться путем комбинации ручного и автоматизированного усилий. Представленный здесь подход подходит для организации связанных с концепцией текста от большой литературе корпус (например, тысячи из КЦДЗ), но может быть легко адаптирована для облегчения более целенаправленных задач или небольшие наборы отчетов. Результате структурированных текстовых данных включает в себя достаточно семантического контекста для поддержки различных рабочих процессов анализа последующего текста: мета анализ для определения как максимизировать CCR подробно, эпидемиологические исследования редких заболеваний и разработка моделей медицинские языка могут все быть сделаны более реализуемы и управляемой с помощью структурированных текстовых данных.
Клинические случаи (КЦДЗ) являются основные средства обмена, замечания и идеи в медицине. Они служат как основной механизм коммуникации и образования для врачей и студентов-медиков. Исторически КЦДЗ также предоставили счетов возникающих заболеваний, их лечения и их генетическим стола1,2,и3,4. Например первый лечения человека бешенство Луи Пастер в 18855,6 и первое применение пенициллина в пациентов,7 были оба сообщили через КЦДЗ. Начиная с апреля 2018, были опубликованы более 1,87 миллионов КЦДЗ с более половины миллиона в течение последнего десятилетия; журналы продолжают предоставлять новые места для этих докладов8. Хотя уникальные по форме и содержанию, КЦДЗ содержат текстовые данные, которые в основном неструктурированных, содержат широкий словарный запас и касаются взаимосвязанных явлений, ограничивая их использования в качестве ресурса структурированной. Требуются значительные усилия для извлекать подробные метаданные (например, «данные о данных», или в данном случае, описания содержимого документа) от КЦДЗ и установить их как данные обнаружимым, доступной, совместимых и многоразовые (ярмарка)9 ресурсов.
Здесь мы описываем процесс для извлечения текста и числовых значений для стандартизации описания конкретных биомедицинских концепций в опубликованных КЦДЗ. Эта методология включает шаблон метаданных для руководства заметки; Смотрите Рисунок 1 обзор этого процесса. Применение процесса аннотации к большой коллекции отчетов (например, несколько тысяч определенного типа болезни презентации) позволяет Ассамблее управляемой и структурированного набора аннотированный клинических текстов, достижение machine-readable Документация и биомедицинских явления встроенные в каждой клинической картины. Хотя форматы данных, таких как предоставляемые HL7 (например., версии 3 стандарта обмена сообщениями10 или быстро здравоохранения ресурсов совместимости [FHIR]11), LOINC12и пересмотр 10 международной статистической Классификация болезней и связанных с ними проблем со здоровьем (МКБ-10)13 обеспечивают стандартов для описания и обмена клинических наблюдений, они не поимка текст, окружающих эти данные, они не предназначены для. Результаты нашей методологии лучше всего использовать для реализации структуры на КЦДЗ и облегчения последующего анализа, нормализации через контролируемые словари и систем кодирования (например., МКБ-10), и/или преобразования в форматы клинических данных, перечисленных выше .
Добыча ресурсов КЦДЗ является активной области работы в рамках биомедицинских и клинических информатики. Хотя предыдущие предложения стандартизировать структуру дело отчеты (например., используя HL7 v2.514 или стандартизированной терминологии фенотип15) заслуживают похвалы, вполне вероятно, что КЦДЗ будет продолжать следить за целый ряд различных естественный язык форм и документов макеты, как они имеют большую часть прошлого века. В идеальных условиях авторы новых отчетов следуйте уход Руководство16 чтобы убедиться, что они являются всеобъемлющими. Подходы, чувствительных к естественного языка и его отношение к медицинской концепции, поэтому может быть наиболее эффективным в работе с новым и архивированных отчетов. Ресурсы, такие как ремесло17 и те производства информатики для интеграции биологии и курирование18 прикроватная (i2b2) поддерживать подходы, обработки естественного языка (NLP) пока не специально сосредоточиться на КЦДЗ или клинических повествования. Аналогично медицинские инструменты НЛП такие cTAKES19 и зажим20 были разработаны, но как правило определить конкретные слова или фразы (то есть, подразделений) в документы, вместо того, чтобы общие концепции, обычно описывается в КЦДЗ.
Мы разработали стандартизированных метаданных шаблон для функции, обычно включаемых в КЦДЗ. Этот шаблон определяет возможности наложить структуры на КЦДЗ — важным прекурсором для углубленного сравнения содержимого документа-еще не обеспечивает достаточную гибкость, чтобы удерживать семантического контекста. Хотя мы разработали формат, связанный с этим шаблоном, подходящими для ручной аннотации и вычислений с помощью текста, мы обеспечили, что это особенно легко использовать для ручного комментаторы. Наш подход заметно отличается от более сложных (и, следовательно, менее сразу понятно неподготовленным исследователей) рамки как FHIR21. Следующий протокол описывает изолировать функции документов, соответствующий типу данных каждого шаблона с одним набором значений, соответствующих этим в одной CCR.
Типы данных в шаблоне являются те самые описательные КЦДЗ и медицинских документов, ориентированных на пациента в целом. Аннотации этих функций способствует находимости, доступность, совместимости и повторное использование CCR текста, главным образом путем предоставления в ее структуре. Типы данных, в четыре общие категории: идентификации документа и аннотации, судебный отчет идентификации (например, свойства документа уровня), медицинское содержание концепции (главным образом концепции уровня свойства) и подтверждения (т.е. особенности предоставления доказательств финансирования). В этом процессе аннотации каждый документ включает в себя полный текст CCR, минуя любой материал содержимое документа, независимых дела (например, экспериментальные протоколы). КЦДЗ, как правило, меньше, чем 1000 слов каждая; один корпус идеально быть проиндексирован же библиографическая база данных и находиться в том же письменного языка.
Продуктом подход, описанный здесь, при применении к CCR корпус, является структурированный набор аннотированных клинических текста. Хотя эта методика может быть выполнена полностью вручную и была разработана чтобы быть выполнены специалистами домена без опыта информатики, он дополняет подходы обработки естественного языка, указанного выше и предоставляет данные, подходящие для Вычислительный анализ. Такой анализ может представлять интерес для аудитории исследователей, помимо тех, которые часто читают КЦДЗ, включая:
Обеспечение соблюдения структуры на КЦДЗ может поддерживать многочисленные последующие усилия, чтобы лучше понять язык медицинских и биомедицинских явлений.
1. документ и заметки идентификации
Примечание: Значения в этой категории поддерживают процесс аннотации.
2. Отчет идентификации
Примечание: Значения этой категории обеспечивают функции уровня документа и способствовать находимости документа.
3. медицинское содержание
Примечание: Значения этой категории определить возможности уровня документа, концепции и текста. Они служат для повышения доступности документа, взаимодействия и многократного использования. Эти функции предоставляют способы соблюдать концептуальную и семантического сходства между содержимого документа, с акцентом на биомедицинских тем и событий. Большинство категорий в этом разделе может включать несколько текст заявления и каждый должны быть разделены точкой с запятой.
4. Выражение признательности
Примечания: Значения этой категории определить особенности уровня документа еще имеют мало последовательную структуру всей публикации. Они предоставляют подробную информацию относительно организаций, оказывающих поддержку для CCR и связанной с этим работы. Эта категория также включает в себя поле для общего количества ссылок, цитируется статья: это предназначено предоставить грубый показатель степени к которому документ имеет концептуальных связей с другими биомедицинскими документов любого типа. В течение четырех данных типов в этом разделе обеспечивают следующее.
На рисунке 2приведен пример процесса аннотации. Этот корпус22 описывает презентацию инфекции, бактериальных патогенов Burkholderia thailandensis. Для справки соответствующая часть этой CCR предоставляется в формате обычного текста в дополнительный файл 1; Некоторые результаты исследований представлены в настоящем докладе и включены для сравнения. На практике преобразование сообщения в формате HTML или PDF в простой текст может улучшить эффективность и простоту извлечения метаданных.
В таблице 2приводятся примеры двух наборов метаданных Аннотации завершенных CCR. В первом из этих примеров является макет данных для иллюстрации идеальный формат каждого значения, в то время как во втором примере содержит значения, извлеченные из опубликованных CCR на редкое состояние, акродерматит enteropathica23.
Рисунок 1. Рабочий процесс для аннотации судебный отчет. Протокол, описанные здесь предоставляет метод для идентификации текстовых функций часто присутствует в клинических случаев. Этот процесс требует Ассамблеи документе корпус. Результатом процесса аннотации, когда объединяются в один файл, позволяет идентифицировать текст функции, связанные с медицинской концепции и их описания в случае докладов. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Рисунок 2. Определение концепции конкретного текста в отчете клинический случай. Начиная с текстом доклада случай, вручную аннотатором может прогресс через документ, выявление сегментов текста, соответствующий каждому компоненту шаблон метаданных. Идентификация функций выделены синим цветом. Текст, соответствующий медицинской концепции находятся в красном цвете и помечены с их типом; весь выделенный текст в третьей колонке относится к типу патологии. Пожалуйста, нажмите здесь, чтобы посмотреть большую версию этой фигуры.
Категория | Описание | МКБ-10 Глава | Диапазон кода МКБ-10 |
Рак | Любой тип рака или злокачественные новообразования. | II | C00-D49 |
нервной | Любое заболевание головного мозга, позвоночника или нервы. | VI | G00-G99 |
сердечно-сосудистые | Любое заболевание сердца или сосудистой системы. Не включать гематологических заболеваний. | IX | I00-I99 |
опорно-двигательного аппарата и ревматические | Любое заболевание мышц, скелетной системы, суставов и соединительных тканей. | XIII | M00-M99 |
пищеварения | Любое заболевание желудочно-кишечного тракта и органов пищеварения, печени и поджелудочной железы. | XI | K00-K95 |
акушерский и гинекологический | Любое заболевание, касающиеся беременности, родов, женской репродуктивной системы или груди. | XIV; XV | O00-O9A; N60-N98 |
инфекционные | Любое заболевание вызывает инфекционных микроорганизмов. | Я | A00-B99 |
органов дыхания | Любое заболевание легких и дыхательных путей. | X | J00-J99 |
гематологические | Любое заболевание крови, костного мозга, лимфатических узлов, или селезенки. | III | D50-D89 |
почек и урологические | Любое заболевание почек или мочевого пузыря, мочеточников, а также мужских репродуктивных органов, в том числе простаты. | XIV | N00-N53; N99 |
эндокринной системы | Любое заболевание желез внутренней секреции, а также метаболические расстройства. | IV | E00-E89 |
Челюстно- лицевая | Любое условие, с участием рот, челюсти, головы, лица и шеи. | XI; XIII | K00-K14; M26 M27 |
глаз | Любое условие, связанных с глаз, включая слепоту. | VII | H00-H59 |
ЛОР | Любое состояние уха, носа или горла. | VIII | H60-H95; J30-J39 |
кожа | Любое заболевание кожи. | XII | L00-L99 |
редкие | Особая категория зарезервированы для сообщения о редких заболеваний, определены как те влияющих менее чем 200000 человек в Соединенных Штатах (см. https://rarediseases.info.nih.gov/diseases) | NA | NA |
Таблицы 1. Категорий болезней для аннотации документа. Категории, перечисленные здесь являются те, использоваться для заболевания системного типа данных в шаблоне документа метаданных. Поскольку каждая болезнь презентация может включать несколько систем органов или этиологии, единый клинических случая доклад может соответствовать несколько категорий. Эти категории основном следовать те, которые используются для различения секции международной статистической классификации болезней и связанных с ними проблем здоровья, редакция 10 (МКБ-10) код системы: предоставляются соответствующие МКБ-10 глав и код диапазоны. Некоторые категории, например, заболевания челюстно- лицевой , соответствуют несколько разделов системы МКБ-10.
Тип данных | Пример #1 | Пример #2 (Кэмерон и Макклейн 1986) |
Документ и заметки идентификации | ||
Внутренний идентификатор | CCR005 | CCR2000 |
Дата аннотации | 2 Мар 2018 | 1 Мар 2018 |
Отчет идентификации | ||
Название | Случай эндокардит. | Глазной гистопатология акродерматит enteropathica. |
Авторы | Грант АБ; Чанг CD | Кэмерон JD; McClain CJ |
Год | 2017 | 1986 |
Журнал | Журнал мир медицины и доклады | Британский журнал по офтальмологии |
Учреждение | Кафедра медицины, Отдела кардиологии, первой больницы, Бостон, Массачусетс, США | Кафедра офтальмологии, медицинской школы университета Миннесоты, Миннеаполис, Миннесота 55455 |
Соавтор | Грант АБ | Камерон JD |
PMID | 25555555 | 3756122 |
DOI | 10.1011/wjmcr.2017.11.001 | NA |
Ссылка | HTTPS://www.NCBI.nlm.nih.gov/PMC/articles/PMC9555555/ | HTTPS://www.NCBI.nlm.nih.gov/PMC/articles/PMC1040795/ |
Язык | английский | английский |
Медицинское содержание | ||
Ключевые слова | бруцеллеза; эндокардит; Митральный клапан | NA |
Демография | 37-летний мужчина | ребенок мужского пола |
Географическое расположение | Флорида; Рио-де-Жанейро, Бразилия | NA |
Стиль жизни | курильщика; Иногда алкоголь | NA |
История семьи | третьим из пяти детей кровосмесительных родителей; младший брат имеет хроническая экзема | NA |
Социальная история | Строительный Рабочий | NA |
Медицинское/хирургическое история | История усталости | 8 фунтов 9 унций (3884 г) продукта неосложненной, полный срок беременности; в хорошем здоровье до возраст 1 месяц, когда он разработал пузырей сыпь на щеках; сыпь распространилась привлечь кожи вокруг глаз, носа и рта; поражения кожи были также отмечены на область живота и конечностей; диарея и отказ процветать; Биопсия кожи в то время показал паракератоз типичной акродерматит enteropathica; лечение в течение следующих шести лет с периодические курсы антибиотиков широкого спектра, грудное молоко и diodoquin; частично ответил; разработана общая облысения, прерывистый акродерматит и кратковременный понос с неоптимальной веса; спастичность, приписываемых участия центральной нервной системы, ae разработан 8 месяцев возраста; несколько эпизодов кардиопульмональной ареста на 11 месяцев; отсутствие координации его голосовых связок; трахеостомические; по возрасту 18 месяцев ребенок разработал поиска нистагм, связанные с двусторонним атрофия зрительного нерва и незначительное ослабление сосудов сетчатки, а также признаки задержка психомоторного развития; двусторонние кератоконъюнктивит; кожная сыпь; второй биопсия кожи, выполненных в возрасте 3 лет снова показал паракератоз типичный для ae; тяжелая сыпь и диареи; двусторонние брутто передней помутнения роговицы были замечены, который был полностью решен к тому времени он был пересмотреть в возрасте пяти; частые инфекции, включая средний отит, инфекции мочевыводящих путей и инфекций кожи |
Болезни системы | сердечно-сосудистой системы; инфекционные | пищеварения; кожи; глаз; редкие |
Признаки и симптомы | сердцебиение и одышка на предыдущей неделе; представлен с вялость, головная боль, озноб | тяжелые блефароконъюнктивит и двусторонних передней роговицы кровенаполнение; тяжелая сыпь и диареи; грамотрицательные бактериальные сепсис; поражения кожи, типичные акродерматит enteropathica, отсутствие тимуса ткани, отмеченные атрофия зрительных нервов, нервов и оптических трактов и обширные мозжечковая дегенерация |
Сопутствующие заболевания | гипертензия; гиперлипидемия | NA |
Диагностические методы и процедуры | Физическое обследование; электрокардиография; посев крови | глаза экзамен; вскрытие |
Диагностика | Бруцеллы эндокардита | Акродерматит enteropathica |
Лабораторные значения | повышение с - реактивного белка (до 9 мг/дл); щелочная фосфатаза (250 u/l) | NA |
Патология | Бруцеллы melitensis был культивированный из образцов крови | правый и левый глаза были похожи; в толщиной от одного до трех слои клеток плоского Плоскоклеточный эпителиальных клеток эпителия роговицы был сокращен на всей поверхности роговицы; все полярности эпителия был потерян. боуменова мембрана могут быть выявлены только в периферии правой роговицы. не Боумена могут быть определены в левой роговицы. дегенеративных ни воспалительные pannus могут быть определены в любом глаз; обширные атрофия круговой и косые мышцы цилиарного тела; Некоторые задняя миграции капсульной эпителия объектива и начале корковых дегенеративных изменений; обширные дегенерация сетчатки пигментного эпителия на протяжении заднего полюса; сетчатки придают и показал мягкий изменения автолиза течение; Некоторые сохранение стержня и конус наружной сегментов в заднего полюса, однако, эти структуры были полностью потеряны впереди экватора; обширные потери ганглия клетки и нервные волокна слоев обоих глаз; почти полная атрофия дисков и прилегающих зрительного нерва |
Фармакологическая терапия | Гентамицин 240 мг/iv/день | NA |
Inverventional терапия | Замена протеза клапана | NA |
Пациентов результат оценки | восстановление было гладко; разряженные дом | умер в 1971 году (7 лет) |
Запись диагностических изображений/видеозапись | 2; 1; 0; 1 | 7; 0; 0; 0 |
Связь с другими случае отчеты | 5555555 | 23430849 |
Отношения с Clinial суда | NCT05555123 | NA |
Crosslink с базой данных | MedlinePlus медицинской информации: https://medlineplus.gov/ency/article/000597.htm | HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; PubMed Центральной Европы: http://europepmc.org/abstract/MED/3756122; Генетический Альянс: http://www.diseaseinfosearch.org/result/143 |
Благодарности | ||
Источник финансирования | Национальные институты здравоохранения/Национальный сердца, легких и крови института | Клуб Лайонс Миннесота; Исследования, чтобы предотвратить слепоту; Администрация по делам ветеранов; Бюро алкоголя и других наркотиков злоупотребления программирования штата Миннесота |
Номер премии | R01HL123123 (для AG) | NA |
Раскрытие конфликтов интересов | Доктор Грант является платной Пресс для DrugCo. | NA |
Ссылки | 4 | 27 |
В таблице 2. Стандартизированных метаданных шаблон для клинический случай сообщает, с пример аннотаций. Набор функций, общих для клинический случай докладов и содействия их концепция уровня аннотации показано здесь. Этот шаблон аранжирован в три основных раздела: идентификация, медицинского контента и благодарности, обозначающий цель и дополнительную ценность, обеспечиваемой каждого типа функции случае отчетов. Эта таблица содержит два набора пример аннотаций, один из беллетризированный отчет, и другой набор производных от отчета о состоянии акродерматит enteropathica23.
Дополнительный файл 1. Текст доклада клинических случая (Чанг и др. 2017). пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Осуществление стандартизированных метаданных шаблона для КЦДЗ можно сделать их содержание более СПРАВЕДЛИВОЙ, расширить их аудиторию и расширять их приложения. После традиционного использования КЦДЗ как образовательные инструменты в медицинской коммуникации, здравоохранения стажеров (например, студентов-медиков, стажеры и стипендиаты) и биомедицинских исследователи могут найти что содержание резюме доклада включить более быстрое понимания. Самая большая сила стандартизация метаданных с КЦДЗ, однако, является, что индексирование преобразует эти данные в противном случае изолирован наблюдений в интерпретации моделей. Протокол, здесь может служить в качестве первого шага в рабочем процессе для работы с КЦДЗ, ли этот процесс состоит из эпидемиологического анализа, постмаркетингового наркотиков или лечения наблюдения или более широкие исследования патогенеза или терапевтической эффективности. Структурированных функций, определенных в КЦДЗ может предоставить полезным ресурсом для исследователей, упором на презентации болезни и лечения, особенно редких заболеваний. Клинические исследователи могут найти данные о прошлых схемы лечения для анализа записанных симптомы или побочные эффекты и степень улучшения при предыдущих стандартов медицинской помощи. Данные также могут управлять более широкого анализа новых методов лечения, основанной на эффективности, отсутствие отрицательных последствий или токсичности, или наркотиков, ориентация различий пола, возрастной группы или генетический фон.
Преимущества, предоставляемые структурированных метаданных также применимы к вычислительных процессов, предназначенных для разбора или модель медицинского языка. Структурированные функции CCR могут также предоставлять доказательства из районов, где авторы отчетов могут предоставлять более легко machine-readable (и в некоторых случаях, читаемую) содержание. Разница между КЦДЗ может быть результатом отсутствия явно предоставленных замечаний: например, точный возраст пациента не может быть указан. Аналогичным образом клиницисты не упомянуть тесты Если диагностики или их результаты были рассмотрены тривиальным. Путем предоставления примеров необходимых для углубленного анализа пробелов, соблюдения структуры на КЦДЗ освещаются возможные улучшения. В более широкой перспективе большей доступности структурированных текстовых данных из медицинских документов поддерживает усилия (НЛП) чтобы узнать от больших данных в области здравоохранения24,25обработки естественного языка.
Авторы не имеют ничего сообщать.
Эта работа частично поддержали национальные сердца, легких и крови института: R35 HL135772 (для P. Ping); Национальный институт Генеральной медицинских наук: U54 GM114833 (для P. Ping, K. Уотсон и W. Wang); Национальный институт биомедицинских изображений и биоинженерии: T32 EB016640 (для A. Bui); подарок от Фонда Хоаг и д-р S. Сетти; и T.C. Laubisch облечение в Калифорнийском университете (для P. Ping).
Name | Company | Catalog Number | Comments |
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены