Method Article
Presentamos un protocolo y una plantilla de metadatos asociado para la extracción de texto que describe conceptos biomédicos en reportes de casos clínicos. Los valores de texto estructurado producidos a través de este protocolo pueden apoyar el análisis de miles de historias clínicas.
Informes de casos clínicos (CCRs) son un medio valioso de compartir observaciones y conocimientos en medicina. Varía la forma de estos documentos y su contenido incluye descripciones de la enfermedad nuevos numerosos, presentaciones y tratamientos. Hasta el momento, los datos de texto dentro de CCRs están en gran parte no estructurados, que requiere considerable esfuerzo humano y computacional para procesar estos datos útiles para el análisis profundizado. En este protocolo, se describen métodos para la identificación de metadatos correspondientes a conceptos biomédicos específicos observados con frecuencia dentro de CCRs. Proporcionamos una plantilla de metadatos como guía para la anotación del documento, reconociendo que imponer estructura a los CCRs puede ser perseguido por combinaciones de esfuerzo manual y automatizado. El enfoque presentado aquí es apropiado para la organización del texto relacionado con el concepto de un corpus de literatura grande (por ejemplo, miles de CCRs) pero puede ser fácilmente adaptado para facilitar más enfocadas tareas o pequeños conjuntos de informes. Los datos resultantes del texto estructurado incluyen suficiente contexto semántico para apoyar una variedad de flujos de trabajo de análisis texto subsiguiente: detalle de metanálisis para determinar cómo maximizar el CCR, los estudios epidemiológicos de las enfermedades raras y el desarrollo de modelos de lengua médica se puede todos hacer más realizable y manejable mediante el uso de datos de texto estructurado.
Informes de casos clínicos (CCRs) son un medio fundamental de compartir observaciones y conocimientos en medicina. Éstos sirven como un mecanismo básico de comunicación y educación para los médicos y estudiantes de medicina. Históricamente, los CCRs también han proporcionado cuentas de enfermedades emergentes, sus tratamientos y sus fondos genéticos1,2,3,4. Por ejemplo, el primer tratamiento de la rabia humana por Louis Pasteur en 18855,6 y la primera aplicación de la penicilina en pacientes7 informaron a través de CCRs. Más de 1,87 millones de CCRs se han publicado a partir de abril de 2018, con más de medio millón en la última década; revistas siguen proporcionar nuevos espacios para estos informes8. Aunque único en forma y contenido, CCRs contienen datos de texto que son en gran parte no estructurados, contienen un vasto vocabulario y refieren a fenómenos relacionados entre sí, limitando su uso como recurso estructurado. Se requiere esfuerzo significativo para extraer metadatos detallados (es decir, "datos sobre datos", o en este caso, las descripciones del contenido del documento) de CCRs y establecerlas como dato encontrable, accesible, interoperables y reutilizables (Feria)9 recursos.
Aquí, describimos un proceso para la extracción de texto y valores numéricos para estandarizar la descripción de conceptos biomédicos específicos dentro de CCRs publicados. Esta metodología incluye una plantilla de metadatos para guiar la anotación; Vea la figura 1 para un resumen de este proceso. Aplicación del proceso de anotación de una gran colección de informes (por ejemplo, varios miles de un tipo específico de presentación de la enfermedad) permite el montaje de un conjunto manejable y estructurado de textos clínicos anotados, logrando legible por la máquina documentación y fenómenos biomédicos integrado en cada presentación clínica. Aunque los formatos de datos como los proporcionados por HL7 (e.g., versión 3 de la mensajería estándar10 o el Fast Healthcare interoperabilidad recursos [FHIR]11), LOINC12y 10 revisión de la estadística internacional Clasificación de enfermedades y problemas de salud relacionados (ICD-10)13 proporcionar estándares para la descripción y el intercambio de observaciones clínicas, no capturan el texto que rodea a estos datos, ni tampoco. Los resultados de nuestra metodología se utilizan mejor estructura de CCRs y facilitar el posterior análisis, normalización a través de vocabularios controlados y sistemas de codificación (e.g., CIE-10), o conversión a los formatos de datos clínicos mencionados .
CCRs de minas es un área activa de trabajo en Informática Biomédica y clínica. Aunque anteriores propuestas para estandarizar la estructura de informes del caso (por ej., usando HL7 v2.514 o estandarizado fenotipo terminología15) son loables, es probable que CCRs seguirá una variedad de diferentes formas de lenguaje natural y diseños de documento, ya que tiene gran parte del siglo pasado. En condiciones ideales, los autores de nuevos informes del caso seguir cuidado directrices16 para asegurarse de que son integrales. Enfoques sensibles al lenguaje natural y su relación a los conceptos médicos por lo tanto pueden ser más eficaces en el trabajo con nuevos informes archivados. Recursos como arte17 y los producción por la informática para la integración de la biología y el comisariado de cabecera (i2b2)18 apoyar enfoques de procesamiento del lenguaje natural (NLP) aunque no específicamente enfocado CCRs o relatos clínicos. Del mismo modo, médicos herramientas de PNL como cTAKES19 y20 de la abrazadera se han desarrollado pero generalmente identifican palabras específicas o frases (es decir, entidades) en documentos en lugar de los conceptos generales que se describe comúnmente en CCRs.
Hemos diseñado una plantilla de metadatos normalizados para las características comúnmente incluidos en los CCRs. Esta plantilla define funciones para imponer estructura a los CCRs, un precursor esencial para las comparaciones de profundidad del contenido del documento-aún permite la flexibilidad suficiente para mantener el contexto semántico. Aunque hemos diseñado el formato asociado a esta plantilla es apropiada para la anotación manual y minería de texto de ayuda de cómputo, nos hemos asegurado es particularmente fácil de usar para anotadores manual. Nuestro enfoque difiere perceptiblemente de más complejos (y, por lo tanto, menos inmediatamente comprensible para inexpertos investigadores) marcos como FHIR21. El siguiente protocolo describe cómo aislar características de documentos correspondiente a cada tipo de datos de plantilla, con un único conjunto de valores correspondientes a los de un CCR solo.
Los tipos de datos dentro de la plantilla son los más descriptivos de CCRs y documentos médicos centrada en el paciente en general. Anotación de estas características promueve la encontrabilidad, accesibilidad, interoperabilidad y reutilización del texto CCR, sobre todo dándole estructura. Los tipos de datos son en cuatro categorías generales: identificación del documento y anotación, identificación de informe del caso (es decir, propiedades de nivel de documento), conceptos contenidos médicos (sobre todo a nivel de concepto propiedades) y reconocimientos (es decir, características proporcionando evidencia de financiación). En este proceso de anotación, cada documento incluye el texto completo de un CCR, omitiendo cualquier material de contenido de documento independiente para el caso (por ejemplo, protocolos experimentales). CCRs son generalmente menos de 1.000 palabras cada uno; un corpus único ideal debe ser indexado por la misma base de datos bibliográfica y en el mismo lenguaje escrito.
El producto de lo descrito aquí, cuando está aplicado a un corpus CCR, es un conjunto estructurado de texto clínico anotado. Si bien esta metodología puede realizarse de forma completamente manual y ha sido diseñada para ser realizado por expertos de dominio sin experiencia informática, complementa los métodos de procesamiento del lenguaje natural mencionados y proporciona los datos apropiados para Análisis computacional. Tales análisis pueden ser de interés para el público de los investigadores más allá de aquellos que leen con frecuencia CCRs, incluyendo:
Aplicación de estructura de CCRs puede soportar numerosos esfuerzos subsecuentes para entender mejor la lengua médica y fenómenos biomédicos.
1. en el documento y la identificación de la anotación
Nota: Los valores en esta categoría apoyar el proceso de anotación.
2. caso informe identificación
Nota: Valores en esta categoría ofrecen funciones de nivel de documento y contribuyan a la encontrabilidad de un documento.
3. médico contenido
Nota: Valores en esta categoría identifican características de nivel de documento, nivel de concepto y nivel del texto. Sirven para mejorar la accesibilidad, interoperabilidad y reutilización de un documento. Estas características proporcionan maneras de observar similitudes conceptuales y semánticas entre el contenido del documento, con un enfoque en temas biomédicos y eventos. Mayoría de las categorías en esta sección puede incluir múltiples sentencias de texto y cada uno debe estar separado con punto y coma.
4. Agradecimientos
Notas: Los valores en esta categoría identifican características de nivel de documento pero tienen poca estructura coherente a través de publicaciones. Proporcionan detalles con respecto a las organizaciones de apoyo para un CCR y trabajos relacionados. Esta categoría también incluye un campo para el recuento total de referencias en un artículo: esto está destinado a proporcionar una métrica aproximada del grado en que un documento tiene relaciones conceptuales con otros documentos biomédicos de cualquier tipo. Dentro de los cuatro tipos de datos en esta sección, proporcionar lo siguiente.
En la figura 2se muestra un ejemplo del proceso de anotación. Este caso22 describe una presentación de la infección por el patógeno bacterial Burkholderia thailandensis. Para referencia, la porción relevante de este CCR se ofrece en formato de texto plano en 1 archivo suplementario; algunos resultados de la investigación también se presentan en este informe y se incluyen para su comparación. En la práctica, la conversión de informes en formato HTML o PDF a texto plano puede mejorar la eficiencia y la facilidad de extracción de metadatos.
Ejemplos de los dos conjuntos de anotaciones de metadatos CCR completadas se encuentran en la tabla 2. El primero de estos ejemplos es falso datos para ilustrar el formato ideal de cada valor, mientras que el segundo ejemplo contiene valores extraídos de una CCR publicado en una condición rara, acrodermatitis enteropática23.
Figura 1. Flujo de trabajo para informe del caso anotación. El protocolo descrito aquí proporciona un método para la identificación de características textuales con frecuencia presentes en los informes clínicos del caso. Este proceso requiere de un corpus de documentos. El producto del proceso de anotación, una vez acumulado en un solo archivo, permite la identificación de características del texto asociado a conceptos médicos y sus descripciones en los informes del caso. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2. Identificación del concepto específico de texto en un informe clínico del caso. Un anotador manual comenzando con el texto de un informe del caso, puede progresar a través del documento, identificando los segmentos de texto correspondiente a cada componente de la plantilla de metadatos. Características de identificación son remarcadas en azul. Texto correspondiente a los conceptos médicos es en rojo y marcados con su tipo; todo el texto resaltado en la tercera columna se refiere al tipo de patología. Haga clic aquí para ver una versión más grande de esta figura.
Categoría | Descripción | CIE-10 Capítulo | Rango de código CIE-10 |
cáncer | Cualquier tipo de cáncer o neoplasia maligna. | II | C00-D49 |
nervioso | Cualquier enfermedad del cerebro, espina dorsal o los nervios. | VI | G00-G99 |
cardiovasculares | Cualquier enfermedad del corazón o del sistema vascular. No incluye enfermedades hematológicas. | IX | I00-I99 |
musculoesqueléticas y reumáticas | Cualquier enfermedad de los músculos, sistema esquelético, articulaciones y tejidos conectivos. | XIII | M00-M99 |
digestivo | Cualquier enfermedad del tracto gastrointestinal y órganos digestivos, incluidos el hígado y el páncreas. | XI | K00-K95 |
obstétrico y ginecológico | Cualquier enfermedad relativas al embarazo, el parto, el sistema reproductor femenino o los senos. | XIV; XV | O00-O9A; N60-N98 |
infecciosas | Cualquier causa de enfermedad por microorganismos infecciosos. | Me | A00-B99 |
vías respiratorias | Cualquier enfermedad de los pulmones y vías respiratorias. | X | J00-J99 |
hematológicas | Cualquier enfermedad de la sangre, médula ósea, ganglios linfáticos o bazo. | III | D50-D89 |
renales y urológicos | Cualquier enfermedad de los riñones o la vejiga, los uréteres, así como los órganos reproductivos masculinos, incluyendo la próstata. | XIV | N00-N53; N99 |
sistema endocrino | Cualquier enfermedad de las glándulas endocrinas, así como los trastornos metabólicos. | IV | E00-E89 |
oral y maxilofacial | Cualquier condición que implica la boca, mandíbulas, cabeza, cara o cuello. | XI; XIII | K00-K14; M26 M27 |
ojo | Cualquier condición que involucra los ojos, incluyendo ceguera. | VII | H00-H59 |
otorrinolaringológicas | Cualquier condición de la oreja, nariz o garganta. | VIII | H60-H95; J30-J39 |
piel | Cualquier enfermedad de la piel. | XII | L00-L99 |
raro | Una categoría especial reservada para los informes de enfermedades raras, definidas como aquellas que afectan a menos de 200.000 personas en los Estados Unidos (ver https://rarediseases.info.nih.gov/diseases) | NA | NA |
Tabla 1. Categorías de la enfermedad para la anotación del documento. Las categorías enumeradas aquí son las que se utilizará para el tipo de datos del sistema de enfermedades de la plantilla de metadatos de documento. Como cada presentación de la enfermedad puede implicar varios sistemas del órgano o etiologías, un solo informe del caso clínico puede corresponder a varias categorías. Estas categorías siguen en gran parte los que se utilizan para distinguir las secciones de la Clasificación Estadística Internacional de enfermedades y problemas de salud relacionados, revisión 10 (CIE-10), código de sistema: correspondientes capítulos de la CIE-10 y gamas de código se proporcionan. Algunas categorías, como la enfermedad oral y maxilofacial , corresponden a varias secciones del sistema CIE-10.
Tipo de datos | Ejemplo #1 | Ejemplo #2 (Cameron y McClain 1986) |
Documento e identificación de anotación | ||
Identificación interna | CCR005 | CCR2000 |
Fecha de la anotación | 02 de marzo de 2018 | 01 de marzo de 2018 |
Informe del caso de identificación | ||
Título | Un caso de endocarditis. | Histopatología ocular de acrodermatitis enteropática. |
Autores | Beca AB; CD de Chang | Cameron JD; McClain CJ |
Año | 2017 | 1986 |
Revista | Mundo diario de la medicina y los informes del caso | Diario británico de la oftalmología |
Institución | Departamento de medicina, División de Cardiología, primer General Hospital, Boston, Massachusetts, Estados Unidos | Departamento de Oftalmología, Facultad de medicina de la Universidad de Minnesota, Minneapolis, Minnesota 55455 |
Autor para correspondencia | Beca AB | Cameron JD |
PMID | 25555555 | 3756122 |
DOI | 10.1011/wjmcr.2017.11.001 | NA |
Enlace | https://www.ncbi.nlm.nih.gov/PMC/articles/PMC9555555/ | https://www.ncbi.nlm.nih.gov/PMC/articles/PMC1040795/ |
Idioma | Inglés | Inglés |
Contenido médico | ||
Palabras clave | brucelosis; endocarditis; de la válvula mitral | NA |
Demografía | varón de 37 años | hijo varón |
Ubicaciones geográficas | La Florida; Rio de Janeiro, Brasil | NA |
Estilo de vida | fumador; bebe alcohol de vez en cuando | NA |
Historia de la familia | tercero de cinco hijos de padres consanguíneos; hermano tiene eczema crónico | NA |
Historia social | trabajador de la construcción | NA |
Historia médico-quirúrgica | historia de la fatiga | 8 libras 9 onza (3884 g) producto de un embarazo sin complicaciones, completo; en buena salud hasta la edad de 1 mes cuando él desarrolló una erupción cutánea ampollar en las mejillas; erupción extendió para implicar la piel alrededor de los ojos, nariz y boca; también se observaron lesiones de piel en el abdomen y las extremidades; diarrea y retraso del desarrollo; biopsia de la piel en ese momento mostró paraqueratosis típica de acrodermatitis enteropática; tratados en los próximos seis años con cursos intermitentes de antibióticos de amplio espectro, la leche materna y diodoquin; respondieron parcialmente; desarrollaron alopecia total, acrodermatitis intermitente y diarrea intermitente con aumento de peso subóptimo; espasticidad, atribuida a la implicación del sistema nervioso central por la ae había desarrollado por 8 meses de edad; varios episodios de paro cardiopulmonar en 11 meses; falta de coordinación de sus cuerdas vocales; cánula de traqueostomía; por los 18 meses de edad el niño desarrolló busca nistagmo asociado a atrofia óptica bilateral y leve atenuación de vasos retinianos, así como signos de retraso psicomotor; queratoconjuntivitis bilateral; erupciones en la piel; segunda biopsia de la piel realizada a los 3 años otra vez mostró paraqueratosis típica de ae; erupción cutánea severa y diarrea; bilaterales brutos anteriores opacities córneos se observaron que había resuelto totalmente en el momento en que reexaminaron a los cinco; Infecciones frecuentes, incluyendo otitis media, infecciones del tracto urinario y las infecciones de la piel |
Sistema de enfermedades | cardiovascular; infecciosas | digestivo; piel; ojo; raro |
Signos y síntomas | palpitaciones y disnea en la semana anterior; presentó con letargo, cefalea y escalofríos | blefaroconjuntivitis severa y vascularización corneal anterior bilateral; erupción cutánea severa y diarrea; sepsis bacteriana gram-negativa; lesiones cutáneas típicas de acrodermatitis enteropática, ausencia de tejido tímico, marcada degeneración de los nervios ópticos, quiasma y tractos ópticos y amplia degeneración cerebelosa |
Comorbilidad | hipertensión; hiperlipidemia | NA |
Procedimientos y técnicas de diagnóstico | Examen físico; Electrocardiografía; culturas de la sangre | examinación ocular; necropsia |
Diagnóstico | Endocarditis de Brucella | Acrodermatitis enteropática |
Valores de laboratorio | aumento de proteína c reactiva (9 mg/dl); fosfatasa alcalina (250 u/l) | NA |
Patología | Brucella melitensis fueron cultivados de muestras de sangre | ojos izquierdos y derecho eran similares en aspecto; epitelio corneal fue reducido en espesor a una a tres capas de células epiteliales escamosas aplanadas sobre toda la superficie de la córnea; toda polaridad del epitelio se perdió. la membrana de Bowman podría identificarse solamente en la periferia de la córnea derecha. la membrana de bowman, no podía ser identificada en la córnea izquierda. inflamatorios ni degenerativos pannus podrían ser identificados en cualquiera de los dos ojos; extensa atrofia de los músculos circulares y oblicuos del cuerpo ciliar; alguna migración posterior de la lente epitelio capsular y primeros cambios degenerativos corticales; amplia degeneración del epitelio pigmentario de la retina en el polo posterior; retina se une y mostraron leves cambios autolíticos. alguna preservación de rod y del cono segmentos externos en el poste posterior, sin embargo, estas estructuras fueron totalmente perdidas anterior del Ecuador; pérdida extensa del ganglio de la célula y nervio fibra capas de ambos ojos; atrofia casi completa del disco y del adyacente nervio óptico |
Terapia farmacológica | gentamicina 240 mg iv/diarias | NA |
Terapia de Inverventional | reemplazo de la válvula protésica | NA |
Evaluación de resultados de los pacientes | la recuperación fue sin incidentes; descargada de la página de inicio | murió en 1971 (7 años) |
Diagnóstico proyección de imagen/Video grabación | 2; 1; 0; 1 | 7; 0; 0; 0 |
Relación con otros informes del caso | 5555555 | 23430849 |
Relación ensayos Clinial | NCT05555123 | NA |
Reticulación con base de datos | Información de salud de MedlinePlus: https://medlineplus.gov/ency/article/000597.htm | HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa PubMed Central: http://europepmc.org/abstract/MED/3756122; Alianza genética: http://www.diseaseinfosearch.org/result/143 |
Agradecimientos | ||
Fuente de financiamiento | Institutos nacionales de salud nacional o corazón, Lung and Blood Institute | El Club de leones de Minnesota; Investigación para prevenir la ceguera; Administración de veteranos; Oficina de Alcohol y otras drogas abuso programación del estado de Minnesota |
Premio número | R01HL123123 (a AG) | NA |
Revelaciones/conflicto de intereses | Dr. Grant es un vocero pagado para DrugCo. | NA |
Referencias | 4 | 27 |
Tabla 2. Informes de plantilla de metadatos estandarizados por caso clínico, con anotaciones de ejemplo. Un conjunto de características comunes al caso clínico informes y facilitando sus concepto nivel anotaciones se muestra aquí. Esta plantilla se arregla en tres secciones principales: identificación, contenido médico y reconocimientos, que denota el propósito y el valor adicional que brinda cada tipo de característica del informe del caso. Esta tabla contiene dos conjuntos de anotaciones de ejemplo, uno de un informe del caso novelado, y otro conjunto derivado de un informe sobre la condición acrodermatitis enteropática23.
Archivo complementario 1. Texto de un informe clínico del caso (Chang et al. 2017). haga clic aquí para descargar este archivo.
Implementación de una plantilla de metadatos normalizados de CCRs puede hacer su feria más contenido, ampliar su público y ampliar sus aplicaciones. Siguiendo el uso tradicional de CCRs como herramientas educativas en la comunicación médica, salud aprendices (por ejemplo, los estudiantes de medicina, pasantes y becarios) e investigadores biomédicos pueden encontrar que contenido Informe resumido del caso permite más rápida comprensión. La mayor fortaleza de la estandarización de metadatos con CCRs, sin embargo, es que indexación de lo contrario estas transformaciones de datos aislados observaciones en patrones interpretables. El protocolo que aquí puede servir como el primer paso de un flujo de trabajo para trabajar la CCRs, si este flujo de trabajo consta de análisis epidemiológico, vigilancia de tratamiento, medicamentos posterior a la comercialización o encuestas más amplias de la patogenesia o eficacia terapéutica. Estructurado elementos identificados dentro de CCRs pueden proporcionar un recurso útil para los investigadores centrarse en presentaciones de la enfermedad y tratamientos, particularmente para condiciones raras. Los investigadores clínicos pueden encontrar datos en últimos regímenes de tratamiento para analizar registrados síntomas o efectos secundarios y el grado de mejora bajo los estándares anteriores de la atención. Los datos también pueden conducir a análisis más amplio de un nuevos tratamientos basados en la eficacia, falta de efectos adversos o toxicidad, o en drogas dirigidas a las diferencias de género, edad o genética.
Los beneficios proporcionados por metadatos estructurados son igualmente aplicables a flujos de trabajo computacionales diseñados para analizar o modelo de lenguaje médico. Estructuradas características CCR también pueden proporcionar contenido evidencia de áreas donde los autores del informe pueden proporcionar más fácilmente legible por la máquina (y en algunos casos, legible). Varianza entre CCRs puede resultar de la falta de observaciones proporcionados explícitamente: por ejemplo, no se puede especificar la edad exacta del paciente. Del mismo modo, los médicos no pueden mencionar pruebas si el diagnóstico o sus resultados eran considerados triviales. Proporcionando ejemplos de espacios necesarios para un análisis profundo, aplicación de estructura de CCRs destaca mejoras potenciales. En una perspectiva más amplia, una mayor disponibilidad de datos de texto estructurado de documentos médicos apoya esfuerzos de (PNL) para aprender de los grandes datos en salud24,25el procesamiento del lenguaje natural.
Los autores no tienen nada que revelar.
Este trabajo fue financiado en parte por el National Heart, Lung and Blood Institute: HL135772 R35 (al P. Ping); Instituto Nacional de Ciencias de Medicina General: GM114833 U54 (a Ping P., K. Watson y W. Wang); Instituto Nacional de imágenes biomédicas y Bioingeniería: T32 EB016640 (a A. Bui); un regalo de la Fundación de Hoag y Dr. S. Setty; y la dotación de T.C. Laubisch en UCLA (al P. Ping).
Name | Company | Catalog Number | Comments |
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados