Method Article
Apresentamos um protocolo e um modelo de metadados associados para a extração de texto descrevendo conceitos biomédicos em relatos de casos clínicos. Os valores de texto estruturado produzidos através do presente protocolo podem oferecer suporte a profunda análise de milhares de narrativas clínicas.
Relatos de casos clínicos (CCRs) são um meio valioso de compartilhar observações e insights em medicina. A forma destes documentos varia e o seu conteúdo inclui descrições da doença romance numerosos, apresentações e tratamentos. Até então, os dados de texto dentro de CCRs são em grande parte não-estruturados, que requerem significativo esforço humano e computacional para processar esses dados úteis para a análise em profundidade. Neste protocolo, descrevemos os métodos para identificar os metadados correspondentes a conceitos biomédicos específicos frequentemente observados dentro CCRs. Nós fornecemos um modelo de metadados como um guia para anotação de documento, reconhecendo que a imponente estrutura na CCRs pode ser perseguido por combinações de esforço manual e automatizado. A abordagem apresentada aqui é apropriada para organização de texto relacionados ao conceito de um corpus de literatura grande (por exemplo, milhares de CCRs) mas pode ser facilmente adaptada para facilitar tarefas mais concentradas ou pequenos conjuntos de relatórios. Os dados resultantes de texto estruturado incluem contexto semântico suficiente para apoiar uma variedade de fluxos de trabalho de análise de texto subsequente: detalhe de meta-análise para determinar como maximizar a CCR, estudos epidemiológicos de doenças raras e o desenvolvimento de modelos de linguagem médica pode todos ser feita mais realizável e gerenciável através da utilização de dados de texto estruturado.
Relatos de casos clínicos (CCRs) são um meio fundamental de compartilhar observações e insights em medicina. Estes servem como um mecanismo básico de comunicação e educação para os médicos e estudantes de medicina. Historicamente, CCRs também forneceram relatos de doenças emergentes, seus tratamentos e suas origens genéticas1,2,3,4. Por exemplo, o primeiro tratamento de raiva humana por Louis Pasteur em 18855,6 e a primeira aplicação de penicilina em pacientes7 eram ambos relataram através de CCRs. CCRs mais de 1,87 milhões foram publicados a partir de abril de 2018, com mais de meio milhão na última década; revistas continuam a fornecer novos espaços para esses relatórios8. Embora único em forma e conteúdo, CCRs contêm dados de texto que são em grande parte não-estruturados, contêm um vasto vocabulário e dizem respeito a fenômenos inter-relacionados, limitando a sua utilização como um recurso estruturado. Significativo esforço é necessário para extrair metadados detalhados (isto é, "dados sobre dados", ou neste caso, as descrições de conteúdo de documentos) de CCRs e estabelecê-los como um dados encontrável, acessível, interoperáveis e reutilizáveis (feira)9 recurso.
Aqui, descrevemos um processo para extrair texto e valores numéricos para padronizar a descrição dos conceitos biomédicos específicas dentro CCRs publicados. Esta metodologia inclui um modelo de metadados para orientar a anotação; Veja a Figura 1 para obter uma visão geral desse processo. Aplicação do processo de anotação para uma grande coleção de relatórios (por exemplo, vários milhares de um tipo específico de apresentação da doença) permite a montagem de um conjunto de textos clínicos anotados, gerenciável e estruturado alcançar legível por máquina documentação e fenômenos biomédicos incorporado em cada apresentação clínica. Apesar de formatos de dados, tais como aqueles fornecidos pelo HL7 (EG., versão 3 do padrão de mensagens10 ou o rápido de cuidados de saúde de recursos de interoperabilidade [FHIR]11), LOINC12e revisão 10 da estatística internacional Classificação das doenças e problemas de saúde relacionados (CID-10)13 fornecer padrões para a descrição e a troca de observações clínicas, eles não capturar o texto em torno destes dados, nem eles pretendem. Os resultados de nossa metodologia são mais utilizados para impor a estrutura na CCRs e facilitar a análise posterior, normalização através de vocabulários controlados e sistemas de codificação (por exemplo., CID-10), e/ou conversão para os formatos de dados clínicos listados acima .
Mineração CCRs é uma área ativa de trabalho dentro de informática biomédica e clínica. Embora o caso de propostas anteriores para padronizar a estrutura de relatórios (EG., usando HL7 v 2.514 ou padronizado fenótipo terminologia15) são louváveis, é provável que CCRs continuará a acompanhar uma variedade de diferentes formas de linguagem natural e layouts de documento, como eles têm para a maior parte do século passado. Sob condições ideais, autores de relatos de casos novos sigam cuidados orientações16 para garantir que eles são abrangentes. Abordagens sensíveis à linguagem natural e de sua relação com conceitos médicos, portanto, podem ser mais eficazes em trabalhar com relatórios novos e arquivados. Recursos como ofício17 e aqueles produziram pela informática para integrar a biologia e a curadoria de18 cabeceira (i2b2) suporta processamento de linguagem natural (NLP) abordagens ainda não especificamente enfocam CCRs ou narrativas clínicas. Da mesma forma, instrumentos médicos de PNL como cTAKES19 e braçadeira20 têm sido desenvolvidos, mas geralmente identificam palavras específicas ou frases (ou seja, entidades) dentro de documentos, ao invés dos conceitos gerais comumente descritos em CCRs.
Nós projetamos um modelo de metadados padronizados para recursos comumente incluídos dentro CCRs. Este modelo define recursos para impor a estrutura na CCRs — um precursor essencial para comparações em profundidade do conteúdo do documento-ainda permite flexibilidade suficiente reter o contexto semântico. Embora nós projetamos o formato associado com este modelo para ser apropriado para anotação manual e mineração de texto computacionalmente assistida, garantimos que é particularmente fácil de usar para manuais anotadores. Nossa abordagem visivelmente difere de mais intricado (e, portanto, menos pesquisadores imediatamente compreensíveis para destreinado) estruturas como FHIR21. O protocolo seguinte descreve como isolar os recursos de documento correspondente a cada tipo de dados de modelo, com um único conjunto de valores correspondentes aos de um único CCR.
Os tipos de dados dentro do modelo são aqueles mais descritivo para CCRs e focada no paciente documentos médicos em geral. Anotação destas características promove Encontrabilidade, acessibilidade, interoperabilidade e reutilização de texto CCR, principalmente, dando-lhe estrutura. Os tipos de dados são em quatro categorias gerais: identificação do documento e anotação, identificação de relato de caso (isto é, Propriedades de nível de documento), conceitos de conteúdo médicos (principalmente nível de conceito Propriedades) e agradecimentos (ou seja, recursos, fornecendo evidências de financiamento). Neste processo de anotação, cada documento inclui o texto completo de um CCR, omitindo qualquer material de conteúdo de documento independente para o caso (por exemplo, protocolos experimentais). CCRs são geralmente menos de 1.000 palavras cada; um único corpus idealmente devem ser indexado pelo mesmo banco de dados bibliográfico e ser na mesma língua escrita.
O produto da abordagem descrita aqui, quando aplicado a um corpus CCR, é um conjunto estruturado de texto clínico anotado. Enquanto esta metodologia pode ser realizada totalmente manualmente e foi concebida para ser realizado por especialistas de domínio sem qualquer experiência de informática, complementa as abordagens de processamento de linguagem natural especificadas acima e fornece dados apropriados para análise computacional. Tais análises podem ser de interesse para o público de pesquisadores, além daqueles que leem frequentemente CCRs, incluindo:
Reforçando a estrutura na CCRs pode oferecer suporte a inúmeros esforços subsequentes para compreender melhor tanto linguagem médica e biomédicos fenômenos.
1. o documento e identificação de anotação
Nota: Valores nesta categoria apoiar o processo de anotação.
2. relatório de identificação
Nota: Valores nesta categoria fornecem recursos de nível de documento e contribuam para a localização do documento.
3. médico conteúdo
Nota: Valores nesta categoria identificam recursos de nível de documento, nível de conceito e nível de texto. Eles servem para melhorar a acessibilidade, a interoperabilidade e reutilização do documento. Esses recursos fornecem maneiras para observar semelhanças conceituais e semânticas entre o conteúdo do documento, com foco em temas biomédicos e eventos. A maioria das categorias nesta seção podem incluir várias instruções de texto e cada um deve ser separado usando um ponto e vírgula.
4. agradecimentos
Notas: Valores nesta categoria identificam recursos de nível de documento ainda tem pouca estrutura consistente em publicações. Eles fornecem detalhes sobre as organizações, fornecendo suporte para um CCR e trabalhos relacionados. Esta categoria também inclui um campo para a contagem total de referências citadas por um artigo: isto se destina a fornecer uma métrica áspera do grau ao qual um documento tem relações conceituais com outros documentos biomédicas de qualquer tipo. Dentro os tipos de quatro dados nesta secção, fornece o seguinte.
Um exemplo do processo de anotação é mostrado na Figura 2. Este caso22 descreve uma apresentação de infecção por patógeno bacteriano Burkholderia thailandensis. Para referência, a parte relevante desta CCR é fornecida no formato de texto sem formatação no arquivo complementar 1; alguns resultados de investigação também são apresentados neste relatório e são incluídos para comparação. Na prática, a conversão de relatórios fornecidos em formato HTML ou PDF para texto sem formatação pode melhorar a eficiência e facilidade de extração de metadados.
Exemplos de dois conjuntos de anotações de metadados concluídos CCR são fornecidos na tabela 2. O primeiro destes exemplos é dados fictícios para ilustrar o formato ideal de cada valor, enquanto o segundo exemplo contém valores extraídos de uma CCR publicado em uma condição rara, Acrodermatite enteropática23.
Figura 1. Fluxo de trabalho para a anotação de relato de caso. O protocolo descrito aqui fornece um método para identificação de características textuais frequentemente presentes dentro de relatos de casos clínicos. Este processo exige a montagem de um corpus de documento. O produto do processo de anotação, uma vez agregado em um único arquivo, permite a identificação das características de texto associado com conceitos médicos e suas descrições dentro de relatos de casos. Clique aqui para ver uma versão maior desta figura.
Figura 2. Identificação de texto específicos do conceito em um relato de caso clínico. Começando com o texto de um relato de caso, um annotator manual pode progredir através do documento, identificação de segmentos de texto correspondente a cada componente do modelo de metadados. Características de identificação são destacadas em azul. Texto correspondente aos conceitos médicos está em vermelho e rotulado com o seu tipo; todo o texto realçado na terceira coluna se refere ao tipo de patologia. Clique aqui para ver uma versão maior desta figura.
Categoria | Descrição | CID-10 Capítulo | Intervalo de código do CID-10 |
câncer | Qualquer tipo de câncer ou neoplasia maligna. | II | C00-D49 |
nervoso | Qualquer doença do cérebro, espinha ou nervos. | VI | G00-G99 |
cardiovascular | Qualquer doença do coração ou sistema vascular. Não inclui doenças hematológicas. | IX | I00-I99 |
músculo-esqueléticas e reumáticas | Qualquer doença dos músculos, sistema esquelético, articulações e tecidos conjuntivos. | XIII | M00-M99 |
digestivo | Qualquer doença do trato gastrointestinal e órgãos digestivos, incluindo o fígado e o pâncreas. | XI | K00-K95 |
ginecológica e obstétrica | Qualquer doença relacionadas com a gravidez, parto, o sistema reprodutivo feminino ou os seios. | XIV; XV | O00-O9A; N60-N98 |
infecciosas | Qualquer doença causa por microorganismos infecciosos. | Eu | A00-B99 |
respiratória | Qualquer doença dos pulmões e das vias respiratórias. | X | J00-J99 |
hematológicas | Qualquer doença do sangue, medula óssea, gânglios linfáticos ou baço. | III | D50-D89 |
renais e urológicas | Qualquer doença dos rins ou da bexiga, incluindo os ureteres, bem como os órgãos reprodutores masculinos, incluindo a próstata. | XIV | N00-N53; N99 |
sistema endócrino | Qualquer doença de glândulas endócrinas, os distúrbios metabólicos. | IV | E00-E89 |
oral e maxilofacial | Qualquer situação que envolve a boca, mandíbula, cabeça, rosto ou pescoço. | XI; XIII | K00-K14; M26-M27 |
olho | Qualquer situação que envolve os olhos, incluindo cegueira. | VII | H00-H59 |
otorrinolaringológicas | Qualquer condição da orelha, nariz ou garganta. | VIII | H60-H95; J30-J39 |
pele | Qualquer doença de pele. | XII | L00-L99 |
raro | Uma categoria especial reservada para relatos de doenças raras, definidos como aqueles impactando menos de 200.000 pessoas nos Estados Unidos (ver https://rarediseases.info.nih.gov/diseases) | AT | AT |
Tabela 1. Categorias de doença para anotação de documento. As categorias listadas aqui são aqueles a ser usado para o tipo de dados do sistema de doença no modelo de metadados do documento. Como cada apresentação da doença pode envolver vários órgãos ou etiologias, um único relato de caso clínico pode corresponder a várias categorias. Estas categorias Sigam-aqueles usados para diferenciar as seções da classificação estatística Internacional de doenças e problemas de saúde relacionados, em grande parte revisão 10 (CID-10) do código sistema: correspondentes capítulos da CID-10 e intervalos de código são fornecidos. Algumas categorias, como que para doenças orais e Maxilofaciais , correspondem às várias seções do sistema ICD-10.
Tipo de dados | Exemplo #1 | Exemplo #2 (Cameron e McClain, 1986) |
Documento e identificação de anotação | ||
ID interno | CCR005 | CCR2000 |
Data de anotação | 2 de março de 2018 | 1 de março de 2018 |
Identificação de relato de caso | ||
Título | Um caso de endocardite. | Histopatologia ocular de Acrodermatite enteropática. |
Autores | Grant AB; CD de Chang | JD Cameron; McClain CJ |
Ano | 2017 | 1986 |
Diário | Jornal do mundo da medicina e relatos de casos | Jornal britânico de Oftalmologia |
Instituição | Departamento de medicina, divisão de Cardiologia, primeiro General Hospital, Boston, Massachusetts, EUA | Departamento de Oftalmologia, faculdade de medicina da Universidade de Minnesota, Minneapolis, Minnesota 55455 |
Autor correspondente | Grant AB | JD Cameron |
PMID | 25555555 | 3756122 |
DOI | 10.1011/wjmcr.2017.11.001 | AT |
Link | https://www.NCBI.nlm.nih.gov/PMC/articles/PMC9555555/ | https://www.NCBI.nlm.nih.gov/PMC/articles/PMC1040795/ |
Língua | Inglês | Inglês |
Conteúdo médico | ||
Palavras-chave | brucelose; endocardite; válvula mitral | AT |
Demografia | homem de 37 anos de idade | criança do sexo masculino |
Localizações geográficas | Florida; Rio de Janeiro, Brasil | AT |
Estilo de vida | fumante; bebe álcool ocasionalmente | AT |
História da família | terceiro de cinco filhos de pais consanguíneos; irmão mais novo tem eczema crônico | AT |
História social | trabalhador da construção civil | AT |
História médica/cirúrgica | história de fadiga | 8 Libra 9 onça (3884 g) produto de uma gravidez a termo simples, completo; em boa saúde até a idade de 1 mês quando ele desenvolveu uma erupção cutânea bolhas em suas bochechas; bolhas se espalharam para envolver a pele ao redor do olhos, nariz e boca; as lesões cutâneas também foram anotadas no abdômen e extremidades; diarreia e falha prosperar; biópsia de pele naquela época mostrou parakeratosis típico de Acrodermatite enteropática; tratados durante os próximos seis anos com cursos intermitentes de antibióticos de largo espectro, o leite materno e diodoquin; respondeu parcialmente; desenvolvido a alopécia total, Acrodermatite intermitente e diarreia intermitente com ganho de peso de qualidade inferior; espasticidade, atribuída ao envolvimento do sistema nervoso central por ae tinha desenvolvido por 8 meses de idade; vários episódios de parada cardiorrespiratória em 11 meses; falta de coordenação das suas cordas vocais; traqueostomia; por 18 meses de idade, a criança desenvolveu pesquisando nistagmo associado com atrofia óptica bilateral e ligeira atenuação dos vasos da retina, bem como sinais de retardo psicomotor; ceratoconjuntivite bilaterais; erupção cutânea; segunda biópsia de pele realizada aos 3 novamente mostrou parakeratosis típico para ae; erupções cutâneas graves e diarreia; opacidades de córnea bilaterais brutas anteriores foram vistas que tinha resolvido completamente quando que ele foi reexaminado aos cinco; infecções frequentes, incluindo otite média, infecções do trato urinário e infecções da pele |
Sistema de doença | cardiovascular; infecciosas | digestivo; pele; olho; raro |
Sinais e sintomas | palpitações e dispneia na semana anterior; apresentou-se com calafrios, cefaleia e letargia | blepharoconjunctivitis grave e vascularização corneal anterior bilateral; erupções cutâneas graves e diarreia; sepse bacteriana gram-negativa; lesões típicas de Acrodermatite enteropática, ausência de tecido tímico, marcado a degeneração dos nervos ópticos, quiasma e folhetos ópticas e degeneração cerebelar extensiva de pele |
Comorbidade | hipertensão arterial; hiperlipidemia | AT |
Procedimentos e técnicas de diagnóstico | Exame físico; eletrocardiografia; culturas de sangue | exame ocular; necropsia |
Diagnóstico | Endocardite de Brucella | Acrodermatite enteropática |
Valores de laboratório | aumento da proteína c - reativa (9 mg/dl); fosfatase alcalina (250 u/l) | AT |
Patologia | Brucella melitensis foi cultivado a partir de amostras de sangue | os olhos direito e esquerdos foram semelhantes na aparência; epitélio corneano foi reduzido em espessura de um a três camadas celulares de células epiteliais escamosas achatadas sobre toda a superfície da córnea; todos polaridade do epitélio foi perdida. membrana de Bowman pode ser identificada somente na periferia da córnea direita. membrana do bowman não pôde ser identificada na córnea esquerda. pannus degenerativas nem inflamatória poderia ser identificado em qualquer olho; extensa atrofia dos músculos oblíquos e circulares do corpo ciliar; alguns migração posterior da lente epitélio capsular e alterações degenerativas corticais precoce; degeneração extensa do epithelium retinal do pigment em todo o polo posterior; retina foi anexado e mostrou alterações autolítico suaves por toda parte; alguma preservação da haste e o cone externas segmentos no polo posterior, no entanto, essas estruturas foram completamente perdidas anterior do Equador; perda extensa de gânglio célula e nervo fibras camadas de ambos os olhos; atrofia quase completa do disco e adjacentes de nervo óptico |
Terapêutica farmacológica | gentamicina 240 mg/iv/diários | AT |
Terapia de Inverventional | substituição da prótese valvular | AT |
Avaliação dos resultados do paciente | recuperação foi tranquila; descarregada em casa | morreu em 1971 (7 anos de idade) |
Diagnóstico de imagem/vídeo gravação | 2; 1; 0; 1 | 7; 0; 0; 0 |
Relação com outros relatos de casos | 5555555 | 23430849 |
Relação com o julgamento de Clinial | NCT05555123 | AT |
Crosslink com Banco de dados | MedlinePlus saúde informações: https://medlineplus.gov/ency/article/000597.htm | HighWire - PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa Central de PubMed: http://europepmc.org/abstract/MED/3756122; Aliança genética: http://www.diseaseinfosearch.org/result/143 |
Agradecimentos | ||
Fonte de financiamento | Institutos nacionais de saúde/nacional coração, pulmão e sangue Institute | O clube de leões de Minnesota; Pesquisa de prevenção da cegueira; Administração dos veteranos; Escritório de álcool e outras drogas de abuso programação do estado de Minnesota |
Número de prêmio | R01HL123123 (para AG) | AT |
Divulgações/conflito de interesse | Dr. Grant é um porta-voz pago para DrugCo. | AT |
Referências | 4 | 27 |
Tabela 2. Modelo de metadados padronizados para caso clínico relata, com anotações de exemplo. Um conjunto de características comuns a caso clínico relata e facilitar suas anotações do conceito-nível é mostrado aqui. Este modelo está organizado em três seções principais: identificação, conteúdo médico e confirmações, denotando a finalidade e valor adicional proporcionada por cada tipo de recurso de relatório do caso. Esta tabela contém dois conjuntos de anotações de exemplo, um de um relato ficcional, e outro conjunto derivado de um relatório sobre a condição Acrodermatite enteropática23.
Arquivo suplementar 1. Texto de um relato de caso clínico (Chang et al 2017). clique aqui para baixar este arquivo.
Implementação de um modelo de metadados padronizados para CCRs pode tornar seu conteúdo mais justo, expandir a sua audiência e estender seus aplicativos. Na sequência do uso tradicional do CCRs como ferramentas educacionais em comunicações médicas, estagiários da saúde (por exemplo, estudantes de medicina, estagiários e bolsistas) e investigadores biomédicos podem encontrar que permite que conteúdo resumido relato de caso mais rápida compreensão. A maior força de padronização de metadados com CCRs, no entanto, é que a indexação dessas transformações de dados caso contrário isolado observações em padrões interpretáveis. O protocolo fornecido aqui pode servir como o primeiro passo em um fluxo de trabalho para trabalhar com CCRs, se este fluxo de trabalho consiste em análise epidemiológica, droga pós-comercialização ou vigilância de tratamento ou pesquisas mais amplas de patogênese ou eficácia terapêutica. Estruturado características identificadas dentro CCRs podem fornecer um recurso útil para pesquisadores, com foco em apresentações da doença e tratamentos, especialmente para doenças raras. Pesquisadores clínicos podem encontrar dados sobre últimos esquemas de tratamento para analisar gravados sintomas ou efeitos colaterais e grau de melhoria sob padrões anteriores de cuidados. Os dados também podem conduzir a análises mais amplas de um novos tratamentos com base na eficácia, ausência de efeitos adversos ou toxicidade, ou na droga, visando diferenças de gênero, faixa etária ou fundo genético.
Os benefícios proporcionados pelos metadados estruturados são similarmente aplicáveis aos fluxos de trabalho computacionais projetados para analisar ou modelo de linguagem médica. Características CCR estruturadas também podem fornecer conteúdo de provas das áreas onde os autores de relatório podem fornecer mais facilmente legível por máquina (e em alguns casos, legível). Variância entre CCRs pode resultar de uma falta de observações explicitamente fornecidas: por exemplo, a idade exata do paciente não pode ser especificada. Da mesma forma, os médicos não podem mencionar testes se os diagnósticos ou seus resultados foram considerados triviais. Fornecendo exemplos de aberturas necessárias para uma análise aprofundada, reforçando a estrutura na CCRs destaca melhorias potenciais. Em uma perspectiva mais ampla, uma maior disponibilidade de dados de texto estruturado de documentos médicos suporta (PNL) os esforços para aprender com grande volume de dados em saúde24,25de processamento de linguagem natural.
Os autores não têm nada para divulgar.
Este trabalho foi financiado em parte pelo nacional do coração, pulmão e sangue Instituto: R35 HL135772 (a P. Ping); Instituto Nacional de ciências médicas do General: U54 GM114833 (a P. Ping, K. Watson e W. Wang); Instituto Nacional de imagem biomédica e bioengenharia: EB016640 T32 (para r. Bui); um presente da Fundação Hoag e Dr. S. Soares; e a doação de T.C. Laubisch na UCLA (a P. Ping).
Name | Company | Catalog Number | Comments |
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados