Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

  • Resumen
  • Resumen
  • Introducción
  • Protocolo
  • Resultados Representativos
  • Discusión
  • Divulgaciones
  • Agradecimientos
  • Materiales
  • Referencias
  • Reimpresiones y Permisos

Resumen

En este protocolo, la calidad de respuesta del modelo de lenguaje grande básico se mejora mediante el aumento con artículos científicos revisados por pares y específicos del dominio a través de un mecanismo de incrustación vectorial. Además, se proporciona código para ayudar en la comparación del rendimiento entre modelos de lenguaje grandes.

Resumen

Los grandes modelos de lenguaje (LLM) se han convertido en un recurso popular para generar información relevante para una consulta de usuario. Dichos modelos se crean a través de un proceso de entrenamiento intensivo en recursos que utiliza un corpus extenso y estático de datos textuales. Esta naturaleza estática da como resultado limitaciones para la adopción en dominios con conocimiento, información propietaria y datos confidenciales que cambian rápidamente. En este trabajo, se describen métodos para aumentar los LLM de propósito general, conocidos como modelos de fundamentación, con información específica del dominio utilizando un enfoque basado en incrustaciones para incorporar manuscritos científicos actualizados y revisados por pares. Esto se logra a través de herramientas de código abierto como Llama-Index y modelos disponibles públicamente como Llama-2 para maximizar la transparencia, la privacidad y el control del usuario y la replicabilidad. Si bien los manuscritos científicos se utilizan como ejemplo de caso de uso, este enfoque se puede extender a cualquier fuente de datos de texto. Además, se analizan los métodos para evaluar el rendimiento del modelo después de esta mejora. Estos métodos permiten el rápido desarrollo de sistemas LLM para dominios altamente especializados, independientemente de la amplitud de la información en el corpus de formación.

Introducción

Los grandes modelos de lenguaje (LLM) como ChatGPT de OpenAI o Llama de Meta AI se han convertido rápidamente en un recurso popular para generar texto relevante para un mensaje de usuario. Estos modelos, que originalmente funcionaban para predecir los siguientes ítems léxicos en una secuencia, han evolucionado para comprender el contexto, codificar la información clínica y demostrar un alto rendimiento en una variedad de tareas 1,2,3,4. Aunque los modelos de lenguaje son anteriores a estas capacidades y a su....

Protocolo

En el caso de uso demostrado en este documento, el almacén de vectores se generó utilizando las pautas publicadas por el Grupo de Trabajo17 del Consenso de Chicago. Este grupo de expertos se estableció para desarrollar directrices para el tratamiento de los cánceres peritoneales. Se eligió el área temática por estar dentro del área de especialización clínica de los investigadores. Se accedió al conjunto de artículos desde repositorios de revistas en línea, incluidos Cancer y Annals of Surgical Oncology. Se utilizó un modelo de incrustación compacto (33,4 millones de parámetros) creado por la Academia de Intelig....

Resultados Representativos

Se utilizaron un conjunto de 22 publicaciones de las directrices de gestión del Grupo de Trabajo del Consenso de Chicago para aumentar el modelo base Llama-7b17. Los documentos se convirtieron en un índice vectorial utilizando la herramienta Llama-Index para generar Llama-2-7b-CCWG-Embed. Los modelos populares de OpenAI, como GPT-3.5 y GPT-4, también se aumentaron de manera similar para producir modelos GPT-XX-CCWG-Embed. Se elaboraron un total de 20 preguntas .......

Discusión

Los métodos proporcionados aquí tienen como objetivo facilitar la investigación de aplicaciones específicas de dominio de LLM sin la necesidad de capacitación de novo o un ajuste exhaustivo. A medida que los LLM se están convirtiendo en un área de gran interés para la investigación, los enfoques para aumentar las bases de conocimiento y mejorar la precisión de las respuestas serán cada vez más importantes 18,19,20,21.

Divulgaciones

Los autores no tienen conflictos de intereses que declarar.

Agradecimientos

Este trabajo fue facilitado por varias bibliotecas de código abierto, entre las que destacan llama-index (https://www.llamaindex.ai/), ChromaDB (https://www.trychroma.com/) y LMQL (https://lmql.ai/).

....

Materiales

NameCompanyCatalog NumberComments
pip3 version 22.0.2 
Python version 3.10.12

Referencias

  1. Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
  2. Gilson, A., et al. How does ChatGP....

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

MedicinaN mero 214Incrustaciones de vectoresCapacidad de respuesta espec fica del dominioModelos de fundamentaci nManuscritos revisados por paresHerramientas de c digo abiertoLlama IndexLlama 2Privacidad del usuarioEvaluaci n del rendimiento del modeloDominios especializadosCorpus de capacitaci n

This article has been published

Video Coming Soon

JoVE Logo

Privacidad

Condiciones de uso

Políticas

Investigación

Educación

ACERCA DE JoVE

Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados