Accedi

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

In questo articolo

  • Riepilogo
  • Abstract
  • Introduzione
  • Protocollo
  • Risultati Rappresentativi
  • Discussione
  • Divulgazioni
  • Riconoscimenti
  • Materiali
  • Riferimenti
  • Ristampe e Autorizzazioni

Riepilogo

In questo protocollo, la qualità della risposta del modello linguistico di base di grandi dimensioni viene migliorata tramite l'aumento con articoli scientifici specifici del dominio sottoposti a revisione paritaria attraverso un meccanismo di incorporamento vettoriale. Inoltre, viene fornito codice per facilitare il confronto delle prestazioni tra modelli linguistici di grandi dimensioni.

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono emersi come una risorsa popolare per la generazione di informazioni rilevanti per una query utente. Tali modelli vengono creati attraverso un processo di formazione ad alta intensità di risorse che utilizza un ampio corpus statico di dati testuali. Questa natura statica comporta limitazioni per l'adozione in domini con conoscenze, informazioni proprietarie e dati sensibili in rapida evoluzione. In questo lavoro, vengono delineati i metodi per aumentare gli LLM generici, noti come modelli di fondazione, con informazioni specifiche del dominio utilizzando un approccio basato sull'incorporamento di manoscritti scientifici aggiornati e sottoposti a revisione paritaria. Ciò si ottiene attraverso strumenti open source come Llama-Index e modelli disponibili pubblicamente come Llama-2 per massimizzare la trasparenza, la privacy e il controllo degli utenti e la replicabilità. Sebbene i manoscritti scientifici siano utilizzati come caso d'uso di esempio, questo approccio può essere esteso a qualsiasi fonte di dati testuali. Inoltre, vengono discussi i metodi per valutare le prestazioni del modello in seguito a questo miglioramento. Questi metodi consentono il rapido sviluppo di sistemi LLM per domini altamente specializzati, indipendentemente dalla completezza delle informazioni nel corpus di formazione.

Introduzione

I modelli linguistici di grandi dimensioni (LLM) come ChatGPT di OpenAI o Llama di Meta AI sono diventati rapidamente una risorsa popolare per la generazione di testo pertinente a un prompt dell'utente. Originariamente funzionanti per prevedere gli elementi lessicali successivi in una sequenza, questi modelli si sono evoluti per comprendere il contesto, codificare le informazioni cliniche e dimostrare prestazioni elevate in una varietà di compiti 1,2,3,4. Sebbene i modelli linguistici precedono di decenni ta....

Protocollo

Nel caso d'uso dimostrato in questo articolo, l'archivio vettoriale è stato generato utilizzando le linee guida pubblicate dal Chicago Consensus Working Group17. Questo gruppo di esperti è stato istituito per sviluppare linee guida per la gestione dei tumori peritoneali. L'area tematica è stata scelta in quanto rientra nell'area di competenza clinica degli investigatori. La serie di articoli è stata consultata da archivi di riviste online tra cui Cancer e Annals of Surgical Oncology. Un modello di embedding compatto (33,4 milioni di parametri) creato dalla Beijing Academy for Artificial Intelligence (BAAI, http....

Risultati Rappresentativi

Una serie di 22 pubblicazioni del Chicago Consensus Working Group sono state utilizzate per aumentare il modello base del Llama-7b17. I documenti sono stati convertiti in un indice vettoriale utilizzando lo strumento Llama-Index per generare Llama-2-7b-CCWG-Embed. Anche i modelli OpenAI più diffusi, come GPT-3.5 e GPT-4, sono stati aumentati in modo simile per produrre modelli GPT-XX-CCWG-Embed. Sono state sviluppate un totale di 20 domande a scelta multipla (MCQ.......

Discussione

I metodi qui forniti mirano a facilitare la ricerca di applicazioni specifiche di dominio degli LLM senza la necessità di una formazione de novo o di un'ampia messa a punto. Poiché gli LLM stanno diventando un'area di significativo interesse per la ricerca, gli approcci per aumentare le basi di conoscenza e migliorare l'accuratezza delle risposte diventeranno sempre più importanti 18,19,20,21.

Divulgazioni

Gli autori non hanno conflitti di interesse da dichiarare.

Riconoscimenti

Questo lavoro è stato facilitato da diverse librerie open source, in particolare llama-index (https://www.llamaindex.ai/), ChromaDB (https://www.trychroma.com/) e LMQL (https://lmql.ai/).

....

Materiali

NameCompanyCatalog NumberComments
pip3 version 22.0.2 
Python version 3.10.12

Riferimenti

  1. Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
  2. Gilson, A., et al. How does ChatGP....

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

MedicinaNumero 214Incorporamenti di vettoriReattivit specifica del dominioModelli di fondazioneManoscritti sottoposti a revisione paritariaStrumenti open sourceLlama IndexLlama 2Privacy dell utenteValutazione delle prestazioni del modelloDomini specializzatiCorpus di formazione

This article has been published

Video Coming Soon

JoVE Logo

Riservatezza

Condizioni di utilizzo

Politiche

Ricerca

Didattica

CHI SIAMO

Copyright © 2025 MyJoVE Corporation. Tutti i diritti riservati