Anmelden

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

  • Zusammenfassung
  • Zusammenfassung
  • Einleitung
  • Protokoll
  • Repräsentative Ergebnisse
  • Diskussion
  • Offenlegungen
  • Danksagungen
  • Materialien
  • Referenzen
  • Nachdrucke und Genehmigungen

Zusammenfassung

In diesem Protokoll wird die Antwortqualität des grundlegenden Sprachmodells durch Augmentation mit begutachteten, domänenspezifischen wissenschaftlichen Artikeln durch einen Vektor-Embedding-Mechanismus verbessert. Darüber hinaus wird Code bereitgestellt, um den Leistungsvergleich zwischen großen Sprachmodellen zu erleichtern.

Zusammenfassung

Große Sprachmodelle (LLMs) haben sich zu einer beliebten Ressource für die Generierung von Informationen entwickelt, die für eine Benutzerabfrage relevant sind. Solche Modelle werden durch einen ressourcenintensiven Trainingsprozess erstellt, bei dem ein umfangreicher, statischer Korpus von Textdaten verwendet wird. Diese statische Natur führt zu Einschränkungen bei der Einführung in Bereichen mit sich schnell änderndem Wissen, proprietären Informationen und sensiblen Daten. In dieser Arbeit werden Methoden zur Anreicherung von Allzweck-LLMs, bekannt als Foundation-Modelle, mit domänenspezifischen Informationen unter Verwendung eines Embeddings-basierten Ansatzes zur Einbeziehung aktueller, begutachteter wissenschaftlicher Manuskripte skizziert. Dies wird durch Open-Source-Tools wie Llama-Index und öffentlich zugängliche Modelle wie Llama-2 erreicht, um die Transparenz, die Privatsphäre und Kontrolle der Benutzer sowie die Replizierbarkeit zu maximieren. Während wissenschaftliche Manuskripte als Anwendungsbeispiel herangezogen werden, kann dieser Ansatz auf jede beliebige Textdatenquelle ausgeweitet werden. Darüber hinaus werden Methoden zur Bewertung der Modellleistung nach dieser Verbesserung erläutert. Diese Methoden ermöglichen die schnelle Entwicklung von LLM-Systemen für hochspezialisierte Domänen, unabhängig von der Vollständigkeit der Informationen im Trainingskorpus.

Einleitung

Große Sprachmodelle (LLMs) wie ChatGPT von OpenAI oder Llama von Meta AI haben sich schnell zu einer beliebten Ressource für die Generierung von Text entwickelt, der für eine Benutzeraufforderung relevant ist. Ursprünglich dazu gedacht, die nächsten lexikalischen Elemente in einer Sequenz vorherzusagen, haben sich diese Modelle weiterentwickelt, um den Kontext zu verstehen, klinische Informationen zu kodieren und eine hohe Leistung bei einer Vielzahl von Aufgaben zu demonstrieren 1,2,3,4. Obwohl Sprachmodell....

Protokoll

In dem in diesem Artikel gezeigten Anwendungsfall wurde der Vektorspeicher unter Verwendung veröffentlichter Richtlinien der Chicago Consensus Working Group17 generiert. Diese Expertengruppe wurde gegründet, um Leitlinien für die Behandlung von Bauchfellkarzinomen zu entwickeln. Das Fachgebiet wurde so gewählt, dass es innerhalb des klinischen Fachgebiets der Prüfärzte liegt. Die Artikel wurden aus Online-Zeitschriftenrepositorien wie Cancer und den Annals of Surgical Oncology veröffentlicht. Ein kompaktes (33,4 Mio. Parameter) Einbettungsmodell, das von der Beijing Academy for Artificial Intelligence (BAAI, ht....

Repräsentative Ergebnisse

Ein Satz von 22 Veröffentlichungen aus den Managementrichtlinien der Chicago Consensus Working Group wurde verwendet, um das Basismodell Llama-7b zu ergänzen17. Die Dokumente wurden mit dem Tool Llama-Index in einen Vektorindex umgewandelt, um Llama-2-7b-CCWG-Embed zu generieren. Beliebte OpenAI-Modelle wie GPT-3.5 und GPT-4 wurden ebenfalls auf ähnliche Weise erweitert, um GPT-XX-CCWG-Embed-Modelle zu erzeugen. Insgesamt wurden 20 Multiple-Choice-Fragen (MCQ) .......

Diskussion

Die hier vorgestellten Methoden zielen darauf ab, die Erforschung domänenspezifischer Anwendungen von LLMs zu erleichtern, ohne dass ein De-novo-Training oder eine umfangreiche Feinabstimmung erforderlich ist. Da LLM zu einem Bereich von erheblichem Forschungsinteresse werden, werden Ansätze zur Erweiterung der Wissensdatenbanken und zur Verbesserung der Genauigkeit der Antworten immer wichtiger 18,19,20,21........

Offenlegungen

Die Autoren haben keine Interessenkonflikte anzugeben.

Danksagungen

Diese Arbeit wurde durch mehrere Open-Source-Bibliotheken erleichtert, vor allem durch llama-index (https://www.llamaindex.ai/), ChromaDB (https://www.trychroma.com/) und LMQL (https://lmql.ai/).

....

Materialien

NameCompanyCatalog NumberComments
pip3 version 22.0.2 
Python version 3.10.12

Referenzen

  1. Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
  2. Gilson, A., et al. How does ChatGP....

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Weitere Artikel entdecken

MedizinAusgabe 214Vektoreinbettungendom nenspezifische ResponsivenessGrundlagenmodellePeer Review ManuskripteOpen Source ToolsLlama IndexLlama 2BenutzerdatenschutzModellleistungsbewertungFachdom nenTrainingskorpus

This article has been published

Video Coming Soon

JoVE Logo

Datenschutz

Nutzungsbedingungen

Richtlinien

Forschung

Lehre

ÜBER JoVE

Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten