Erweiterung großer Sprachmodelle durch Vektoreinbettungen zur Verbesserung der domänenspezifischen Reaktionsfähigkeit

Nathan M. Wolfrath; Nathaniel B. Verhagen; Bradley H. Crotty; Melek Somai; Anai  N. Kothari

doi:10.3791/66796

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

Erweiterung großer Sprachmodelle durch Vektoreinbettungen zur Verbesserung der domänenspezifischen Reaktionsfähigkeit

DOI:

10.3791/66796

⸱

December 6th, 2024

Nathan M. Wolfrath¹^,², Nathaniel B. Verhagen¹, Bradley H. Crotty², Melek Somai², Anai N. Kothari¹

¹Department of Surgery, Division of Surgical Oncology, Medical College of Wisconsin, ²Inception Health Labs, Medical College of Wisconsin

Bitte beachten Sie, dass alle Übersetzungen von KI generiert wurden. Klicken Sie hier für die englische Version.

Zusammenfassung

In diesem Protokoll wird die Antwortqualität des grundlegenden Sprachmodells durch Augmentation mit begutachteten, domänenspezifischen wissenschaftlichen Artikeln durch einen Vektor-Embedding-Mechanismus verbessert. Darüber hinaus wird Code bereitgestellt, um den Leistungsvergleich zwischen großen Sprachmodellen zu erleichtern.

Zusammenfassung

Große Sprachmodelle (LLMs) haben sich zu einer beliebten Ressource für die Generierung von Informationen entwickelt, die für eine Benutzerabfrage relevant sind. Solche Modelle werden durch einen ressourcenintensiven Trainingsprozess erstellt, bei dem ein umfangreicher, statischer Korpus von Textdaten verwendet wird. Diese statische Natur führt zu Einschränkungen bei der Einführung in Bereichen mit sich schnell änderndem Wissen, proprietären Informationen und sensiblen Daten. In dieser Arbeit werden Methoden zur Anreicherung von Allzweck-LLMs, bekannt als Foundation-Modelle, mit domänenspezifischen Informationen unter Verwendung eines Embeddings-basierten Ansatzes zur Einbeziehung aktueller, begutachteter wissenschaftlicher Manuskripte skizziert. Dies wird durch Open-Source-Tools wie Llama-Index und öffentlich zugängliche Modelle wie Llama-2 erreicht, um die Transparenz, die Privatsphäre und Kontrolle der Benutzer sowie die Replizierbarkeit zu maximieren. Während wissenschaftliche Manuskripte als Anwendungsbeispiel herangezogen werden, kann dieser Ansatz auf jede beliebige Textdatenquelle ausgeweitet werden. Darüber hinaus werden Methoden zur Bewertung der Modellleistung nach dieser Verbesserung erläutert. Diese Methoden ermöglichen die schnelle Entwicklung von LLM-Systemen für hochspezialisierte Domänen, unabhängig von der Vollständigkeit der Informationen im Trainingskorpus.

Einleitung

Große Sprachmodelle (LLMs) wie ChatGPT von OpenAI oder Llama von Meta AI haben sich schnell zu einer beliebten Ressource für die Generierung von Text entwickelt, der für eine Benutzeraufforderung relevant ist. Ursprünglich dazu gedacht, die nächsten lexikalischen Elemente in einer Sequenz vorherzusagen, haben sich diese Modelle weiterentwickelt, um den Kontext zu verstehen, klinische Informationen zu kodieren und eine hohe Leistung bei einer Vielzahl von Aufgaben zu demonstrieren 1,2,3,4. Obwohl Sprachmodell....

Protokoll

In dem in diesem Artikel gezeigten Anwendungsfall wurde der Vektorspeicher unter Verwendung veröffentlichter Richtlinien der Chicago Consensus Working Group¹⁷ generiert. Diese Expertengruppe wurde gegründet, um Leitlinien für die Behandlung von Bauchfellkarzinomen zu entwickeln. Das Fachgebiet wurde so gewählt, dass es innerhalb des klinischen Fachgebiets der Prüfärzte liegt. Die Artikel wurden aus Online-Zeitschriftenrepositorien wie Cancer und den Annals of Surgical Oncology veröffentlicht. Ein kompaktes (33,4 Mio. Parameter) Einbettungsmodell, das von der Beijing Academy for Artificial Intelligence (BAAI, ht....

Repräsentative Ergebnisse

Ein Satz von 22 Veröffentlichungen aus den Managementrichtlinien der Chicago Consensus Working Group wurde verwendet, um das Basismodell Llama-7b zu ergänzen¹⁷. Die Dokumente wurden mit dem Tool Llama-Index in einen Vektorindex umgewandelt, um Llama-2-7b-CCWG-Embed zu generieren. Beliebte OpenAI-Modelle wie GPT-3.5 und GPT-4 wurden ebenfalls auf ähnliche Weise erweitert, um GPT-XX-CCWG-Embed-Modelle zu erzeugen. Insgesamt wurden 20 Multiple-Choice-Fragen (MCQ) .......

Diskussion

Die hier vorgestellten Methoden zielen darauf ab, die Erforschung domänenspezifischer Anwendungen von LLMs zu erleichtern, ohne dass ein De-novo-Training oder eine umfangreiche Feinabstimmung erforderlich ist. Da LLM zu einem Bereich von erheblichem Forschungsinteresse werden, werden Ansätze zur Erweiterung der Wissensdatenbanken und zur Verbesserung der Genauigkeit der Antworten immer wichtiger 18,19,20,21........

Offenlegungen

Die Autoren haben keine Interessenkonflikte anzugeben.

Danksagungen

Diese Arbeit wurde durch mehrere Open-Source-Bibliotheken erleichtert, vor allem durch llama-index (https://www.llamaindex.ai/), ChromaDB (https://www.trychroma.com/) und LMQL (https://lmql.ai/).

....

Materialien

Name	Company	Catalog Number	Comments
pip3 version 22.0.2
Python version 3.10.12

Referenzen

Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
Gilson, A., et al. How does ChatGP....

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen