ベクトル埋め込みによる大規模言語モデルの拡張によるドメイン固有の応答性の向上

Nathan M. Wolfrath; Nathaniel B. Verhagen; Bradley H. Crotty; Melek Somai; Anai  N. Kothari

doi:10.3791/66796

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

ベクトル埋め込みによる大規模言語モデルの拡張によるドメイン固有の応答性の向上

DOI:

10.3791/66796

⸱

December 6th, 2024

Nathan M. Wolfrath¹^,², Nathaniel B. Verhagen¹, Bradley H. Crotty², Melek Somai², Anai N. Kothari¹

¹Department of Surgery, Division of Surgical Oncology, Medical College of Wisconsin, ²Inception Health Labs, Medical College of Wisconsin

すべての翻訳はAIによって生成されていることに注意してください。英語版はこちらをクリックしてください

要約

このプロトコルでは、ベクトル埋め込みメカニズムを通じて、査読済みのドメイン固有の科学論文による拡張により、Foundation Large Language Modelの応答品質が向上します。さらに、大規模な言語モデル間でのパフォーマンス比較を支援するコードが提供されています。

要約

大規模言語モデル (LLM) は、ユーザークエリに関連する情報を生成するための一般的なリソースとして登場しました。このようなモデルは、テキストデータの広範で静的なコーパスを利用した、リソースを大量に消費するトレーニングプロセスを通じて作成されます。この静的な性質により、急速に変化する知識、専有情報、機密データを含むドメインでの採用には制限があります。この研究では、最新の査読済み科学原稿を組み込むための埋め込みベースのアプローチを使用して、基礎モデルとして知られる汎用LLMをドメイン固有の情報で拡張する方法を概説します。これは、Llama-Index などのオープンソースツールや Llama-2 などの公開モデルを通じて実現され、透明性、ユーザーのプライバシーと制御、および再現性を最大化します。科学論文はユースケースの例として使用されていますが、このアプローチは任意のテキストデータソースに拡張できます。さらに、この機能強化後のモデルのパフォーマンスを評価する方法についても説明します。これらの方法により、トレーニングコーパス内の情報の包括性に関係なく、高度に専門化されたドメイン向けのLLMシステムを迅速に開発できます。

概要

OpenAIのChatGPTやMeta AIのLlamaなどの大規模言語モデル(LLM)は、ユーザープロンプトに関連するテキストを生成するためのリソースとして急速に普及しています。もともとは、シーケンス内の次の語彙項目を予測するために機能していましたが、これらのモデルは、コンテキストを理解し、臨床情報をエンコードし、さまざまなタスク¹^、²^、³^、⁴で高いパフォーマンスを発揮するように進化しました。言語モデルは、そのような機能や現在の人気レベルよりも数十年前のものです^が5、近年のディープラーニングとコンピューティング機能の進歩により、Webベースのテクノロジーやアプリケーションプログラムインターフェース(^API)6を通じて、事前に学習された高品質の商用LLMが広く利用できるようになりました。ただし、この形式で LLM を消費することには、いくつかの注目すべき制限があります。

課題1:静的トレーニングコーパス
LLMは、膨大なテ....

プロトコル

このホワイトペーパーで示したユースケースでは、ベクトルストアは、Chicago Consensus Working Group¹⁷から公開されたガイドラインを使用して生成されました。この専門家グループは、腹膜がんの管理に関するガイドラインを策定するために設立されました。対象領域は、研究者の臨床専門知識の領域内にあるため、選択されました。一連の論文は、CancerやAnnals of Surgical Oncologyなどのオンラインジャーナルリポジトリからアクセスできました。北京人工知能学院(BAAI、https://www.baai.ac.cn/english.html)によって作成されたコンパクトな(33.4Mパラメータ)埋め込みモデルであるbge-small-enを使用して、ソースドキュメントから埋め込みを生成しました。その結果得られたデータベースは、Llama 2とOpen-AI基盤モデル⁷の補強に利用されました。読者の便宜のために、コードはGitHub(https://github.com/AnaiLab/AugmentedLLM)を通じて利用可能になっています。再現性を確保するために、提供されている要件リストで使用されているのと同じバージョンのライブラリと、同じバージョンの Python を使用することをお勧めします。次の方法で使用されるツールのインストール....

代表的な結果

シカゴ・コンセンサス・ワーキング・グループの管理ガイドラインからの22の出版物のセットは、ベースのLlama-7bモデル¹⁷を補強するために使用された。ドキュメントは、Llama-Index ツールを使用してベクトルインデックスに変換され、Llama-2-7b-CCWG-Embedded が生成されました。GPT-3.5やGPT-4などの人気のあるOpenAIモデルも同様の方法で拡張され、GPT-XX-CCWG-E.......

ディスカッション

ここで提供される方法は、de novoトレーニングや広範な微調整を必要とせずに、LLMのドメイン特異的アプリケーションの研究を促進することを目的としています。LLMが重要な研究関心領域になりつつあるため、知識ベースを増強し、応答の精度を向上させるためのアプローチはますます重要になります18,19,20,21。

開示事項

著者は、宣言する利益相反を持っていません。

謝辞

この作業は、いくつかのオープンソースライブラリ、特に llama-index (https://www.llamaindex.ai/)、ChromaDB (https://www.trychroma.com/)、LMQL (https://lmql.ai/) によって促進されました。

....

資料

Name	Company	Catalog Number	Comments
pip3 version 22.0.2
Python version 3.10.12

参考文献

Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
Gilson, A., et al. How does ChatGP....

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

Medicine Vector Embeddings Domain specific Responsiveness Foundation Models Llama Index Llama 2 User Privacy Model Performance Evaluation Specialized Domains Training Corpus

This article has been published

Video Coming Soon

Keep me updated: