הגדלת מודלי שפה גדולים באמצעות הטבעות וקטוריות לשיפור ההיענות הספציפית לתחום

Nathan M. Wolfrath; Nathaniel B. Verhagen; Bradley H. Crotty; Melek Somai; Anai  N. Kothari

doi:10.3791/66796

A subscription to JoVE is required to view this content. Sign in or start your free trial.

Method Article

הגדלת מודלי שפה גדולים באמצעות הטבעות וקטוריות לשיפור ההיענות הספציפית לתחום

DOI:

10.3791/66796

⸱

December 6th, 2024

Nathan M. Wolfrath¹^,², Nathaniel B. Verhagen¹, Bradley H. Crotty², Melek Somai², Anai N. Kothari¹

¹Department of Surgery, Division of Surgical Oncology, Medical College of Wisconsin, ²Inception Health Labs, Medical College of Wisconsin

Please note that all translations are automatically generated. Click here for the English version.

Summary

בפרוטוקול זה, איכות התגובה של מודל שפה גדול משופרת באמצעות אוגמנטציה עם מאמרים מדעיים ספציפיים לתחום שעברו ביקורת עמיתים באמצעות מנגנון הטבעה וקטורי. בנוסף, הקוד מסופק כדי לסייע בהשוואת ביצועים בין מודלי שפה גדולים.

Abstract

מודלי שפה גדולים (LLM) התפתחו כמשאב פופולרי ליצירת מידע רלוונטי לשאילתת משתמש. מודלים כאלה נוצרים באמצעות תהליך הכשרה עתיר משאבים תוך שימוש בקורפוס נרחב וסטטי של נתונים טקסטואליים. אופי סטטי זה גורם למגבלות לאימוץ בתחומים עם ידע המשתנה במהירות, מידע קנייני ונתונים רגישים. בעבודה זו, מתוארות שיטות להגדלת LLMs למטרות כלליות, הידועות כמודלים בסיסיים, עם מידע ספציפי לתחום באמצעות גישה מבוססת הטבעה לשילוב כתבי יד מדעיים עדכניים שעברו ביקורת עמיתים. זה מושג באמצעות כלי קוד פתוח כגון Llama-Index ומודלים זמינים לציבור כגון Llama-2 כדי למקסם את השקיפות, פרטיות המשתמש ושליטה, ושכפול. בעוד כתבי יד מדעיים משמשים כמקרה שימוש לדוגמה, ניתן להרחיב גישה זו לכל מקור נתוני טקסט. בנוסף, נדונות שיטות להערכת ביצועי המודל לאחר שיפור זה. שיטות אלה מאפשרות פיתוח מהיר של מערכות LLM עבור תחומים מיוחדים מאוד ללא קשר להיקף המידע בקורפוס ההדרכה.

Introduction

מודלי שפה גדולים (LLM) כגון ChatGPT של OpenAI או Llama של Meta AI הפכו במהירות למשאב פופולרי ליצירת טקסט רלוונטי לבקשת משתמש. מודלים אלה, שפעלו במקור כדי לחזות את הפריטים הלקסיקליים הבאים ברצף, התפתחו כדי להבין הקשר, לקודד מידע קליני ולהדגים ביצועים גבוהים במגוון משימות 1,2,3,4. למרות שמודלי שפה קדמו ליכולות כאלה ולרמת הפופולריות הנוכחית שלהם בעשורים⁵, ההתקדמות האחרונה ביכולות למידה עמוקה ומחשוב הפכה LLMs מסחריים מאומנים מראש ואיכותיים לזמינים באופן נרחב למשתמשים באמצעות טכנולוגיות מבוססות אינטרנט וממשקי תוכניות יישומים (APIs)⁶. עם זאת, ישנן מספר מגבלות בולטות לצריכת LLMs בפורמט זה.

אתגר 1: קורפוס אימון סטטי
LLMs מאומנים על גוף עצום (למשל, שני טריליון אסימונים במקרה של Llama 2⁷) אבל סטטי של נתוני טקסט. הדבר מציב אתגר ביצירת מענים מדויקים הנוגעים לתחומים המתפתחים במהירות או משתנים בספרות. בגישה סטטית זו, LLMs ידרוש הכשרה תכופה כדי לשמור על קשר עם הנתונים האחרונים, אשר אינו מעשי ולא מדרגי. יתר על כן, הנחיות הדורשות תגובות על סמך מידע שאינו קיים בנתוני האימון עלולות למנוע יצירת טקסט שימושי או להוביל להזיות⁸. מקרים של הזיות או זיוף עובדות מעלים חששות משמעותיים לגבי האמינות של LLMs, במיוחד בהגדרות שבהן דיוק המידע הוא קריטי⁹.

אתגר 2: חוסר ספציפיות בתחום
מודלים מאומנים מראש נוצרים לעתים קרובות לשימוש כללי, בעוד שמשתמשים עשויים לדרוש מודל הממוטב במיוחד לביצועים בתחום מסוים. בנוסף, המשאבים החישוביים והנתונים הדרושים לאימון מודל דה נובו או לביצוע כוונון עדין משמעותי אינם מאפשרים למשתמשים רבים.

אתגר 3: חוסר פרטיות
משתמשים הרודפים יישומים הכוללים נתונים רגישים או מידע קנייני עשויים שלא לרצות או לא להשתמש בשירותי LLM מסוימים מכיוון שחסר להם מידע על אופן אחסון הנתונים או השימוש בהם.

אתגר 4: היעדר יציבות מובטחת
שירותים עם LLM קנייני עשויים לשנות מודלים זמינים או לשנות התנהגות בכל עת, מה שהופך את היציבות לדאגה ליישום יישומים המסתמכים על שירותים אלה.

Retrieval-augmented generation (RAG) היא טכניקה שפותחה כדי לשפר את ביצועי LLM, במיוחד בשאילתות הקשורות למידע מחוץ לקורפוס האימון^10,11 של המודל. מערכות אלה מגדילות LLMs על ידי שילוב מידע הקשרי שיש לקחת בחשבון בעת יצירת תגובה לשאילתת משתמש. עבודות שונות שנעשו לאחרונה תיארו יישומים של מערכות RAG ואת היתרונות הפוטנציאליים שלהם 12,13,14.

מטרת השיטה המתוארת בעבודה זו היא להדגים את הבנייה של מערכת כזו ולספק מסגרת לחוקרים להתנסות במהירות על LLMs ספציפיים לתחום, מוגברת. שיטה זו ישימה עבור משתמשים המבקשים להגדיל LLM עם מקור נתונים חיצוני מבוסס טקסט. באופן ספציפי, מטרת העל של פרוטוקול זה היא לספק קוד שלב אחר שלב הניתן להרחבה למגוון ניסויים מעשיים של LLM ו- RAG ללא צורך במומחיות טכנית משמעותית בתחום מידול השפה, אם כי נדרש ידע עובד של Python כדי ליישם גישה זו ללא שינוי. כדי למקסם את שליטת המשתמש, השקיפות, הניידות והמחיר המשתלם של פתרונות, נעשה שימוש בכלים בקוד פתוח הזמינים לציבור. המערכת המוצעת נותנת מענה לסוגיות שצוינו לעיל בדרכים הבאות:

פתרונות 1 ו-2: קורפוס אימון סטטי וחוסר ספציפיות בתחום
המתודולוגיה המסופקת ממנפת גישת RAG, תוך שימוש בהטבעות כדי לספק מידע ספציפי לתחום שלא נכלל בנתוני ההדרכה המקוריים. ברמה גבוהה, מודלים מוטמעים הופכים טקסט או נתונים אחרים לייצוג כמערך וקטורי או חד-ממדי של מספרים. טכניקה זו מועילה מכיוון שהיא ממירה מידע סמנטי הכלול בטקסט לצורה מספרית צפופה. על ידי הקרנת שאילתת משתמש לאותו מרחב הטבעה, ניתן להשתמש באלגוריתמים שונים כדי לחשב את המרחק¹⁵, ולכן, דמיון סמנטי משוער, בין שאילתת המשתמש לבין מקטעים של מסמכי טקסט. לפיכך, יצירת מסד נתונים של וקטורים כאלה ממסמכים המחולקים למקטעים נפרדים יכולה להקל על חיפוש במספר משמעותי של מסמכים אחר הטקסט הרלוונטי ביותר לשאילתת משתמש (איור 1). גישה זו ניתנת להרחבה לכל מסמך טקסט. בעוד גישות אחרות, כגון יכולות חיפוש מקוונות, מתחילות להיות מיושמות כדי להגדיל LLMs, גישה זו מאפשרת למשתמשים לבחור מקורות הנחשבים באיכות גבוהה מספיק עבור מקרה השימוש שלהם.

פתרון 2: חוסר פרטיות
ביישום זה, סביבת ענן מאובטחת שימשה לאירוח, ללא בקשות משתמש, תגובות שנוצרו או נתונים אחרים שעזבו את המערכת האקולוגית הזו. עם זאת, כל הקוד כתוב באופן שאינו תלוי בפלטפורמה, כדי להבטיח שניתן יהיה להחליף ספק ענן אחר או חומרה מקומית.

פתרון 3: היעדר יציבות מובטחת
גישה זו משתמשת בספריות קוד פתוח ומתמקדת בהגדלת LLMs עם משקלים זמינים לציבור, המאפשרים רמה גבוהה יותר של שקיפות, יציבות וניהול גירסאות, במידת הצורך.

שרטוט מלא של המערכת המוצעת שלנו מוצג באיור 2, והוראות מפורטות לשכפול מערכת זו או דומה מתוארות בסעיף הפרוטוקול. שיקול נוסף בעת שינוי התנהגות המודל באמצעות כוונון עדין או הגדלה הוא הערכת הביצועים. במודלים ליצירת שפה, זה מציב אתגר ייחודי מכיוון שמדדים מסורתיים רבים של למידת מכונה אינם ישימים. למרות שקיימות מגוון טכניקות¹⁶, במחקר זה, שאלות אמריקאיות שנכתבו על ידי מומחים (MCQs) שימשו להערכת דיוק והשוואת ביצועים לפני ואחרי ההרחבה, כמו גם מול LLMs חלופיים פופולריים.

Protocol

במקרה השימוש שהודגם במאמר זה, מאגר הווקטורים נוצר באמצעות הנחיות שפורסמו מקבוצת העבודה של הקונצנזוס^{בשיקגו 17}. קבוצת מומחים זו הוקמה כדי לפתח קווים מנחים לניהול סרטן הצפק. תחום הנושא נבחר כפי שהוא בתחום המומחיות הקלינית של החוקרים. סדרת המאמרים נלקחה ממאגרי כתבי עת מקוונים, כולל סרטן ותולדות האונקולוגיה הכירורגית. מודל הטבעה קומפקטי (33.4 מיליון פרמטרים) שנוצר על ידי האקדמיה לבינה מלאכותית בבייג'ינג (BAAI, https://www.baai.ac.cn/english.html), bge-small-en, שימש ליצירת הטבעות ממסמכי מקור. מסד הנתונים שהתקבל שימש אז להרחבת מודלים בסיסיים של Llama 2 ו- Open-AI⁷. לנוחיות הקורא, הקוד זמין באמצעות GitHub (https://github.com/AnaiLab/AugmentedLLM). כדי להבטיח שכפול, מומלץ להשתמש באותן גרסאות של ספריות המשמשות ברשימת הדרישות שסופקה, כמו גם באותה גרסה של Python. פרטים נוספים על התקנה או תיעוד לגבי כלים המשמשים בשיטות הבאות ניתן למצוא באתרים הרשמיים של ספקי Python (https://www.python.org), git (https://git-scm.com), Llama-Index (https://llamaindex.ai) ו- Chroma (https://trychroma.com).

1. דרישות מוקדמות: סקירת קוד והתקנת ספריות נדרשות

ודא ש-git, python ו-pip מותקנים.
1. במסוף, הפעל את הפקודות הבאות כדי לאמת את ההתקנה:
  git --גרסה
  Python3 --גרסה
  PIP3 --גרסה
בדוק את הקוד ואת דרישות ההתקנה.
1. במסוף, הפעל את הפקודות הבאות:
  https://github.com/AnaiLab/AugmentedLLM.git שיבוט git
  cd ./AugmentedLLM/
  pip3 להתקין -r requirements.txt

2. יצירת מסד נתונים וקטורי עם Llama-Index

המרת תבניות קובץ RTF (נדרש רק אם הקבצים הם בתבנית RTF).
1. ערוך את הקובץ שכותרתו config.py, והחלף את נתיבי הקבצים בקוד הבא במיקום מאמרי RTF שיש להמיר ובמיקום שאליו יש לכתוב את קובצי הטקסט הרגיל על-ידי הקלדת הפקודות הבאות. שמור את הקובץ.
  rtf_file_dir = './articles_rtf/'
  converted_file_dir = './articles_converted/'
2. במסוף, באותה ספריה, הפעל את הקוד כדי ליצור גירסאות טקסט רגיל של קבצי RTF על-ידי הפעלת הפקודה הבאה:
  python3 ./convert_rtf.py
צור ושמור את מסד הנתונים הווקטורי.
1. ערוך את קובץ config.py, והחלף את הערך של המשתנה הבא בנתיב הקובץ של התיקיה המכילה מסמכים שבאמצעותם יש להגדיל את LLM; שמור את הקובץ.
  article_dir = './articles/'
2. במסוף, באותה ספריה, בצע את הקוד עם הפקודה הבאה כדי ליצור ולהתמיד במסד הנתונים. ודא שמסד הנתונים נשמר כעת בתיקיה vector_db.
  python3 ./build_index.py

3. הגדלת מודל Llama עם מסד נתונים וקטורי שנוצר בסעיף 2

Instantiate LLM מותאם אישית באופן מקומי (אופציונלי)
הערה: ביצוע שלב זה נדרש רק אם ברצונך להשתמש במודל שאינו Llama-2-7B המוגדר כברירת מחדל. אם ברצונך להשתמש במודל ברירת המחדל, המשך לשלב 3.2.
1. (באמצעות LLM מותאם אישית) ציין LLM להגדלה על-ידי עריכת run_augmented_llm.py והעברת אובייקט LLM של אינדקס לאמה בבנאי כפרמטר llm בשורות הקוד הבאות במקום ללא.
  augmentedLLM = AugmentedLLM (vector_store, llm = ללא)
LLM מוגבר לשאילתה
1. הפעל את הפקודה הבאה בטרמינל:
  python3 ./run_augmented_llm.py
2. הפעל שאילתות משתמשים כדי לקבל תגובה מוגברת על-ידי נתונים בקבוצת כתבי היד (איור 3 ואיור 4). הקש CTRL + C כדי לצאת בסיום.

4. השוואה פרוגרמטית של LLMs חלופיים

צור MCQs.
1. ערוך את questions.py הקובץ, תוך שים לב לתבנית של הדוגמאות. הוסף שאלות בתבנית דומה. שמור את הקובץ.
התחבר ל- GPT-3.5, GPT-4, OpenChat או מודלים משווים אחרים באמצעות API.
1. ערוך את קובץ config.py, והוסף את מפתח ה- API עבור OpenAI או Huggingface אם המטרה היא להשוות מודלים של אחד הספקים. שמור את הקובץ.
  huggingface_key = ''
  openai_key = ''
2. ערוך את קובץ compare_llms.py ובחר את קבוצת המודלים שברצונך לבדוק מולם על-ידי ביטול הערות (מחיקת תווי '# ' בתחינה של שורה זו) מודלים להשוואה מולם.
  הערה: משווים מסוימים דורשים מפתח API כפי שהוגדר בשלב 4.2.1. בנוסף, ערוך את הפרמטר output_dir כדי לשנות את מיקום אחסון פלט LLM במידת הצורך; אחרת, ייעשה שימוש כברירת מחדל.
  output_dir = './llm_responses/'
3. במסוף, בצע את הקוד באמצעות הפקודה הבאה. לאחר ההפעלה, הצג את תגובות המודל בתיקיה שצוינה בשלב 4.2.2 לדירוג או לסקירה אחרת.
  python3 ./compare_llms.py
(אופציונלי) התנסו בדירוג אוטומטי של תגובות MCQ. הקוד לדוגמה משתמש בספריית LMQL כדי להגביל את פלט LLM לפורמט צפוי.
1. פתח את automated_comparison.py הקובץ ובדומה לשלב 4.2.2, בטל הערות למודלים שיש לכלול, ערוך את משתנה output_dir או בצע התאמה אישית אחרת. שים לב שפלט הדגם עדיין יישמר באופן דומה. שמור את הקובץ.
2. הפעל את הקוד משלב 4.3.1 על-ידי הפעלת הפקודה הבאה במסוף:
  python3 ./automated_comparison.py

תוצאות

קבוצה של 22 פרסומים מהנחיות הניהול של קבוצת העבודה של הקונצנזוס של שיקגו שימשו להגדלת מודל הבסיס Llama-7b¹⁷. המסמכים הומרו לאינדקס וקטורי באמצעות הכלי Llama-Index ליצירת Llama-2-7b-CCWG-Embed. מודלים פופולריים של OpenAI כגון GPT-3.5 ו- GPT-4 הוגדלו גם הם באופן דומה כדי לייצר דגמי GPT-XX-CCWG-EM...

Discussion

השיטות המסופקות כאן נועדו להקל על המחקר של יישומים ספציפיים לתחום של LLMs ללא צורך הכשרה דה נובו או כוונון עדין נרחב. ככל ש- LLMs הופכים לתחום בעל עניין מחקרי משמעותי, גישות להגדלת בסיסי ידע ושיפור דיוק התגובות יהפכו חשובות יותר ויותר 18,19,20,21.^<...

Disclosures

למחברים אין ניגודי עניינים להצהיר.

Acknowledgements

עבודה זו התאפשרה על ידי מספר ספריות קוד פתוח, בעיקר llama-index (https://www.llamaindex.ai/), ChromaDB (https://www.trychroma.com/) ו- LMQL (https://lmql.ai/).

Materials

Name	Company	Catalog Number	Comments
pip3 version 22.0.2
Python version 3.10.12

References

Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620 (7972), 172-180 (2023).
Gilson, A., et al. How does ChatGPT perform on the United States medical licensing examination? The implications of large language models for medical education and knowledge assessment. JMIR Med Educ. 9 (1), e45312 (2023).
Guerra, G. A., et al. GPT-4 artificial intelligence model outperforms ChatGPT, medical students, and neurosurgery residents on neurosurgery written board-like questions. World Neurosurg. 179, e160-e165 (2023).
. Would Chat GPT3 get a Wharton MBA? A prediction based on its performance in the Operations Management course Available from: https://mackinstitute.wharton.upenn.edu/wp-content/uploads/2023/01/Christian-Terwiesch-Chat-GTP.pdf (2023)
Weizenbaum, J. ELIZA-a computer program for the study of natural language communication between man and machine. Communications of the ACM. 9 (1), 36-45 (1966).
Wu, T., et al. A brief overview of ChatGPT: The history, status quo and potential future development. IEEE/CAA Journal of Automatica Sinica. 10 (5), 1122-1136 (2023).
Huang, L., et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. arXiv [cs.CL]. , (2023).
Thirunavukarasu, A. J., et al. Large language models in medicine. Nature Med. 29 (8), 1930-1940 (2023).
Ram, O., et al. In-Context retrieval-augmented language models. Trans Assoc Comput Linguist. 11, 1316-1331 (2023).
. Sequence distance embeddings Available from: https://wrap.warwick.ac.uk/61310/7/WRAP_THESIS_Cormode_2003.pdf (2003)
Chicago Consensus Working Group. The Chicago Consensus Guidelines for peritoneal surface malignancies: Introduction. Cancer. 126 (11), 2510-2512 (2020).
Dodge, J., et al. Measuring the carbon intensity of AI in cloud instances. FACCT 2022. , (2022).
Khene, Z. -. E., Bigot, P., Mathieu, R., Rouprêt, M., Bensalah, K. Development of a personalized chat model based on the European association of urology oncology guidelines: Harnessing the power of generative artificial intelligence in clinical practice. Eur Urol Oncol. 7 (1), 160-162 (2024).
Kresevic, S., et al. Optimization of hepatological clinical guidelines interpretation by large language models: a retrieval augmented generation-based framework. NPJ Digit Med. 7 (1), 102 (2024).
Ge, J., et al. Development of a liver disease-specific large language model chat interface using retrieval augmented generation. medRxiv. , (2023).
Panagoulias, D. P., et al. Rule-augmented artificial intelligence-empowered systems for medical diagnosis using large language models. , 70-77 (2023).
Panagoulias, D. P., et al. Augmenting large language models with rules for enhanced domain-specific interactions: The case of medical diagnosis. Electronics. 13 (2), 320 (2024).
Bommasani, R., Liang, P., Lee, T. Holistic evaluation of language models. Ann N Y Acad Sci. 1525 (1), 140-146 (2023).
Papineni, K., Roukos, S., Ward, T., Zhu, W. -. J. Bleu. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. , (2001).
Johnson, D., et al. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the chat-GPT model. Res Sq. , (2023).
Lin, C. -. Y. ROUGE: A package for automatic evaluation of summaries. Text Summarization Branches Out. , 74-81 (2004).
Chen, S., et al. Evaluating the ChatGPT family of models for biomedical reasoning and classification. J Am Med Inform Assoc. 31 (4), 940-948 (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

214 Llama Index Llama 2

This article has been published

Video Coming Soon

Keep me updated:

הגדלת מודלי שפה גדולים באמצעות הטבעות וקטוריות לשיפור ההיענות הספציפית לתחום

In This Article

Summary

Abstract

Introduction

Protocol

תוצאות

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Explore More Articles