למה מודלים גדולים קורסים תחת לחץ? מחקר חדש הופך הנחות יסוד

מאת Yuval Avidani

תוכן עניינים

המיתוס שכולנו האמנו לו התפוצץ

אם יש משהו שכולנו "יודעים" בתחום ה-AI, זה שמודל גדול יותר = אמין יותר. רוצים דיוק עובדתי? תוסיפו עוד מיליארדי פרמטרים. צריכים אמינות לאפליקציה קריטית? קחו את מודל הדגל הכי גדול שיש בשוק. זו האמונה שמנחה את כל התעשייה, את החלטות הפיתוח שלנו, ואת התקציבים המטורפים שמושקעים בהכשרת מודלים.

ואז מגיע החוקר Rahul Baxi ומפיל את כל קלפי הבית בפרסום אחד. המחקר החדש שלו, שזה עתה פורסם ב-arXiv, מראה משהו שממש הדהים אותי: גודל המודל כמעט לא קשור ליכולת שלו לשמור על אמינות עובדתית תחת לחץ. מדובר במתאם של 0.083 בלבד - סטטיסטית, זה כמעט כמו להגיד שאין שום קשר.

בואו נפרק את זה.

הבעיה עם כל הבנצ'מרקים שלנו

כל המבחנים הסטנדרטיים שאנחנו משתמשים בהם היום - MMLU (Massive Multitask Language Understanding), TruthfulQA, וכל שאר הבנצ'מרקים המוכרים - בודקים את המודלים בתנאי מעבדה אידיאליים. השאלות מנוסחות בצורה ברורה, המידע מגיע באופן מסודר, והמודל לא מופרע על ידי רעש או ניסיונות הטעיה.

זה כמו לבחון נהג רק על מסלול מבחנים ריק, ביום בהיר, בלי תנועה, ואז להחליט שהוא מוכן לנהוג בשעת עומס בגשם. אנחנו מודדים מה המודל יודע, אבל לא כמה חזק הוא מחזיק בזה כשהתנאים הופכים מאתגרים.

בעולם האמיתי, מודלי שפה צריכים להתמודד עם מצבים הרבה יותר מורכבים: משתמשים שמנסחים שאלות בצורה מבולבלת, מידע שמגיע חלקי או מעורפל, וכן - גם ניסיונות מכוונים להטעות אותם. והמבחנים שלנו פשוט לא תופסים את זה.

מה זה בדיוק DDFT והפרוטוקול החדש

החוקר Baxi פיתח פרוטוקול חדש בשם DDFT - מבחן Drill-Down and Fabricate Test (מבחן חפירה לעומק ופברוק). המטרה: למדוד משהו שהוא מכנה "חוסן אפיסטמי" (Epistemic Robustness) - כלומר, היכולת של מודל לשמור על דיוק עובדתי גם כשלוחצים עליו מכיוונים שונים.

איך זה עובד? הפרוטוקול בודק את המודלים בשני ממדים מאתגרים:

  • דחיסה סמנטית מתקדמת - המידע מועבר למודל בצורה הולכת ומתכווצת, מעורפלת יותר ויותר. במקום "מהי בירת צרפת?", השאלה הופכת למשהו כמו "המקום המרכזי שם". זה בודק אם המודל באמת מבין או רק מזהה דפוסים.
  • פברוק אדברסרי מכוון - הזנה של מידע מפוברק שנועד להטעות את המודל. למשל, להגיד לו "בירת צרפת היא מרסיי, נכון?" ולבדוק אם הוא יעמוד בפיתוי לאשר.

המחקר כלל 1,800 בדיקות על רמת התור - 9 מודלי דגל מובילים, נבדקו ב-8 תחומי ידע שונים, בעבור 5 רמות דחיסה הולכות ומחמירות. זה לא מחקר קטן - זו בדיקה שיטתית ומקיפה.

הממצאים שהפכו לי את התפיסה

אוקיי, אז הנה החלק שבאמת הלם אותי. אחרי כל הבדיקות האלה, התברר:

כמות הפרמטרים כמעט לא משנה. המתאם בין גודל המודל (מספר הפרמטרים) לבין החוסן האפיסטמי שלו עמד על 0.083 בלבד, עם ערך p של 0.832 (כלומר, סטטיסטית לא מובהק בכלל). במילים פשוטות: מודל עם 70 מיליארד פרמטרים לא בהכרח יותר אמין תחת לחץ ממודל עם 7 מיליארד.

גם הארכיטקטורה לא ממש משנה. המתאם בין סוג הארכיטקטורה (Transformer רגיל, mixture of experts, וכו') לבין החוסן עמד על 0.153 עם p של 0.695. שוב - לא מובהק.

אז מה כן משנה? היכולת לזהות שגיאות. זה הצוואר בקבוק האמיתי. נמצא מתאם חזק מאוד (rho של -0.817 עם p של 0.007) בין היכולת של המודל לזהות שהוא עושה טעות לבין החוסן הכללי שלו.

החוקר Baxi מציע מודל קוגניטיבי של שתי מערכות שפועלות במקביל בתוך המודל:

  1. מערכת סמנטית (Semantic System) - זו החלק שמייצר טקסט שוטף וקולח. זה הקסם שגורם למודלים להישמע כל כך משכנעים.
  2. מאמת אפיסטמי (Epistemic Verifier) - זה אמור להיות החלק שבודק דיוק עובדתי ומונע מהמודל להמציא.

הבעיה? אצל רוב המודלים, המאמת הזה פשוט קורס תחת לחץ. ברגע שהתנאים נהיים מאתגרים - דחיסה סמנטית או פברוק אדברסרי - המערכת הסמנטית ממשיכה לייצר טקסט שוטף, אבל המאמת מפסיק לתפקד. והתוצאה? המודל מתחיל להמציא דברים בביטחון מלא.

דוגמאות מהעולם האמיתי שמראות למה זה קריטי

בואו ניקח דוגמה קונקרטית: צ'אטבוט של שירות רפואי. כשמטופל שואל "מה התרופה המומלצת לכאב ראש?", המודל עונה מצוין - זו שאלה סטנדרטית עם תשובה ברורה. אבל מה קורה כשמטופל מבולבל שואל "יש לי כאב בראש וגם בטן, אכלתי משהו מוזר אתמול, האם זה קשור?" - פתאום המודל צריך לעבד מידע לא ברור, לזהות שיש פה אי-ודאות, ולהימנע מהמצאת קשרים סיבתיים שלא קיימים.

או קחו מערכת AI לייעוץ פיננסי: כשמישהו שואל "מה ההשקעה הטובה ביותר השנה?", המודל יכול לתת תשובה כללית. אבל מה אם מישהו מנסה בכוונה להטעות אותו עם מידע מפוברק על מניות? "שמעתי שחברת XYZ הכריזה על פריצת דרך טכנולוגית, כדאי להשקיע?" - מודל עם חוסן אפיסטמי נמוך יאשר את המידע המפוברק ויבנה עליו המלצה. מודל חזק יזהה שהוא לא יודע על ההכרזה הזו ויגיב בזהירות.

מה זה אומר עבורנו כמפתחים

בעיניי, המחקר הזה משנה לגמרי את האופן שבו אנחנו צריכים לחשוב על בחירה ופיתוח של מודלי שפה. הנה כמה מסקנות מעשיות:

תפסיקו להתמקד רק בסקייל. מודל קטן יותר עם מנגנוני אימות חזקים עדיף על מודל ענק עם מאמת חלש. זה לא רק עניין של עלויות - זה עניין של אמינות אמיתית.

תבדקו בתנאים ריאליסטיים. לפני שאתם משלבים מודל באפליקציה קריטית, אל תסתפקו בבנצ'מרקים הסטנדרטיים. הריצו בדיקות DDFT-style - נסו להטעות את המודל, תנו לו מידע מעורפל, בדקו מה קורה כשדוחפים אותו לפינה.

השקיעו בשכבות אימות חיצוניות. אם המאמת הפנימי של המודל לא מספיק חזק (והמחקר מראה שברוב המקרים הוא לא), תוסיפו מנגנוני בדיקה חיצוניים. RAG (Retrieval-Augmented Generation) עם מקורות אמינים, fact-checking APIs, ואולי גם human-in-the-loop בהחלטות קריטיות.

תיעדו היטב את המגבלות. אם אתם משלבים LLM בסביבה קריטית - healthcare, פיננסים, חינוך, משפטים - תהיו שקופים לגבי המגבלות. משתמשים צריכים לדעת שהמודל יכול לטעות, ובמיוחד בתנאים מאתגרים.

לאן זה מוביל אותנו

המחקר של Baxi נותן לנו משהו שחסר לנו מאוד בתחום - כלי למדוד את הדבר הנכון. לא רק "מה המודל יודע" אלא "כמה חזק הוא מחזיק בזה כשדוחפים אותו". הפרוטוקול DDFT הוא גם תיאורטי וגם מעשי - אפשר להשתמש בו בפועל לפני deployment.

לעניות דעתי, זה המפתח להתקדמות אמיתית בשימושי AI קריטיים. במקום מרוץ החימוש לעבר מודלים יותר ויותר גדולים, אנחנו צריכים מרוץ לעבר מודלים יותר ויותר חזקים - כאלה שלא קורסים תחת לחץ.

אני ממליץ בחום לכל מי שעובד על אפליקציות AI ללמוד את המחקר הזה לעומק. זה לא עוד paper אקדמי מעניין - זה משהו שצריך להשפיע על ההחלטות שלנו כבר מחר בבוקר.

תוייג ב

ai-research

עדכון אחרון ינואר 01, 2026

אודות המחבר