תוכן עניינים
מודלי עולם שסוף סוף יודעים גם לתכנן
המאמר Value-guided action planning with JEPA world models מארקסיב מתמודד עם האתגר המרכזי של הארכיטקטורה החלופית שיאן לקון מציע ל-LLMs - איך ללמד מודל שלומד רפרזנטציות של העולם גם לתכנן בו פעולות אופטימליות.
למה זה חשוב לכולנו שעובדים עם AI? כי זה הניסיון הרציני הראשון להראות ש-JEPA (Joint-Embedded Predictive Architecture) יכול להתחרות ב-LLMs לא רק בהבנה אלא גם ביכולת תכנון - הקטע שבני אדם עושים בקלות אבל מודלים גנרטיביים מתקשים בו.
הבעיה שכולנו מכירים היום עם מודלי עולם
מסתבר שזו תופעה שכיום המון רצים אחרי מה שנקרא 'מודלי עולם' (world models) - מודלים שלומדים איך העולם עובד במקום לחזות טוקנים. יאן לקון, Chief AI Scientist במטה וזוכה פרס טיורינג, טוען כבר שנים שזו הדרך האמיתית ל-AI שיודע לתכנן, להגיב, ולהסתגל - לא רק להשלים משפטים או לייצר תמונות.
הבעיה המרכזית: מודלי JEPA מצליחים מעולה ללמוד רפרזנטציות עשירות של העולם - הם מבינים איך דברים קשורים, איך מצבים משתנים לאורך זמן, ומה המבנה הסמוי של הדאטה. אבל כשמגיע הזמן לענות על השאלה 'איך אני מגיע מכאן לשם?' - הם פשוט לא יודעים. יש להם מפה מדויקת של השטח אבל אין להם GPS שמחשב מסלולים.
תחשבו על זה כמו תייר שמכיר לעומק את ההיסטוריה והתרבות של תל אביב - יודע איפה כל רחוב, מה קרה בכל בניין, מי גר איפה - אבל לא מסוגל לתכנן את המסלול היעיל ביותר מהמלון למוזיאון. יש הבנה אבל אין יכולת פעולה.
איך הם ניגשים לזה - עיצוב מרחב הרפרזנטציות
החוקרים ממטה AI (כולל יאן לקון עצמו, Assaf Shocher, Randall Balestriero ועוד) מציעים פתרון גאוני: לעצב את מרחב הרפרזנטציות של המודל בצורה שבה המרחק הגאומטרי בין שני מצבים ישקף את העלות האמיתית לעבור ביניהם. מה שנקרא בשפה המקצועית Value-guided representation learning.
תחשבו על זה כמו לקחת מפה גאוגרפית רגילה שבה סנטימטר = קילומטר, ולהפוך אותה למפה שבה המרחק הגאומטרי בין שתי נקודות מייצג זמן נסיעה אמיתי - כולל פקקים, עבודות בכביש, רמזורים, ומסלולים עקיפים. אז אם יש פקק נורא בין רמת גן לתל אביב, המרחק במפה החדשה יהיה ענקי, גם אם הן קרובות פיזית. ואם יש כביש מהיר פנוי בין חיפה לירושלים, המרחק במפה יהיה קטן יחסית.
הטכניקה המרכזית: הם מאמנים את המודל עם מה שנקרא Distance-to-Goal loss - פונקציית הפסד שדוחפת את המודל לארגן את המרחב הפנימי שלו כך שמרחק אוקלידי פשוט בין שני embeddings ייתן אומדן טוב ל-Value function (כלומר, כמה 'עלות' צריך לשלם כדי להגיע מ-A ל-B). זה כמו ללמד את המפה הפנימית של המודל לדבר בשפה של 'כמה קשה להגיע לשם' במקום 'כמה רחוק זה נמצא'.
הם משלבים את זה עם הארכיטקטורה הסטנדרטית של JEPA שלומדת לחזות רפרזנטציות עתידיות (לא פיקסלים גולמיים). המודל לומד בו זמנית גם לייצג את העולם נכון וגם לארגן את הייצוג הזה בצורה שמועילה לתכנון.
תוצאות וממצאים מרכזיים
החוקרים בדקו את הגישה על סוויטה של משימות Reinforcement Learning קלאסיות - מבוכים דו-ממדיים, סביבות רובוטיקה מסימולטורים כמו MuJoCo, ומשחקי Atari. התוצאות מראות שהמודלים לא רק לומדים רפרזנטציות טובות יותר (נמדד באמצעות Linear Probing על downstream tasks), אלא גם מסוגלים לתכנן מסלולים אופטימליים הרבה יותר מהר מגישות קודמות של Model-based RL.
הקטע המדליק: המודלים משיגים יכולת תכנון ללא צורך באימון ספציפי על כל משימה חדשה - מה שנקרא zero-shot planning. כלומר, המודל למד ארגון כללי של מרחב הרפרזנטציות שמאפשר לו לתכנן גם בסביבות שלא ראה באימון, כל עוד הן דומות מבחינה מבנית.
תוצאה מפתיעה נוספת: המתאם בין המרחק במרחב הרפרזנטציות לבין ה-Value האמיתי הגיע ל-0.89 בחלק מהמשימות - מה שאומר שמדידה פשוטה של מרחק באמת נותנת תשובה טובה על השאלה 'כמה קשה להגיע לשם'. זה כמו שהמפה הפנימית של המודל באמת הפכה למפת ניווט אמיתית.
למה זה בולט - ההבדל מגישות קודמות
גישות קודמות ל-Model-based Reinforcement Learning ניסו ללמד מודלים לחזות את המצב הבא בצורה גולמית (פיקסלים או ערכי חיישנים). הבעיה: זה דורש המון קומפיוט ולא מסקייל למשימות מורכבות. JEPA פותר את זה באמצעות למידה של רפרזנטציות abstract במקום חיזוי גולמי - אבל עד עכשיו היה חסר הקישור לתכנון.
המאמר הזה (Value-guided action planning with JEPA world models) מראה בפעם הראשונה איך לשלב את שני העולמות - למידה של רפרזנטציות יעילות + ארגון של מרחב הרפרזנטציות בצורה שמאפשרת תכנון. זה כמו ההבדל בין לתת לילד ספר היסטוריה (ידע) לבין ללמד אותו לנווט עם מפה (פעולה).
מתי כדאי ליישם את זה? בכל מצב שבו צריך לתכנן רצף פעולות ארוך לפני ביצוע - רובוטיקה, משחקים מורכבים, תכנון לוגיסטי. מתי כנראה לא? במשימות שבהן התגובה צריכה להיות מיידית ואין זמן לתכנון מראש (כמו נהיגה בזמן אמת שבה צריך להגיב למכונית שפתאום חותכת אותך).
בעיניי - האם כדאי לקרוא את זה?
לעניות דעתי, זה המאמר החשוב ביותר על JEPA מאז הרעיון הוצג. יאן לקון טוען כבר שנים שהארכיטקטורה של LLMs (חיזוי טוקנים) היא בסופו של דבר מבוי סתום לאינטליגנציה אמיתית, ושצריך world models שמבינים סיבתיות ויכולים לתכנן. אבל עד עכשיו היתה בעיה גדולה - JEPA היה טוב ללמוד אבל לא לפעול.
היוזקייסים הכי ברורים בעיניי הם רובוטיקה ואוטומציה תעשייתית - מקומות שבהם צריך לתכנן רצפי פעולות מורכבים מראש. רובוט שצריך לנווט במחסן, לאסוף פריטים, ולחזור לנקודת הטעינה צריך להבין את הסביבה אבל גם לתכנן מסלול יעיל. עד עכשיו עשינו את זה עם SLAM קלאסי + A* search. עכשיו יש אופציה ללמד מודל שעושה את שני החלקים ביחד.
המגבלה הכי גדולה לעניות דעתי היא שהבנצ'מארקים במאמר הם עדיין יחסית פשוטים - מבוכים ומשחקים קלאסיים. השאלה האמיתית היא אם זה יסקייל לעולם האמיתי שבו יש אי-ודאות, רעש, ודינמיקה שמשתנה כל הזמן. יכול להיות שבסביבות כאלה המודל יצטרך ללמוד מחדש את ארגון מרחב הרפרזנטציות שלו - ואז האדוונטג' על פני שיטות קלאסיות יקטן.
שאלה פתוחה נוספת: איך זה משתלב עם LLMs? אולי הפתרון הטוב ביותר הוא היברידי - LLM לתכנון ברמה גבוהה (reasoning על מה לעשות) ו-JEPA לתכנון ברמה נמוכה (איך לבצע את זה במרחב הפיזי/דיגיטלי). יכול להיות שהעתיד הוא לא או/או אלא שילוב של שתי הגישות.
בכל מקרה, אם אתם עובדים על RL, רובוטיקה, או סתם מתעניינים בחזון של לקון ל-AMI - זה must-read. המאמר הזה מראה שיש דרך קונקרטית להתקדם, לא רק פילוסופיה.
קישור למאמר: Value-guided action planning with JEPA world models
