תוכן עניינים
ממצא מרכזי
לפי המאמר "The Geometry of Thought: Disclosing the Transformer as a Tropical Polynomial Circuit" מאת Faruk Alpay ו-Bilge Senturk, מנגנוני ה-self-attention של טרנספורמרים מתכנסים למכפלות מטריצה טרופיות במשטרי ביטחון גבוהים, ובעצם מבצעים את אלגוריתם Bellman-Ford למסלול הקצר ביותר. לזה יש השלכות משמעותיות על איך אנחנו מבינים, מדבגים ומשפרים היגיון במודלים הגדולים שלנו בפרודקשן.
מה המשמעות של גאומטריה טרופית בטרנספורמרים?
גאומטריה טרופית היא מסגרת מתמטית שבה החיבור הרגיל מוחלף בפעולת "מקסימום", והכפל מוחלף בחיבור רגיל. המאמר "The Geometry of Thought" מתמודד עם אתגר הפרשנות הבסיסי שכולנו מכירים: להבין איך טרנספורמרים מייצרים שרשראות היגיון קוהרנטיות כשאנחנו לא יכולים לראות מה קורה בתוך המודל.
כשאנחנו מעלים מודלים גדולים של שפה לפרודקשן, אנחנו צופים בהיגיון שרשרתי (Chain-of-Thought) מרשים - מודלים שיכולים לפרק בעיות מורכבות לשלבים, לשמור על עקביות לוגית ולהגיע לתשובות נכונות. אבל ההתנהגות הזו תמיד נראתה כתופעה מתגלה ומסתורית. לא הצלחנו להסביר את המנגנון שמניע אותה.
הבעיה שכולנו מכירים
כולנו מתמודדים עם בעיית ה"קופסה השחורה" במודלי הטרנספורמר שלנו. המודלים הגדולים שלנו מייצרים שרשראות היגיון מתוחכמות, אבל אין לנו הבנה ברורה של המבנה החישובי שמייצר את השרשראות האלה. זה יוצר כמה אתגרים בפרודקשן:
כשהמודלים שלנו נכשלים במשימות היגיון, אנחנו לא יכולים לזהות למה. כשהם מצליחים, אנחנו לא יכולים להסביר איך. זה הופך שיפור שיטתי לקשה מאוד. אנחנו בסופו של דבר עושים הנדסת פרומפטים או כוונון עדין של ניסוי וטעייה בלי להבין את המנגנונים הבסיסיים.
גישות פרשנות קיימות התמקדו בוויזואליזציה של attention, מסווגים בודקים או מחקרי פרשנות מכאנית. אלה בעלי ערך אבל מוגבלים - הם מראים לנו למה המודל מתייחס בלי להסביר את האלגוריתם החישובי שמבוצע. היינו צריכים גשר בין פעולות הרשת הנוירונית לבין חשיבה אלגוריתמית קלאסית.
מה החוקרים גילו
הפריצה במחקר הזה מגיעה מניתוח טרנספורמרים במה שנקרא "משטר ביטחון גבוה" - כלומר כשפרמטר הטמפרטורה ההפוכה β שואף לאינסוף. בגבול הזה, קורה משהו מדהים מתמטית.
פונקציית ה-Softmax שמניעה את ה-attention - כלומר המנגנון שמחליט על אילו טוקנים להתמקד - מתכנסת למכפלת מטריצה טרופית. תחשבו על זה כך: תארו לעצמכם שאתם מנווטים בעיר ומחפשים את המסלול הקצר ביותר בין שתי נקודות. במתמטיקה רגילה, הייתם מחברים מרחקים לאורך כל מסלול. בגאומטריה טרופית, אתם תמיד לוקחים את הערך המקסימלי ומוסיפים עלויות. זה בדיוק מה ש-Softmax הופך להיות בביטחון גבוה - פעולת "מקסימום" על מסלולים משוקללים.
מה שהופך את זה למעמיק: מכפלת המטריצה הטרופית שקולה מתמטית לאלגוריתם Bellman-Ford - כלומר גישת תכנות דינמי קלאסית למציאת מסלולים קצרים בגרפים. החוקרים מוכיחים שהמעבר קדימה של הטרנספורמר שלנו, שכבה אחר שכבה, מבצע את האלגוריתם המדויק הזה.
במסגרת הזו, טוקנים הם צמתים בגרף סמוי. משקלי ה-attention מייצגים עלויות קשתות בין טוקנים. כל שכבה של הטרנספורמר משכללת באופן איטרטיבי חישובי מסלול קצר, בדיוק כמו ש-Bellman-Ford מפיץ מידע מרחק על פני מבנה גרף.
יישום מעשי
ככה זה נראה כשאנחנו מנתחים את המודלים שלנו עם העדשה הגאומטרית הזו:
# דוגמה: ניתוח attention של טרנספורמר כמסלולי גרף
import torch
import networkx as nx
def extract_token_graph(attention_weights, tokens, layer_idx):
"""
חילוץ גרף הטוקנים הסמוי מדפוסי attention
מבוסס על מסגרת "The Geometry of Thought"
"""
# יצירת גרף מכוון שבו טוקנים הם צמתים
G = nx.DiGraph()
# הוספת צמתים לכל טוקן
for i, token in enumerate(tokens):
G.add_node(i, token=token)
# הוספת קשתות על בסיס משקלי attention (עלויות)
# בגאומטריה טרופית, משקלי attention הם עלויות מסלול
for i in range(len(tokens)):
for j in range(len(tokens)):
weight = attention_weights[layer_idx, i, j].item()
if weight > 0.01: # סינון חיבורים בעלי משקל נמוך
# לוג שלילי ממיר לחיבור טרופי
cost = -torch.log(torch.tensor(weight)).item()
G.add_edge(i, j, weight=cost)
return G
def find_reasoning_path(graph, start_token_idx, end_token_idx):
"""
מציאת מסלול ההיגיון הקצר ביותר - מה שהטרנספורמר מחשב
זהו אלגוריתם Bellman-Ford שהמודל מבצע
"""
try:
path = nx.shortest_path(
graph,
source=start_token_idx,
target=end_token_idx,
weight='weight'
)
path_cost = nx.shortest_path_length(
graph,
source=start_token_idx,
target=end_token_idx,
weight='weight'
)
return path, path_cost
except nx.NetworkXNoPath:
return None, float('inf')דוגמה מעשית נוספת - הבנת איך שיכלול רב-שכבתי עובד:
# ניתוח שיכלול מסלול שכבה אחר שכבה
def analyze_cot_as_bellman_ford(model, prompt, target_layers=[0, 6, 12]):
"""
מעקב אחר איך מסלולי היגיון משתכללים על פני שכבות
כמו איטרציות Bellman-Ford משכללות הערכות מרחק
"""
inputs = tokenizer(prompt, return_tensors='pt')
# חילוץ דפוסי attention בשכבות שונות
with torch.no_grad():
outputs = model(**inputs, output_attentions=True)
results = {}
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
for layer_idx in target_layers:
# קבלת משקלי attention לשכבה זו
attn = outputs.attentions[layer_idx][0].mean(dim=0) # ממוצע על ראשים
# בניית גרף טוקנים
graph = extract_token_graph(attn, tokens, 0)
# ניתוח מסלולי היגיון משאלה לטוקני תשובה
question_idx = 0 # בדרך כלל טוקן ראשון
answer_idx = len(tokens) - 1 # בדרך כלל טוקן אחרון
path, cost = find_reasoning_path(graph, question_idx, answer_idx)
results[f'layer_{layer_idx}'] = {
'path': [tokens[i] for i in path] if path else None,
'cost': cost,
'graph_density': graph.number_of_edges() / (graph.number_of_nodes() ** 2)
}
return results
# שימוש
reasoning_analysis = analyze_cot_as_bellman_ford(
model=our_production_model,
prompt="מה זה 15 כפול 23? בואו נחשוב צעד אחר צעד."
)
for layer, info in reasoning_analysis.items():
print(f"{layer}: עלות מסלול = {info['cost']:.3f}")
print(f"מסלול היגיון: {' -> '.join(info['path']) if info['path'] else 'אין מסלול'}")תוצאות ומספרים מרכזיים
- הוכחה מתמטית - זה לא קירוב. ההתכנסות למכפלת מטריצה טרופית מוכחת באופן קפדני כש-β → ∞ (טמפרטורה הפוכה שואפת לאינסוף), מה שמספק התאמה מדויקת ל-Bellman-Ford.
- שקילות אלגוריתמית - כל שכבת טרנספורמר מבצעת איטרציה אחת של אלגוריתם Bellman-Ford. עבור טרנספורמר עם L שכבות, אנחנו מקבלים L איטרציות של הפצת מרחק על פני גרף הטוקנים.
- מבנה גאומטרי - חשיבה שרשרתית מתגלה מחישוב מסלולים קצרים על גרף סמוי. ה"שרשרת" היא ממש רצף הטוקנים לאורך המסלול הקצר ביותר משאלה לתשובה.
איך זה משתלב בארגז הכלים שלנו
המחקר הזה משלים את כלי הפרשנות הקיימים שלנו במקום להחליף אותם. כלי ויזואליזציה של attention מראים לנו לאן המודלים מסתכלים - המסגרת הגאומטרית הזו מסבירה איזה חישוב הם מבצעים כשהם מסתכלים שם.
כשאנחנו משתמשים בפרשנות מכאנית כדי לחקור התנהגויות ספציפיות, המסגרת הזו נותנת לנו את עמוד השדרה האלגוריתמי. עכשיו אנחנו יכולים להניח שמעגלים מסוימים מיישמים מבני גרף וחישובי מסלול ספציפיים.
להנדסת פרומפטים, זה מציע שאנחנו צריכים לחשוב על סידור טוקנים כעיצוב גרף. מיקום אסטרטגי של טוקנים עשוי ליצור מסלולים יעילים יותר למודל לעבור בזמן היגיון.
בעיניי - האם כדאי לשים לב?
בעיניי, זו אחת מתוצאות הפרשנות החשובות ביותר למעשה. סוף סוף יש לנו קשר קפדני בין מה שנראה כהיגיון מתגלה מסתורי לבין אלגוריתם קלאסי שאנחנו מבינים לחלוטין.
ההשלכות המעשיות משמעותיות. עכשיו אנחנו יכולים לנתח כשלים בהיגיון של המודלים שלנו ככשלים במציאת מסלול בגרף. כשחשיבה שרשרתית מתקלקלת, אנחנו יכולים לשאול: האם הגרף הסמוי מנותק? האם יש מעגלים שליליים? האם המסלול הקצר ביותר בעצם מוביל לתשובה הלא נכונה?
זה נותן לנו כלי דיבאג קונקרטיים. במקום לשנות פרומפטים באופן עיוור או לכוון בעדינות דאטה, אנחנו יכולים לוויזואליזציה את גרפי הטוקנים שהמודלים שלנו בונים ולזהות בעיות מבניות.
המגבלה היא שזה חל בקפדנות על משטר הביטחון הגבוה. בפועל, המודלים שלנו פועלים בטמפרטורות סופיות, אז עדיין יש עבודה להבין איך המבנה הטרופי הזה מתקשר עם הדגימה הסטוכסטית שאנחנו משתמשים בה בפרודקשן. אבל זה צעד עצום קדימה בהפיכת הקופסה השחורה לשקופה יותר.
קישור למאמר המלא: The Geometry of Thought: Disclosing the Transformer as a Tropical Polynomial Circuit
שאלות נפוצות
מה המאמר "The Geometry of Thought" מגלה?
המאמר מוכיח ש-self-attention של טרנספורמר מתכנס לכפל מטריצה טרופי בגבולות ביטחון גבוהים, שזה שקול מתמטית לאלגוריתם Bellman-Ford למסלול קצר ביותר הפועל על גרף טוקנים סמוי.
מי ערך את המחקר הזה?
המאמר נכתב על ידי Faruk Alpay ו-Bilge Senturk ופורסם ב-arXiv בינואר 2025. הוא מגשר בין תורת למידה עמוקה לבין ניתוח אלגוריתמי קלאסי.
למה זה חשוב למערכות פרודקשן?
זה נותן לנו מסגרת קפדנית לדבג ולשפר היגיון במודלים הגדולים שלנו על ידי ניתוח שלהם כאלגוריתמי גרף במקום להתייחס אליהם כקופסאות שחורות.
מה כדאי לעשות בעקבות המחקר הזה?
להתחיל לנתח דפוסי attention כמבני גרף. כשהיגיון נכשל, לחקור האם לגרף הטוקנים יש את הקישוריות הנכונה והאם מסלולים קצרים מובילים לתשובות נכונות.
מה המגבלות של המחקר?
מסגרת הגאומטריה הטרופית חלה בקפדנות במשטר הביטחון הגבוה (β → ∞). המודלים שלנו בפרודקשן פועלים בטמפרטורות סופיות, אז אנחנו צריכים מחקר נוסף כדי להבין איך המבנה הזה מתנהג בתנאי דגימה ריאליים.
