FlashMLA: קרנלי CUDA של DeepSeek להאצת Inference של LLMs
הריפו FlashMLA מאת DeepSeek הוא ספריית קרנלים ב-CUDA שמייעלת Multi-head Latent Attention (MLA) עבור inference של LLMs בפרודקשן. הוא מאפשר האצה משמעותית דרך FP8 KV caching וקרנלים מיוחדים ל-GPUs מדור Hopper/Blackwell....
