FlashMLA AI
FlashMLA est un modèle d'IA à noyau de décodage MLA efficace optimisé pour le GPU Hopper, lancé par Deepseek.
FlashMLA est un noyau de décodage MLA (Multi-head Latent Attention) efficace, optimisé pour les GPU de l'architecture Hopper, qui vise à améliorer les performances des services de séquences de longueur variable. Il est profondément optimisé principalement pour les scénarios de séquences de longueur variable, en particulier dans les services d'inférence de grands modèles, améliorant de manière significative les performances d'inférence de grands modèles.