FlashMLA AI
FlashMLA - это эффективная модель ИИ ядра для декодирования MLA, оптимизированная для Hopper GPU, созданная компанией Deepseek.
FlashMLA - эффективное ядро декодирования Multi-head Latent Attention (MLA), оптимизированное для графических процессоров архитектуры Hopper и направленное на повышение производительности сервисов последовательностей переменной длины. Оно глубоко оптимизировано в основном для сценариев с последовательностями переменной длины, особенно в сервисах вывода больших моделей, значительно улучшая производительность вывода больших моделей.