FlashMLA AI
FlashMLA é um modelo eficiente de IA de kernel de decodificação MLA otimizado para GPU Hopper, lançado pela Deepseek.
O FlashMLA é um eficiente kernel de descodificação Multi-head Latent Attention (MLA) optimizado para GPUs na arquitetura Hopper, com o objetivo de melhorar o desempenho dos serviços de sequências de comprimento variável. Ele é profundamente otimizado principalmente para cenários de sequências de comprimento variável, especialmente em serviços de inferência de grandes modelos, melhorando significativamente o desempenho de inferência de grandes modelos.