フラッシュMLA AI
FlashMLAは、ディープシークが発表した、Hopper GPUに最適化された効率的なMLA解読カーネルAIモデルである。
FlashMLAは、HopperアーキテクチャのGPU向けに最適化された効率的なMulti-head Latent Attention (MLA)デコーディングカーネルであり、可変長シーケンスサービスの性能向上を目的としている。主に可変長シーケンスのシナリオ、特に大規模モデルの推論サービスに深く最適化されており、大規模モデルの推論性能を大幅に向上させます。