FlashMLA AI
플래시MLA는 딥시크에서 출시한 Hopper GPU에 최적화된 효율적인 MLA 디코딩 커널 AI 모델입니다.
FlashMLA는 가변 길이 시퀀스 서비스의 성능 향상을 목표로 하는 Hopper 아키텍처의 GPU에 최적화된 효율적인 다중 헤드 잠재 주의(MLA) 디코딩 커널입니다. 주로 가변 길이 시퀀스 시나리오, 특히 대규모 모델 추론 서비스에 심층적으로 최적화되어 있어 대규모 모델의 추론 성능을 크게 향상시킵니다.
FlashMLA는 가변 길이 시퀀스 서비스의 성능 향상을 목표로 하는 Hopper 아키텍처의 GPU에 최적화된 효율적인 다중 헤드 잠재 주의(MLA) 디코딩 커널입니다. 주로 가변 길이 시퀀스 시나리오, 특히 대규모 모델 추론 서비스에 심층적으로 최적화되어 있어 대규모 모델의 추론 성능을 크게 향상시킵니다.
import get_mla_metadata, flash_mla_with_kvcache 타일 스케줄러 메타데이터, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) ...
플래시MLA는 H100 및 H200과 같은 호퍼 아키텍처 GPU에 최적화되어 더 높은 연산 효율성과 성능을 제공합니다.
페이지 기반 KV 캐시를 사용하는 플래시MLA는 H800 GPU에서 기존 방식을 훨씬 능가하는 최대 580 TFLOPS의 연산 성능과 3000 GB/S의 메모리 대역폭을 구현할 수 있습니다.
MLA 디코딩 프로세스를 커널화함으로써 CPU-GPU 간의 데이터 전송 횟수가 줄어들고, 1000억 개 모델 추론에서 엔드투엔드 지연 시간이 40% 감소한 것으로 측정되었습니다.
FlashMLA는 기계 번역, 텍스트 생성, 감정 분석, 질의응답 시스템 등 효율적인 디코딩이 필요한 자연어 처리 작업에 적합합니다. 가변 길이의 시퀀스에 최적화되어 있으며 추론 효율성을 크게 향상시킬 수 있습니다.
FlashMLA는 대규모 언어 모델의 추론 시나리오를 위해 설계되었습니다. KV 캐시 및 병렬 디코딩 메커니즘을 최적화하여 하드웨어 리소스 요구 사항을 줄이고 추론 속도를 향상시킵니다.
대화형 AI, 실시간 번역, 콘텐츠 추천 등 빠른 응답이 필요한 애플리케이션에서 FlashMLA는 지연 시간이 짧은 추론 기능을 제공하고 사용자 경험을 개선할 수 있습니다.
2025년 2월 24일, 딥시크는 Hopper GPU를 위해 특별히 설계된 효율적인 MLA 디코딩 커널인 FlashMLA를 출시했습니다. 이번 출시는 특히 의료, 금융, 자동화 시스템과 같은 산업에서 더 빠르고 확장 가능한 AI 모델에 대한 수요가 급증하는 가운데 AI 성능의 한계를 뛰어넘기 위한 Deepseek의 노력을 보여주는 것입니다.