¿Qué es DeepEP?
DeepEP está dedicado a las operaciones de distribución y fusión de MoE, y admite operaciones de baja precisión, incluida la FP8. Al mismo tiempo, DeepEP está especialmente optimizado para el algoritmo group-limit gating propuesto en el documento DeepSeek-V3, y proporciona una serie de núcleos de alto rendimiento para el reenvío de ancho de banda de dominio asimétrico (por ejemplo, de dominios NVLink a dominios RDMA). Estos núcleos no sólo tienen un alto rendimiento para las tareas de formación y prepoblación de inferencia, sino que también admiten el control de recuento de multiprocesadores de flujo (SM). Para escenarios de decodificación de inferencia sensibles a la latencia, DeepEP incluye un conjunto de núcleos RDMA puros de baja latencia para minimizar la latencia. La biblioteca también introduce un enfoque de solapamiento de comunicación-computación basado en ganchos que no consume ningún recurso SM, lo que mejora aún más la eficiencia.
¿Qué es un Modelo de Pericia Mixta (MdE)?
Un modelo experto híbrido es una arquitectura de red neuronal que combina varias redes "expertas", con una red "cerrada" que decide a qué expertos dirigir los datos de entrada. Esta arquitectura permite que el modelo aumente significativamente de tamaño sin dejar de ser eficiente desde el punto de vista computacional, ya que sólo se activan algunos de los expertos a la vez en lugar de todas las redes.El concepto MoE fue propuesto por primera vez por Jacobs, Jordan y Hinton en 1991, pero no se ha utilizado ampliamente en el modelado lingüístico a gran escala hasta hace pocos años. La arquitectura MoE es utilizada por Google's Switch Transformers, Microsoft's Z-Code y DeepSeek's DeepSeek-V3, que permite el entrenamiento y despliegue de modelos a gran escala mediante la activación dispersa de expertos.
Rendimiento de DeepEP
Núcleos normales con NVLink y RDMA forwarding
Probamos núcleos normales en H800 (~160 GB/s de ancho de banda máximo NVLink), con cada uno conectado a una tarjeta de red CX7 InfiniBand 400 Gb/s RDMA (~50 GB/s de ancho de banda máximo). Y seguimos la configuración de preentrenamiento de DeepSeek-V3/R1 (4096 tokens por lote, 7168 ocultos, top-4 grupos, top-8 expertos, envío FP8 y combinación BF16).
Tipo |
Despacho #EP |
Cuello de botella de ancho de banda |
Combinar #EP |
Cuello de botella de ancho de banda |
Intranodos |
8 |
153 GB/s (NVLink) |
8 |
158 GB/s (NVLink) |
Entrenudo |
16 |
43 GB/s (RDMA) |
16 |
43 GB/s (RDMA) |
Entrenudo |
32 |
44 GB/s (RDMA) |
32 |
47 GB/s (RDMA) |
Entrenudo |
64 |
46 GB/s (RDMA) |
64 |
45 GB/s (RDMA) |
Núcleos de baja latencia con RDMA puro
Probamos núcleos de baja latencia en H800 con cada uno conectado a una tarjeta de red CX7 InfiniBand 400 Gb/s RDMA (~50 GB/s de ancho de banda máximo). Y seguimos una configuración de producción típica de DeepSeek-V3/R1 (128 tokens por lote, 7168 ocultos, top-8 expertos, envío FP8 y combinación BF16).
Despacho #EP |
Latencia |
Ancho de banda RDMA |
Combinar #EP |
Latencia |
Ancho de banda RDMA |
8 |
163 nos |
46 GB/s |
8 |
318 nosotros |
46 GB/s |
16 |
173 nosotros |
43 GB/s |
16 |
329 nos |
44 GB/s |
32 |
182 nosotros |
41 GB/s |
32 |
350 us |
41 GB/s |
64 |
186 nosotros |
40 GB/s |
64 |
353 us |
41 GB/s |
128 |
192 nosotros |
39 GB/s |
128 |
369 us |
39 GB/s |
256 |
194 nosotros |
39 GB/s |
256 |
360 nos |
40 GB/s |