BitsMoE: Reduciendo los requisitos de VR…

Los modelos MoE son actualmente un impuesto en memoria que la mayoría de nosotros no podemos permitirnos.

Las matemáticas de la Mezcla de Expertos son una mentira seductora. El discurso es siempre el mismo: obtienes la inteligencia de un modelo masivo pero la velocidad de inferencia de uno pequeño porque solo activas una fracción de los parámetros por token. Eso es cierto para los núcleos de cómputo de la GPU, pero es una fantasía total para la VRAM. Tu hardware no le importa si solo dos expertos están trabajando; aún tiene que mantener a cada experto residente en memoria para evitar la latencia catastrófica de intercambiar pesos desde la RAM del sistema.

¿A quién le gusta realmente ver cómo sus tokens por segundo se reducen a un ritmo de tortuga por alcanzar el techo de la VRAM? (A mí, ciertamente, no).

Aquí es donde BitsMoE entra en escena. En lugar de la cuantización estándar de fuerza bruta, donde simplemente aplicas un límite de 4 o 8 bits a todo el modelo y rezas para que la perplejidad no se dispare, BitsMoE utiliza la «energía espectral» para guiar la asignación de bits. Básicamente, identifica qué expertos están haciendo el trabajo pesado y cuáles solo están rellenando, asignando más precisión a los pesos críticos y podando agresivamente el resto.

Es un poco como hacer la maleta para un viaje. No le das el mismo espacio a tus botas pesadas que a tus calcetines. Priorizas los elementos que realmente impactan la utilidad del viaje. Al tratar a los expertos como entidades no equivalentes, BitsMoE intenta comprimir el tamaño del modelo sin el típico efecto de «lobotomía» que ocurre cuando cuantizas los MoE en exceso.

La verdadera pregunta es si esto importa realmente a quien usa una 3090 o una 4090. En este momento, la jerarquía de los modelos de pesos abiertos está dominada por la tensión entre densidad y esparsidad. Tenemos la serie Llama 3.3 y los modelos Qwen empujando los límites de lo que un modelo denso puede hacer, mientras que DeepSeek-V3 ha demostrado que el MoE es la única forma de alcanzar inteligencia de vanguardia con un presupuesto ajustado. Pero los requisitos de VRAM para estos MoE siguen siendo opresivos.

Si BitsMoE se puede integrar en las herramientas que realmente usamos —piensa en llama.cpp, vLLM o los cargadores EXL2—, cambia por completo las matemáticas del despliegue. Actualmente, ejecutar un MoE de alto parámetro en una sola tarjeta de 24 GB suele requerir una cuantización tan agresiva que el modelo empieza a alucinar su propia biografía. Si logramos avanzar hacia una asignación de bits no uniforme basada en energía espectral, podríamos ver realmente una versión de estos modelos que quepa en 24 GB manteniendo la sutileza de una versión FP16 mucho más grande.

O quizás no. Es posible que la sobrecarga de gestionar diferentes anchos de bits entre expertos elimine las ganancias de velocidad de inferencia, convirtiendo la parte «eficiente» del artículo en una victoria teórica más que práctica. Ya hemos visto esto antes con los primeros intentos de cuantización de precisión mixta, donde la sobrecarga del kernel superaba el ahorro de memoria.

Aun así, la alternativa es quedarse atascado con el GGUF Q4_K_M y esperar lo mejor. Para quienes usamos Mac M3 o M4 Ultra con una memoria unificada masiva, esto es menos una crisis y más una optimización, pero para la comunidad de Nvidia, esta es la única vía. La industria está obsesionada con añadir más parámetros, pero el ciclo del hardware de consumo no va al mismo ritmo. No podemos simplemente esperar a una 5090 con 48 GB de VRAM que, probablemente, tampoco existirá para el desarrollador promedio de todos modos.

La fricción técnica aquí es la implementación. La mayoría de los motores de inferencia actuales están optimizados para cuantización uniforme. Para que BitsMoE funcione, necesitamos kernels que puedan gestionar una precisión variable a través de las capas MoE sin bloquear el pipeline.

Veremos una implementación inspirada en BitsMoE en una herramienta de cuantización popular como llama.cpp o AutoGPTQ de Q4.

Es un giro necesario.

La era de la cuantización uniforme ha terminado.

Cobertura relacionada

AURA: Resolviendo el problema del KV Cache para la IA Corporizada Continua

Asistentes de IA para la Ciencia y la Realidad del Reaprovechamiento de Fármacos

La industria farmacéutica apuesta miles de millones por algoritmos de IA para el descubrimiento de fármacos

Investigación de ByteDance: El entrenamiento centrado en QA mejora el análisis de documentos en LMM