Google está admitiendo por fin que la cuantización post-entrenamiento es un parche y que el QAT es la única vía para hacer que los modelos pequeños sean realmente utilizables en hardware de consumo. Durante demasiado tiempo, la industria ha tratado la cuantización como un paso de postprocesamiento: algo que haces después de que el modelo está “terminado” para que quepa en una GPU (que en el fondo es solo matemáticas sofisticadas para esperar errores). El problema es que, cuando aplastas un modelo desde FP16 hasta 4 bits después del hecho, estás esencialmente adivinando qué pesos puedes sacrificar sin matar la inteligencia del modelo. Es un juego de restas donde el objetivo es perder lo mínimo posible, pero la pérdida siempre está ahí.
El Entrenamiento Consciente de la Cuantización (QAT) cambia el orden de las operaciones al simular la pérdida de precisión durante el propio proceso de entrenamiento. Es la diferencia entre encoger un jersey de lana en el lavado y esperar que aún te quede, versus confeccionar la prenda al tamaño exacto desde el principio. Según el desglose técnico de Google, este enfoque permite que Gemma 4 mantenga un nivel de precisión mucho mayor a anchos de bit más bajos. En lugar de que el modelo se lleve la sorpresa del ruido de cuantización durante la inferencia, ya ha aprendido a compensarlo. Los pesos se “pre-distorsionan” esencialmente para garantizar que, cuando ocurra la compresión final, la salida se mantenga estable.
Para los que realmente desplegamos esto, la métrica real no es una gráfica de benchmarks, sino la VRAM y los tokens por segundo. La pregunta de “¿puedo ejecutar esto en mi equipo?” suele ser una apuesta basada en lo mal que estén los quants de la comunidad. Si estos pesos QAT se traducen en una versión de 4 o 8 bits de alto rendimiento que no alucine cada tres palabras, cambia por completo las matemáticas para los rigs locales. Un usuario con una 3060 o 4060 Ti (16 GB) podría por fin tener un modelo que se sienta “inteligente” sin necesidad de descargar capas a la RAM del sistema y ver cómo su velocidad se desploma a 2 tokens por segundo. En una 3090 o 4090, puedes de verdad empujar la ventana de contexto a decenas de miles sin topar con el muro del OOM. La prueba real será lo rápido que se integren en Ollama, vLLM y llama.cpp. Si las versiones GGUF o EXL2 mantienen los beneficios del QAT, por fin podríamos dejar de ver el desplome masivo de rendimiento que suele ocurrir al pasar de un modelo de referencia en 16 bits a un quant de la comunidad.
Esto coloca a Google en una posición extrañamente sólida frente al orden jerárquico actual de los pesos abiertos. Llama 3.3 y Qwen tienen una potencia bruta increíble, pero a menudo se sienten inflados cuando intentas forzarlos a un formato móvil o portátil. ¿Por qué seguimos fingiendo que la cuantización post-entrenamiento es una ciencia perfecta cuando Google está construyendo explícitamente la pérdida de precisión en los propios pesos? Al centrarse en la experiencia “en dispositivo” en lugar de solo perseguir la puntuación MMLU más alta en un clúster de H100, están apuntando a las personas que realmente ejecutan esto en producción en el edge. Es un giro estratégico de “modelo más grande” a “modelo más eficiente”, que es donde reside la utilidad real para los desarrolladores.
La licencia sigue siendo el obstáculo habitual de Google. No es Apache 2.0; es esa licencia personalizada de Gemma, permisiva pero restrictiva, que te deja hacer casi de todo excepto usar el modelo para entrenar uno competidor. O quizás sea demasiado cínico: los términos están generalmente bien para el 99 % de los devs, pero sigue sin ser tan limpio como una licencia de código abierto real. Es un ecosistema restringido disfrazado de pesos abiertos. Te dan los pesos, pero no la libertad de un proyecto verdaderamente abierto. Aun así, para un dev que corre en un Mac M3-M4 Ultra vía MLX, la licencia es una preocupación secundaria frente al hecho de que el modelo cabe en memoria y no se degrada en un galimatías.
El giro hacia el QAT es una señal de que la era del “solo hazlo más grande” está chocando contra un muro de realidad física. Hemos llegado al punto donde las matemáticas de la compresión son más importantes que el volumen de datos. Para el tercer trimestre, veremos un cambio en el que los principales laboratorios de pesos abiertos dejen de enviar pesos en FP16 y esperar que la comunidad los arregle, pasando en su lugar a lanzamientos nativos de QAT como estándar. La competencia tendrá que dejar de depender de la excusa de “la comunidad lo cuantizará” y empezar a hacer el trabajo pesado durante el entrenamiento.
Era hora de que alguien priorizara el límite mínimo de VRAM por encima de la clasificación.