Google Gemma 4 12B: El equilibrio ideal…

Google por fin ha comprendido que la estrategia de «el más grande es el mejor» es una pérdida de tiempo para cualquiera que no tenga un clúster de H100. El Gemma 4 12B es una retirada táctica hacia el portátil, y es el único movimiento que realmente importa para quienes construyen cosas.

Durante años, hemos estado atrapados en una dicotomía: o ejecutas un modelo de 7B u 8B que alucina cuando le pides lógica básica, o intentas meter un modelo de 70B en un equipo que se prende fuego. El tamaño de 12B es el punto ideal. Proporciona la densidad de parámetros suficiente para manejar un razonamiento matizado, sin ser tan grande que tengas que vender un riñón para comprar un Mac Studio.

La respuesta corta es sí, siempre que no intentes ejecutarlo en precisión completa (lo cual sería una locura en toda regla). Un modelo de 12B con cuantización a 4 bits —piensa en GGUF Q4_K_M o una carga EXL2— ocupa unos 7 u 8 GB de VRAM. Si sumas la caché KV para una ventana de contexto decente y la sobrecarga del sistema operativo, estás rozando justo ese techo de 16 GB. (Y seamos honestos, la mayoría de los «portátiles de IA» son simplemente módulos de RAM sobrevalorados).

Si usas un Mac M3 o M4 con memoria unificada, esto es pan comido. Para el bando de los PC, una 3090 o 4090 se lo traga sin esfuerzo, probablemente alcanzando entre 50 y 80 tokens por segundo según el motor. Si usas Ollama o llama.cpp, puedes esperar una experiencia fluida. Si intentas ejecutarlo en un portátil de 16 GB con GPU integrada y sin VRAM dedicada, prepárate para cierta fricción. Tendrás que hacer uso de la RAM del sistema y tu tasa de tokens por segundo se estancará: más parece leer a un mecanógrafo lento que a un cerebro digital.

Aquí es donde se pone interesante. Según el informe de ArsTechnica, Google está empleando un nuevo esquema de codificación para que el modelo rinda por encima de su categoría. En la jerarquía de los open-weights, la clase de 8B (Llama 3.1, Mistral) ha alcanzado un techo. Son ideales para chat básico, pero se quedan cortos ante una planificación arquitectónica compleja o tareas de programación profunda.

Al pasar a 12B, Google apunta directamente al hueco entre el Llama 3.1 de 8B y el masivo Llama 3.3 de 70B. Es como intentar meter un piano de cola en un estudio: es un ajuste justo, pero el sonido es infinitamente mejor que el de un teclado. Si los benchmarks se mantienen, el Gemma 4 12B debería superar consistentemente a los actuales 8B en razonamiento, sin necesitar la VRAM de un Qwen 2.5 72B.

Es una victoria para la comunidad local-first.

Aquí debemos tener cuidado. A Google le encanta usar el término «open weights» mientras evita «open source». La familia Gemma suele utilizar una licencia restrictiva personalizada en lugar de una Apache 2.0 o MIT limpia. Aunque permite uso comercial, suele venir con políticas de «uso aceptable» que le dan a Google el derecho de vigilar cómo empleas el modelo.

Para el aficionado, esto no importa. Para el desarrollador empresarial que intenta incorporarlo en un producto sin que su equipo legal sufra un infarto, es una bandera roja. Ya hemos visto esto con las licencias de Llama: los pesos son gratuitos, pero la libertad es condicional. Si necesitas una licencia verdaderamente permisiva, aún estás atado al ecosistema de Mistral o Qwen.

Si tienes un M3 Air de 16 GB, puedes ejecutarlo, pero no esperes multitarea. Una vez cargues el modelo vía MLX o LM Studio, tu memoria disponible se va prácticamente. Obtendrás velocidades utilizables —probablemente entre 15 y 25 tokens por segundo—, que es más que suficiente para un asistente de código o una pipeline RAG local.

Sin embargo, la prueba de fuego es la ventana de contexto. Si el nuevo esquema de codificación permite un contexto masivo sin desbordar la memoria, este se convierte en el modelo local por defecto para desarrolladores. Si el uso de memoria se dispara en el momento en que le das un archivo largo, es solo otra demostración vistosa. Para el cuarto trimestre, veremos una oleada de fine-tunes especializados de clase 12B que dejarán obsoletos a los modelos de 8B para programación.

Cobertura relacionada

El cambio de Google hacia el Entrenamiento Consciente de la Cuantización para Gemma 4

Liquid AI LFM2.5-8B-A1B: Análisis de un modelo MoE eficiente para dispositivos locales

Soro: Un fine-tune especializado de Gemma 3 para el idioma tayiko

Audio Interaction: Un nuevo modelo de pesos abiertos para IA de voz continua