1.000.000. Ese es el número de tokens que Alibaba promociona para el nuevo Qwen3.7-Max. Para la mayoría de nosotros, esa cifra carece de sentido práctico, pero en el contexto de un «agente de razonamiento», es una señal inequívoca sobre dónde se sitúa ahora el techo para las tareas de largo alcance.

El Qwen3.7-Max llega con un «modo de pensamiento extendido», diseñado para manejar ese tipo de depuración en profundidad y codificación compleja que suele hacer que los modelos más pequeños alucinen tras procesar tres archivos. Es, en esencia, una jugada para el mercado de agentes de gama alta: un entorno que no solo sugiere una corrección, sino que razona a través de todo el grafo de dependencias de un proyecto antes de teclear un solo carácter. Este proceso de «pensamiento» es probablemente un rastro oculto de chain-of-thought, lo que significa que el modelo gasta más potencia de cómputo en su monólogo interno antes de empezar a emitir tokens al usuario.

Sobre el papel, es un salto impresionante. Pero el branding «Max» es una advertencia. En el ecosistema Qwen, «Max» suele denotar al behemoto propietario y alojado en la nube, más que a las joyas de pesos abiertos que realmente nos importan. Si este es el caso, la ventana de contexto de 1M es menos una herramienta para la comunidad y más un escaparate para la infraestructura de Alibaba Cloud. (Y probablemente algo que no cabe en los 24 GB de tu 3090). Es un movimiento clásico: anunciar una cifra masiva para ganar el ciclo de hype y luego mantener los pesos bajo llave.

¿Quién tiene realmente un millón de tokens de contexto coherente en un solo prompt? Quizás alguien que audita una base de código COBOL de 1974, pero para el resto de nosotros, el verdadero cuello de botella no es la ventana, sino la VRAM.

Intentar cargar un millón de tokens de KV cache en memoria local es como intentar meter un colchón king size en un Mini Cooper. Incluso con una cuantización agresiva vía GGUF o EXL2, la sobrecarga de memoria para una ventana de contexto de ese tamaño es astronómica. A menos que Alibaba haya encontrado la manera de reescribir fundamentalmente cómo funciona la atención (o quizás el mecanismo de atención sea más eficiente de lo que pensamos, poco probable), este modelo será un devorador de recursos que dejará a vLLM o sglang en la rodilla en cualquier configuración que no sea un clúster de H100.

Al compararlo con la jerarquía de los modelos de pesos abiertos, queda claro el abismo entre «Max» y los modelos realmente utilizables. Llama 3.3 y Gemma 3 ofrecen una base predecible y estable para el despliegue local. Qwen ha batido históricamente a Llama en benchmarks de codificación, pero esa victoria suele ser obra de las variantes de 7B o 72B que sí podemos ejecutar en un Mac M3 Ultra o en un rig con múltiples 4090. Un modelo de «razonamiento» de un millón de tokens que necesita una granja de servidores para respirar no es una victoria para el desarrollador local.

Luego está la licencia. Qwen ha sido relativamente amigable con Apache 2.0 para sus modelos más pequeños, pero la capa «Max» suele venir con términos restrictivos, de acceso controlado o solo comerciales. Si los pesos de 3.7-Max permanecen bloqueados tras una API, la ventana de 1M es solo una métrica de vanidad. Queremos los pesos, no un plan de suscripción.

¿Puedes ejecutar esto en tu rig? Si vas con una única 4090, la respuesta es un rotundo no para la versión Max. Quizás logres que una versión muy cuantizada arranque en Ollama o llama.cpp, pero darás contra el muro de la VRAM mucho antes de alcanzar esa marca de un millón de tokens. Tendrás suerte si logras empujar 5-10 tokens por segundo una vez que el contexto empieza a llenarse.

Es una ostentación cloud-first.

La verdadera historia aquí no es el modelo Max en sí, sino la arquitectura de razonamiento que demuestra. La capacidad de «pensamiento extendido» es la verdadera joya. Para el tercer trimestre, veremos una versión destilada de 7B o 14B de esta cadena de razonamiento que sí cabe en una 4090 sin necesitar un sótano refrigerado con nitrógeno líquido. Esa es la versión que realmente marcará la diferencia para quienes ejecuten agentes locales. Hasta entonces, la ventana de contexto de 1M es solo una forma muy costosa de leer un par de cientos de archivos PDF a la vez.