Son las 3:14 de la madrugada. Un desarrollador está encorvado sobre un teclado mecánico, la luz azul de un terminal reflejada en sus gafas mientras observa una barra de progreso de wget que se ha quedado clavada al 42%. Hay una taza de café tibio cerca y un deseo punzante por ver si los últimos pesos de Alibaba realmente manejan el tool-calling complejo sin alucinar un endpoint de API falso. Este es el ritual del entusiasta de los modelos locales: esperar la descarga, rezar para que la cuantización no le quite la lógica y esperar que la VRAM no se ponga histérica.

La espera se ha complicado un poco más con el anuncio de Qwen3.7-Plus. En la superficie, es una bestia multimodal integrada en la plataforma Bailian, que presume de visión, razonamiento profundo e “iteración autónoma”. Para el público corporativo, esto es un triunfo de productividad. Para los que corremos modelos con nuestro propio silicio, la denominación “Plus” suele señalar una pesadilla de VRAM. Si sigue la trayectoria de iteraciones anteriores de Qwen “Plus”, no estamos ante algo que se deslice cómodamente en una única RTX 4090. Para ejecutarlo sin una latencia desgarradora, probablemente te apuntes a un montaje dual de 3090/4090 o a un Mac M3/M4 Ultra con memoria unificada suficiente para tragar los pesos enteros. Esperamos a que lleguen los GGUF o EXL2 cuantizados a Hugging Face, pero incluso así, una cuantización Q4_K_M de un modelo de este tamaño probablemente hará que el consumo base de memoria se dispare más allá de los 40 GB.

La industria está actualmente obsesionada con el “razonamiento profundo” y la “iteración autónoma”, pero seamos honestos sobre lo que eso significa realmente. Es esencialmente un bucle donde el modelo genera un borrador, lo critica y lo corrige antes de mostrárselo al usuario. Es como un chef que prueba una salsa, se da cuenta de que está sosa, añade sal, la vuelve a probar y repite el proceso hasta que es comestible. ¿Por qué seguimos fingiendo que esto es un descubrimiento nuevo y no simplemente un bucle sofisticado con una condición de parada? Aunque la capacidad es útil, es una característica del pipeline de inferencia tanto como del modelo en sí. Cuando lo comparas con Llama 3.3 o Gemma 3, la serie Qwen suele ganar en benchmarks crudos de codificación y matemáticas, pero la brecha de “razonamiento” se está cerrando. La prueba real es si estas iteraciones “autónomas” realmente resuelven el problema o solo gastan diez segundos de cómputo para llegar a la misma respuesta incorrecta, pero con más confianza.

Luego está el tema de la licencia. Alibaba tiene la costumbre de usar licencias restrictivas personalizadas que parecen open-weights a simple vista, pero se sienten como un barrio cerrado una vez que intentas escalarlas comercialmente (probablemente porque su equipo legal está aterrorizado por las sanciones de EE. UU.). Si Qwen3.7-Plus se apega a una licencia restrictiva en lugar de Apache 2.0, cede efectivamente la corona de “estándar de la industria” a Llama. Los desarrolladores no quieren tener que contratar a un abogado solo para desplegar un agente local para su documentación interna. La fricción de una licencia no estándar suele ser un cuello de botella mayor que los propios requisitos de GPU.

Si estás intentando averiguar si cabe en tu equipo, la respuesta probablemente sea “aún no” para la versión completa. Quizás te las arregles para meter una versión muy cuantizada en 24 GB de VRAM usando algo como llama.cpp o Ollama, pero espera que los tokens por segundo se desplomen en cuanto active el “razonamiento profundo”. La sobrecarga de la iteración autónoma significa que no solo pagas por la salida final; pagas por los tres intentos fallidos que el modelo hizo en segundo plano.

Es una herramienta potente, pero no es un milagro.

Para el tercer trimestre, veremos una versión “Small” destilada del motor de razonamiento 3.7-Plus que cabe cómodamente en 24 GB de VRAM sin sacrificar la precisión en el tool-calling. Hasta entonces, el “Plus” es sobre todo una ostentación para quienes tienen clústeres de H100 y presupuestos de API empresarial.