«En una demostración, un agente basado en el modelo desarrolló de forma autónoma una aplicación para aprender vocabulario, generando más de 10.000 líneas de código repartidas en varios archivos.»

Diez mil líneas de código es una cantidad aterradora de código repetitivo. Cualquier desarrollador senior sabe que el objetivo suele ser resolver el problema con el menor número de líneas posible, no inflar el tamaño del archivo. Parece que el modelo está actuando como un junior que acaba de descubrir una nueva librería y bebe café como si no hubiera mañana: escribiendo cantidades masivas de código redundante para demostrar que puede. Pero el punto real aquí no es el número de líneas; es el bucle. Alibaba está intentando superar la fase de "chatbot" para entrar en la fase de "realmente hace cosas en tu pantalla".

El sufijo "Plus" suele implicar un recuento de parámetros que hace sudar al hardware de consumo. Si esto es realmente un agente multimodal capaz de operar en la GUI y realizar programación compleja, no estamos ante un modelo ligero de 7B. Para el aficionado, la pregunta real es el límite mínimo de VRAM. Para ejecutarlo cómodamente sin el temido bloqueo de "falta de memoria", probablemente necesites al menos dos 3090 o una 4090 acompañada de una buena cantidad de RAM del sistema para el offloading.

Si hablamos de FP16, olvídate. Tendremos que esperar a los cuantizados GGUF y EXL2 para ver si una versión de 4 bits o 6 bits cabe en 24 GB de VRAM manteniendo ese razonamiento agéntico. (Sospecho que la sobrecarga multimodal se comerá una parte considerable de ese buffer). Si estás en un Mac con chip M3 o M4 Ultra, estás en una mejor posición, pero los tokens por segundo en una 4090 serán el verdadero termómetro para ver si esto es usable para automatización de GUI en tiempo real.

Alibaba tiene la costumbre de jugar con un juego confuso en cuanto a sus licencias. Llaman a sus modelos "open weights", pero eso no es lo mismo que "open source". Si echas un vistazo al informe de The Decoder, el foco está en la capacidad, pero para un desarrollador, la letra pequeña legal es donde está la verdadera historia. Si la licencia es restrictiva respecto al uso comercial o exige un acuerdo especial al superar cierto umbral de usuarios, no importa cuántas líneas de código pueda escribir.

Ya hemos visto esta película antes. Un laboratorio lanza un modelo que deja en ridículo a la competencia, solo para que la comunidad se dé cuenta de que la licencia es una pesadilla de permisos. Si Qwen3.7-Plus no está bajo Apache 2.0 o algo igualmente permisivo, seguirá siendo una curiosidad para investigadores en lugar de un cimiento para productos reales.

En el actual orden jerárquico de open-weights, Llama 3.3 y Mistral son los que hay que superar. La mayoría de los modelos pueden chatear y algunos pueden programar, pero muy pocos pueden percibir una GUI y luego ejecutar una serie de acciones para alcanzar un objetivo. Ahí es donde Qwen3.7-Plus intenta abrirse un hueco. No solo intenta ser un LLM mejor; intenta ser un mejor operador de SO.

¿Supera realmente a Llama 3.3 en un bucle agéntico del mundo real? Esa es la apuesta. La mayoría de los "agentes" de hoy son simplemente LLMs envueltos en un script de Python frágil que se rompe en el instante en que cambia un selector CSS. Un modelo que entiende nativamente el diseño visual de una aplicación y puede iterar sobre su propio código es una bestia completamente distinta. Es una jugada de poder.

Por ahora, el modelo es una demo. Para el resto de nosotros, la utilidad comienza cuando llega a los motores de inferencia. Necesitamos saber cuándo será compatible con vLLM, sglang, o las más accesibles Ollama y LM Studio. El aspecto multimodal añade una capa de complejidad a los pesos que suele retrasar la primera integración estable de llama.cpp.

¿Realmente necesitamos otro modelo multimodal, o necesitamos uno que funcione de verdad sin 100 GB de VRAM? Solo el tiempo lo dirá. Veremos los primeros cuantizados GGUF de alta calidad para la variante Plus llegar a Hugging Face en menos de 14 días. Hasta entonces, sigue siendo solo una presentación de diapositivas muy impresionante y una aplicación de vocabulario larguísima.