Liquid AI LFM2.5-8B-A1B: Análisis de un…

Liquid AI está intentando, en esencia, burlar el impuesto de la VRAM.

Al desplegar una arquitectura de Mezcla de Expertos (MoE) que solo activa 1.5B de parámetros de un total de 8.3B, están apostando a que nos importa más los tokens por segundo que el recuento total de parámetros. Es una jugada inteligente. Para la comunidad de inferencia local, el objetivo siempre ha sido obtener las capacidades de razonamiento de un modelo de tamaño medio sin la latencia de uno denso. Liquid AI simplemente admite que la única forma de lograrlo en hardware de consumo es mantener la mayor parte del «cerebro» dormido durante la generación de cada token.

Aquí es donde importan las matemáticas para quienes realmente lo vayan a ejecutar. Dado que el recuento total de parámetros es de 8.3B, no te libras del gasto de memoria. Todavía tienes que cargar el conjunto completo de pesos en tus buffers. Con una cuantización GGUF de 4 bits (Q4_K_M), te vas a encontrar con unos 5 GB a 6 GB de VRAM solo para que el modelo arranque. Si usas una 3090 o una 4090, esto no es problema: puedes alojarlo junto con una caché KV masiva para esa ventana de contexto de 128K sin sudar la gota gorda. (Asumiendo que no sigas usando una tarjeta de la serie 10).

Pero la verdadera victoria está en el recuento de 1.5B de parámetros activos. De ahí sale la velocidad. Como el coste computacional por token se vincula a los parámetros activos y no a los totales, esto debería sentirse como ejecutar un modelo diminuto de 1B o 2B. Es como pedir un banquete pero solo comerse el aperitivo para mantener la línea. En un Mac con chip M3 o M4 Ultra, usando MLX o llama.cpp, los tokens por segundo deberían ser vertiginosos.

La pregunta es si el enrutamiento MoE es lo suficientemente eficiente como para superar realmente a un modelo denso de 8B en utilidad real. Ya hemos visto esto antes con MoE más pequeños que prometen benchmarks altos pero alucinan en cuanto les pides que hagan algo ligeramente complejo. Pero, según los detalles del lanzamiento, el LFM2.5-8B-A1B apunta a un nivel superior de razonamiento.

El orden de prelación de los pesos abiertos es actualmente una carnicería. Llama 3.1 8B es el punto de referencia, y Qwen ha estado empujando agresivamente los límites de la eficiencia. Para que LFM2.5 tenga relevancia, no basta con ser «rápido»; tiene que ser útil. El enfoque en la invocación de herramientas y el razonamiento es un tiro directo a la tendencia «agente». La mayoría de los modelos de 8B se las ven y se las desean con el uso complejo de herramientas porque pierden el hilo de la conversación o fallan al formatear el JSON correctamente.

Si Liquid AI ha resuelto realmente la brecha de razonamiento con 1.5B de parámetros activos, han creado un monstruo para agentes en dispositivo. Imagina un asistente local que pueda ejecutar scripts de shell o llamadas a API sin necesitar una A100 de 40 GB para pensar.

Sin embargo, hay que hablar de la licencia. Liquid AI tiene un historial de ser un tanto opaco en este aspecto. Si esto no es Apache 2.0 o MIT, la comunidad lo tratará como una curiosidad en lugar de una herramienta. Los desarrolladores no quieren construir una tubería completa en torno a un modelo solo para descubrir que hay una cláusula comercial restrictiva escondida en la letra pequeña.

Es una máquina de inferencia ligera y brutal.

Dicho esto, una ventana de contexto de 128K es una afirmación audaz para un modelo de este tamaño. Por lo general, a medida que amplías el contexto, la calidad efectiva del razonamiento se desploma en picado. Si el LFM2.5 logra mantener la coherencia con 100k+ tokens usando solo 1.5B de parámetros activos, cambia la ecuación para el RAG local (Generación Aumentada por Recuperación).

Veremos cómo los modelos «pequeños» basados en MoE reemplazan por completo a los modelos densos de 7B y 8B como estándar de la industria para el despliegue local antes del cuarto trimestre. La ganancia en eficiencia es simplemente demasiado grande para ignorarla, y las limitaciones de hardware del equipo medio de un desarrollador son un techo infranqueable que los modelos densos no pueden romper.

Cobertura relacionada

Audio Interaction: Un nuevo modelo de pesos abiertos para IA de voz continua

NVIDIA Nemotron 3 Ultra: Un análisis en profundidad del modelo híbrido MoE de 550B

Google Gemma 4 12B: El equilibrio ideal para el despliegue de LLMs locales

OpenAI lanza GPT-5: características y análisis del último modelo de lenguaje grande