Reducir la latencia de contexto largo en…

Son las 3:14 de la madrugada. Un desarrollador fija la vista en una ventana de terminal, viendo cómo un prompt de contexto largo avanza por la pantalla a un lamentable ritmo de 1,2 tokens por segundo. La VRAM de su 3090 está al máximo, los ventiladores aúllan y el modelo está, efectivamente, ahogándose con su propia memoria. ¿A quién le gusta ver cómo se desploma su rendimiento solo porque la conversación se ha alargado un poco?

La caché KV es esencialmente un impuesto que pagamos por las ventanas de contexto largo. Una vez que superas los 32k tokens, la GPU no está luchando con las matemáticas, sino moviendo datos desde la memoria hasta los núcleos. Este es el muro del ancho de banda de memoria. Es como intentar cocinar un plato gourmet en una cocina donde la nevera está en otro edificio; pasas más tiempo yendo y viniendo a por ingredientes que picando verduras de verdad. La mayoría intenta solucionar esto podando la caché antes incluso de empezar a decodificar, lo cual es como un chef que tira la mitad de los ingredientes antes de empezar a cocinar y espera que el plato sepa bien. Es un instrumento tosco que a menudo hace que el modelo pierda completamente el hilo.

ART, tal como se detalla en arXiv:2606.00024, toma un enfoque diferente. En lugar de adivinar qué eliminar por adelantado, detiene el cálculo de atención en el momento en que el resultado es "suficiente". Es más como un chef que prueba una sopa: en cuanto tiene el sabor, deja de añadir sal. Al terminar el proceso en tiempo de ejecución, el sistema evita buscar partes innecesarias de la caché KV desde la VRAM. (O quizás solo sea mi hardware ya veterano lo que haga que esto suene a milagro). Si esto pasa de un artículo de investigación a kernels de inferencia reales, podría impulsar significativamente el rendimiento para cualquiera que ejecute pesos locales.

La verdadera pregunta es si esto sobrevive al viaje a un equipo de consumo. Si ART requiere kernels CUDA personalizados que solo funcionan bien en H100, será una curiosidad, no una herramienta. Pero si se integra en vLLM, sglang o llama.cpp, estaremos ante un aumento real de tokens por segundo para el público de la 4090. Actualmente, ejecutar Llama 3.3 o Qwen 2.5 con alto contexto requiere una cuantización agresiva—piensa en GGUF Q4_K_S o EXL2—solo para que la caché KV quepa en 24GB de VRAM. Si estás en un Mac M3 o M4 Ultra con 128GB de memoria unificada, tienes espacio, pero sigues chocando contra el techo del ancho de banda. Si podemos reducir la presión del ancho de banda durante la carga real, quizás podamos usar cuantizaciones más grandes sin que la velocidad se estrelle contra un muro.

En cuanto a la pregunta de "¿puedo ejecutar esto?": la especificación mínima sigue siendo la misma—sigues necesitando que quepan los pesos—, pero cambia la especificación cómoda para el contexto largo. Ahora mismo, una 3090 apenas da para un modelo de 70B a 4 bits con cualquier contexto real. ART podría hacer que una 3090 se sienta como una 4090 en términos de fluidez con contexto largo. Respecto a la licencia, el artículo es una publicación académica, lo que significa que la lógica está ahí para que la comunidad la coja. No hay una licencia corporativa restrictiva que bloquee las matemáticas, lo que suele significar que la carrera para implementarlo en Ollama o MLX empieza ahora. Ya hemos visto este patrón con el descodificado especulativo; los investigadores lo demuestran y la comunidad lo optimiza hasta el límite. Veremos una implementación impulsada por la comunidad de ART en llama.cpp o vLLM para Q4.

Una optimización ingeniosa que solo importa si los kernels son portables.

Cobertura relacionada

Benchmarking de LLMs para la extracción de Hojas de Datos de Seguridad

Solucionando la coherencia en textos largos para LLMs pequeños de peso abierto

Verificación de Prompts en Múltiples Pasos: Abordando la Pérdida Cualitativa en LLMs Cuantizados

Cerrando la brecha de intención: por qué los LLMs luchan con el significado pragmático