Solucionando la coherencia en textos lar…

Son las 3:14 de la madrugada y un desarrollador lleva horas clavado en una ventana de terminal, sumido en la pura frustración. Ha pasado las últimas cuatro horas intentando que un modelo local de 8B escriba un relato corto coherente de 3.000 palabras. Todo marcha de maravilla durante los primeros seiscientos tokens, pero entonces el modelo se estrella contra un muro. De repente, la prosa cae en un bucle repetitivo o, lo que es peor, decide cerrar toda la trama en un único párrafo abrupto que parece un resumen de Wikipedia. El hardware está en pleno rendimiento, la VRAM aguanta, pero la inteligencia se ha evaporado por completo.

¿Por qué seguimos fingiendo que los modelos de 8B pueden gestionar una novela? Si has dedicado algo de tiempo a ejecutar Llama 3 o Mistral Nemo de forma local, conoces la rutina. Estos modelos son fantásticos para chat, programación y resúmenes cortos, pero en el momento en que pides una narrativa extensa, se comportan como un niño pequeño intentando construir un rascacielos: levantan los tres primeros pisos a la perfección y luego todo se viene abajo. El paper de POLARIS lo identifica exactamente: los modelos pequeños o se atragantan con la longitud o sacrifican toda coherencia para alcanzar el conteo de palabras.

La solución que se presenta aquí no consiste en añadir más datos o ampliar la ventana de contexto (lo cual es un impuesto de hardware que no siempre podemos permitirnos). Se trata, más bien, de guiar al modelo para que mantenga una trayectoria estructural. A mi juicio, esta es la única vía lógica para la comunidad de inferencia local. No podemos limitarnos a esperar a que alguien logre comprimir un modelo de 400B en un footprint de 7B sin perder el «alma» de la escritura. Si queremos un modelo que sea capaz de redactar un capítulo de un libro sin alucinar su propio final, necesitamos este tipo de dirección arquitectónica en lugar de confiar en que el próximo fine-tune sea simplemente «más listo».

Desde la perspectiva del despliegue, aquí es donde las cosas se ponen interesantes para quienes contamos con una 3090 o 4090. La mayoría de las «soluciones» actuales para escritura creativa implican ensembles masivos o prompt-chaining que destrozan los tokens por segundo. Si Polaris puede integrarse en un set de pesos o implementarse mediante un adaptador ligero, podremos mantener altas las velocidades de inferencia en Ollama o llama.cpp sin necesitar un Mac M3 Ultra solo para mantener un hilo argumental. (Y probablemente tampoco con las versiones de 16 GB de esas tarjetas). La prueba de fuego será ver si esto sobrevive a la cuantización. Si la guía se rompe en el momento en que pasas a un GGUF Q4_K_M o un EXL2 de 4.0bpw, entonces se trata de una curiosidad de laboratorio, no de una herramienta para la gente.

En comparación con el actual orden jerárquico de los open-weights, la brecha en la escritura extensa es el único terreno donde los modelos «frontier» aún mantienen una ventaja abrumadora. Llama 3.1 es una bestia, pero sigue padeciendo la misma degradación estructural que sus pares cuando se le exige más de unas pocas páginas de prosa. Para el cuarto trimestre, veremos un fine-tune especializado de «Escritor» para una variante de Llama-3 que utilice una guía al estilo Polaris y que supere de forma consistente a los modelos base en los benchmarks de coherencia en textos largos. Es una evolución necesaria; de lo contrario, los modelos locales seguirán siendo chatbots sobrevalorados que no son capaces de contar un cuento ni para salvarles la vida.

El hardware está listo, los pesos están disponibles, pero aún falta la coherencia.

Los modelos pequeños por fin tienen un mapa para evitar que se lancen por un precipicio.

Cobertura relacionada

Benchmarking de LLMs para la extracción de Hojas de Datos de Seguridad

OSCAR de Together AI: Cuantización de KV Cache a 2 bits para contextos largos

Huawei lanza KVarN: un backend nativo de vLLM para la cuantización del KV-Cache

AURA: Resolviendo el problema del KV Cache para la IA Corporizada Continua