Imagina una banda que gasta todo el presupuesto de su primer álbum en un espectáculo de pirotecnia antes incluso de haber reservado una segunda gira. Durante veinte minutos, son el acto más emocionante de la ciudad. Luego se disipa el humo, la cuenta bancaria llega a cero y de repente tocan en bares de barrio con un amplificador roto.

La industria de la IA ha pasado los últimos dos años en la fase de pirotecnia. Lo llamábamos «tokenmaxxing». El objetivo era simple: meter la mayor cantidad de contexto posible en el prompt, usar el modelo más grande disponible e ignorar la tasa de consumo. (He visto algunas de estas facturas de API; son genuinamente obscenas). Fue un periodo de abundancia imprudente donde la única métrica que importaba era «¿funciona?» y el coste era un error de redondeo en la ronda semilla de un VC.

Ahora la fiesta ha terminado. Según un informe reciente de TechCrunch, la conversación interna en la mayoría de las empresas de IA ha pasado de «ir rápido» a una carrera desesperada por establecer salvaguardas. La industria está comprendiendo que escalar un producto no es lo mismo que escalar una demo. Una demo que cuesta dos dólares en ejecutarse una vez es una curiosidad; un producto que cuesta dos dólares por usuario al día es un pacto de suicidio financiero.

La verdadera fricción ni siquiera es el precio base por millón de tokens, sino la imprevisibilidad. Despiertas y te encuentras con una factura cuatro veces mayor que la del mes pasado porque unos pocos usuarios avanzados han decidido alimentar al modelo con bibliotecas enteras de PDF, o un bucle recursivo en tu flujo de trabajo agéntico ha decidido hablar consigo mismo durante seis horas. ¿Quién cree realmente que podemos simplemente «optimizar» nuestra salida de una factura de API mensual de 50.000 dólares? La carrera por la gestión de costes no se trata solo de cambiar a un modelo más barato o ajustar algunos system prompts. Es una toma de conciencia fundamental de que la arquitectura actual del consumo de LLMs es insostenible para cualquier empresa que no se dedique a vender chips.

La luna de miel ha terminado.

Aquí está la tesis: estamos siendo testigos de la muerte de la obsesión por lo generalista. Durante un tiempo, la tendencia fue crear modelos que pudieran hacer de todo: escribir poesía, depurar C++ y planificar un viaje a Kioto, todo dentro de un único conteo masivo de parámetros. Pero el coste de ejecutar a estos behemots es un impuesto que ninguna empresa sostenible puede pagar para siempre. La actual obsesión con el «contexto infinito» es una métrica de vanidad. Ningún humano lee realmente 200k tokens de salida, y pagar por el cómputo para procesar tanta entrada es solo una forma de ocultar una mala arquitectura de recuperación.

Ya hemos visto esta película antes. ¿Recuerdan cuando cada empresa creía que necesitaba un lago de «big data» y gastaba millones en infraestructura que nunca usaron? Este es el mismo ciclo. La industria está a punto de dar un giro radical hacia modelos pequeños y especializados que hagan una cosa bien sin necesidad del consumo eléctrico de una pequeña ciudad para generar una sola respuesta.

El cambio no será gradual. Para el cuarto trimestre, veremos una fuga masiva de los modelos de API de vanguardia hacia SLMs locales y destilados para cualquier carga de trabajo en producción que no requiera razonamiento complejo. La era de la API monolítica es un lujo que ya no podemos permitirnos. Si sigues construyendo toda la hoja de ruta de tu producto con la esperanza de que el próximo modelo de vanguardia sea simplemente diez veces más barato y diez veces más grande, estás apostando básicamente la viabilidad de tu empresa a un milagro.

Las matemáticas simplemente no cuadran. No podemos seguir fingiendo que la factura de la nube es un «gasto de crecimiento» cuando los ingresos por usuario ni siquiera cubren el coste de los tokens que consumen. Es hora de dejar de hacer tokenmaxxing y empezar a hacer ingeniería de verdad.