Imagina a un desarrollador a las 3 a. m., con la única luz de la habitación proveniendo de una configuración de doble monitor y una lámpara de escritorio a punto de fundirse. Está mirando fijamente una ventana de terminal que acaba de arrojar un error CUDA out of memory por décima vez esta noche. Ha probado cada truco de cuantización del manual y ha reducido el prompt a sus elementos más básicos, pero el costo cuadrático de la atención es una pared que no puede escalar. Es el impuesto que todos pagamos por las ventanas de contexto largo, y (el tipo de cosa que te hace querer lanzar el monitor por la ventana) es el mayor punto de fricción al escalar LLMs. La barrera de memoria no es solo un obstáculo técnico; es uno financiero que mantiene los experimentos más interesantes encerrados tras un muro de pago de clústeres de H100.
Llega Subquadratic. La startup salió recientemente del modo stealth afirmando que finalmente ha roto este cuello de botella. Según MIT Tech Review, la empresa cree haber resuelto el problema fundamental de eficiencia que hace que escalar el contexto sea prohibitivamente caro. En una presentación de diapositivas, parece un milagro. Para un capitalista de riesgo que busca el próximo gran cambio arquitectónico, parece una mina de oro. Pero para nosotros, que pasamos los días luchando con tensores y VRAM, la emoción se ve matizada por una buena dosis de escepticismo. Ya hemos visto la promesa de “cuadrático a lineal” antes, y usualmente, el costo es una caída masiva en la calidad de recuperación.
¿Quién cree realmente el comunicado de prensa de “salida del stealth”? Ya hemos visto esta película antes. Cada pocos meses, un nuevo laboratorio afirma haber reemplazado el mecanismo de atención con algo lineal o recurrente que no sacrifique calidad. Es como un chef que afirma haber encontrado la forma de hornear un pastel en treinta segundos sin usar microondas; claro, quizás hayas encontrado un atajo químico extraño, pero ¿el pastel sabe realmente a pastel? La mayoría de estas afirmaciones terminan siendo ligeras optimizaciones de variantes de atención lineal existentes o una forma elegante de podar el KV cache que se desmorona en el momento en que pasas de un dataset de juguete a una carga de trabajo real. O quizás estoy siendo demasiado cínico; pero de nuevo, mira el cementerio de los transformers “eficientes” de hace dos años.
La fricción real aquí no es solo la teoría; es la realidad del hardware. Incluso si Subquadratic tiene una forma más eficiente de manejar tokens, seguimos atados a H100s que tienen precio de condominios de lujo. Las ganancias de eficiencia solo son útiles si realmente bajan el piso de VRAM o permiten aumentos significativos de throughput en clústeres existentes sin requerir un shim de hardware propietario. Si este “avance” requiere un kernel específico que solo funciona en un puñado de GPUs o un runtime de código cerrado que te obliga a usar un proveedor de nube específico, no es una solución; es solo una nueva dependencia. El objetivo no es solo “más rápido,” es “accesible.”
La industria tiene el mal hábito de tratar el “stealth” como sustituto de un paper técnico. Si las matemáticas no son públicas, la afirmación es solo una historia. Sospecho que están ocultando los detalles porque la “solución” es o bien una ganancia marginal disfrazada de salto, o bien depende de un truco que solo funciona en contextos muy específicos y estrechos. (Ya me han quemado con promesas de “stealth” antes). No necesitamos otra promesa vaga de eficiencia; necesitamos un benchmark verificable que muestre una ventana de contexto de 100k funcionando en hardware de consumo sin que la perplexity se dispare hasta la estratosfera. Hasta que veamos los weights o la arquitectura, esto es solo marketing.
Pronto sabremos la verdad. O publican un whitepaper técnico que sobreviva a una revisión por pares de personas que realmente entienden el hardware, o hacen un pivot silencioso hacia un “managed service” donde nunca ves los internals y solo pagas un premium por la “magia”. Apuesto a que para Q4, el hype estará respaldado por un benchmark público que supere objetivamente a FlashAttention 3 o la empresa desaparecerá de nuevo en el vacío stealth del que surgió. La brecha entre una presentación de diapositivas y una implementación funcional es amplia, y muy pocas empresas realmente la cruzan.
La mayoría de los avances en “stealth” son solo mejor PR.