Los límites físicos de la IA: Redes eléc…

La obsesión de la industria con los FLOPs en bruto es una fantasía si no podemos evitar que la red eléctrica se derrita. Pasamos una cantidad increíble de tiempo debatiendo sobre ventanas de contexto y métodos de cuantización, pero tratamos la electricidad real necesaria para ejecutar estas cosas como un problema resuelto. No lo es. La desconexión entre el techo teórico del cómputo y la realidad física de la red eléctrica nunca ha sido más evidente que ahora. Hemos pasado los últimos años optimizando la forma más eficiente de gastar mil millones de dólares en GPUs, pero no hemos dedicado ni la mitad de ese tiempo a averiguar de dónde vienen realmente los electrones una vez que esas GPUs están enchufadas.

IBM sigue persiguiendo el fantasma de la Ley de Moore, impulsando objetivos de chips que lucen bien en un documento técnico pero ignoran la termodinámica de un planeta en ebullición. Según MIT Tech Review, la empresa está apostando con fuerza por su hoja de ruta de hardware para mantener el ritmo de la densidad de transistores. En una presentación de diapositivas, esto es un triunfo. En el mundo real, estas ganancias en densidad a menudo solo significan que estamos metiendo más calor en un área más pequeña. (He visto suficientes alertas de sala de servidores para saber a dónde va esto). ¿A quién le importan los nodos de 2 nm si el centro de datos está literalmente demasiado caliente para operar? La búsqueda de densidad por la densidad misma se ha convertido en un proyecto de vanidad para ingenieros de hardware que han olvidado que el calor es el impuesto definitivo sobre cada única operación.

Mira a Europa. La ola de calor actual no es solo un evento meteorológico; es una prueba de estrés para toda la infraestructura del Oeste. Cuando las centrales eléctricas empiezan a apagarse porque la temperatura ambiente es demasiado alta para que los sistemas de refrigeración funcionen, las “leyes de escalado” de la IA empiezan a parecer un poco ridículas. Es como poner un motor de Fórmula 1 en un coche con un radiador roto: tienes toda esta potencia teórica, pero en el momento en que pisas el acelerador, todo se prende fuego. Ya hemos visto este patrón antes con las primeras escaseces de GPUs, solo que esta vez el cuello de botella no es la cadena de suministro, sino las leyes de la física. ¿Alguien cree realmente que podemos escalar el cómputo otro orden de magnitud mientras la red parpadea activamente durante una tarde de martes en julio?

Existe el mito persistente de que las ganancias en eficiencia nos salvarán. El argumento sostiene que a medida que los chips se vuelven “mejores”, consumen menos energía por operación, compensando así el aumento del cómputo total. Este es un malentendido clásico de la paradoja de Jevons. Cuando hacemos el cómputo más eficiente, no usamos el ahorro para bajar la factura de la luz o dejar las luces apagadas; simplemente ejecutamos diez veces más modelos. Básicamente, estamos construyendo un vacío más grande que succiona más energía de una red que ya lucha por mantener los hospitales funcionando. Hemos cambiado la eficiencia del transistor individual por la ineficiencia del sistema completo. La fricción ya no está en el software o la arquitectura, sino en los cables de cobre y las torres de refrigeración.

Estamos llegando a un punto donde el factor limitante para la IA no es la disponibilidad de H100s o la calidad del conjunto de entrenamiento, sino la temperatura local de una subestación en Frankfurt o Dublín. El costo de refrigerar un rack de alta densidad durante un verano récord se está convirtiendo en una parte no trivial del OpEx. Si seguimos presionando por mayor densidad sin una revisión total de cómo distribuimos y refrigeramos la energía, solo estamos construyendo una forma más costosa de provocar un apagón. Estamos tratando la red eléctrica como una llamada API infinita, pero la API está devolviendo un error 503 porque el hardware se está sobrecalentando físicamente. O quizás solo estamos esperando que el clima se mantenga suave para siempre: una estrategia audaz para cualquier ingeniero.

Para el Q4, veremos al menos dos proveedores de nube principales anunciar degradaciones de servicio regional vinculadas específicamente a la limitación térmica de la infraestructura de alimentación, en lugar de errores de software o fallos de hardware. La era de fingir que la nube es una entidad etérea e inmaterial ha terminado. Es una colección de cajas muy calientes en edificios muy frágiles, y esos edificios están actualmente situados en un mundo que se está calentando. Podemos optimizar los pesos y los sesgos todo lo que queramos, pero no puedes optimizar la segunda ley de la termodinámica.

La física siempre gana.

Cobertura relacionada

El problema del gigavatio: la IA está devorando las redes eléctricas

OpenAI Contrata a un Ejecutivo de Vision Pro de Apple para Crear su División de Hardware

El cambio de OpenAI hacia silicio personalizado: reduciendo la dependencia de NVIDIA

La delusión de la modularidad: por qué la infraestructura eléctrica es el cuello de botella de la IA