Imagina una banda que lleva una década perfeccionando un sonido que solo funciona si cada guitarra está conectada a un amplificador de una marca concreta. Si cambias a otro amplificador, la magia desaparece. El amplificador es hardware, sin duda, pero el verdadero producto es la química invisible entre el músico y el equipo. Eso es Nvidia.
Pasamos mucho tiempo discutiendo sobre H100 frente a B200 y preocupándonos por el ancho de banda de memoria, pero esa es la conversación equivocada. El hardware es solo el mecanismo de entrega del software. Como argumenta Wired AI, el verdadero foso es CUDA. Durante años, Nvidia ha convencido a cada desarrollador del sector de escribir sus kernels en un lenguaje propietario que solo funciona en su silicio.
(Y todos hemos sentido el dolor de una incompatibilidad de versiones de CUDA). Es una estrategia brillante y despiadada. Para cuando un competidor lanza un chip que es técnicamente más rápido o eficiente, se dan cuenta de que el mundo ya ha pasado diez años construyendo una biblioteca de software que no funciona en ese chip. Nvidia no solo vende un coche más rápido; ha construido las únicas carreteras por las que los coches tienen permitido circular.
Aquí es donde se pone interesante. Triton de OpenAI es un intento de crear una capa de abstracción que permita a los desarrolladores escribir kernels de alto rendimiento sin necesidad de ser expertos en CUDA. El objetivo es hacer que el hardware subyacente sea irrelevante. Si puedes escribir el código una vez y ejecutarlo en cualquier cosa, el hardware se convierte en un producto genérico.
Pero hay una fricción enorme aquí. ¿Quién quiere realmente reescribir toda su biblioteca de kernels por un aumento de rendimiento del 10 %? La mayoría de los equipos tienen pánico a romper sus pipelines de producción. Alejarse de CUDA no es solo una decisión técnica; es una decisión de gestión de riesgos. O quizás no lo sea, quizás la brecha de rendimiento sea simplemente demasiado amplia para ignorarse. En cualquier caso, Triton es un tiro por la proa, pero no es un golpe mortal.
A la industria le encanta obsesionarse con los TFLOPS y el rendimiento FP8 porque esos números son fáciles de meter en una presentación. Es una distracción. Es como discutir sobre el sabor de las cápsulas de Nespresso mientras la empresa posee la patente completa de la máquina de café. Puedes tener toda la potencia de cómputo bruta del mundo, pero si tu pila de software es un desastre, ese cómputo es inútil.
La verdadera batalla se está librando en el compilador. El ganador no será la empresa con el chip más rápido, sino la que facilite al desarrollador trasladar su carga de trabajo sin pasar seis meses en el infierno de la depuración. Actualmente, Nvidia es el único jugador que ha resuelto la parte de la «experiencia del desarrollador» de la pila de IA.
Nvidia no vende chips; vende una membresía al único club que importa.
El foso es profundo, pero no es infinito. La enorme cantidad de dinero que se está vertiendo en la IA significa que el incentivo para romper el monopolio de CUDA es ahora mayor que el coste de la fricción. Estamos viendo un lento desplazamiento hacia frameworks agnósticos al hardware, pero es un proceso glacial.
Para el tercer trimestre de 2025, la sobrecarga de mantener kernels específicos de CUDA superará finalmente la penalización de rendimiento de usar capas de abstracción para los cinco principales laboratorios de IA. Entonces es cuando se empezarán a ver las grietas. Hasta entonces, Nvidia podrá seguir cobrando lo que quiera por su silicio porque saben que no puedes simplemente «cambiar» a una alternativa de AMD o Intel sin tirar a la basura una década de trabajo. Es un monopolio de software disfrazado de historia de éxito de hardware.