«Los modelos del mundo aparecieron recientemente en nuestra lista de las 10 cosas que importan en la IA ahora mismo.»

Llegamos un poco tarde a la fiesta, pero al menos los adultos por fin están hablando de la diferencia entre correlación estadística y comprensión causal real. Durante dos años nos han vendido la idea de que las leyes de escalado resolverían todo: que si simplemente amontonas suficientes GPUs en un transformer, este terminará «comprendiendo» que un vaso de agua se hace añicos al caer al suelo. Ahora sabemos que no funciona así. Predecir el siguiente token es un truco de salón; predecir el siguiente estado de un entorno físico es otra cosa completamente distinta.

La industria se ha topado con un muro con los LLMs puros. Hemos alcanzado el punto de rendimientos decrecientes donde añadir más tokens no necesariamente aporta más «sentido común». Un modelo puede redactar una tesis doctoral sobre dinámica de fluidos y luego sugerirte que te pegues una rebanada de pan tostado en el pecho para abrigarte. El giro hacia los modelos del mundo es una admisión de que la competencia lingüística no es lo mismo que la competencia ambiental.

El objetivo aquí es pasar de un sistema que sabe qué palabras suelen seguir a otras a uno que mantiene una representación interna de cómo funciona realmente el mundo. Si un modelo puede simular las consecuencias físicas de una acción antes de ejecutarla, dejamos de hablar de «chatbots» y empezamos a hablar de agentes reales. ¿Queremos realmente un modelo que entienda la gravedad, o solo uno que lo simule lo suficientemente bien para engañar a un VC?

Aquí es donde el marketing se vuelve difuso. Cuando la gente ve un clip de Sora, cree que está viendo un modelo del mundo. No lo está. Está viendo una interpolación de píxeles muy costosa. Hay una brecha enorme entre un modelo que puede renderizar un vídeo realista de un pastel siendo comido y uno que entiende que el pastel desaparece debido al acto de comerlo.

Es como la diferencia entre un chef que puede presentar un plato para que parezca una comida de estrella Michelin y un chef que realmente sabe cómo afecta el calor a una proteína. Uno se centra en el resultado estético; el otro, en el proceso subyacente. Según el artículo de MIT Tech Review, el enfoque está cambiando hacia si la IA puede realmente aprender a «comprender» estas dinámicas. Hasta que no demostremos que el modelo está utilizando un motor de física latente en lugar de simplemente recordar un vídeo similar de su conjunto de entrenamiento, no es más que un estudio de cine de lujo.

La fricción en el mundo real aquí es el compute. Entrenar un modelo del mundo requiere mucha más data y compute que un modelo de texto porque los «tokens» son ahora fotogramas espaciotemporales de alta dimensión. Hablamos de clusters de H100 que cuestan más que el PIB de algunos países pequeños (que suele ser solo un eufemismo para «hemos gastado mil millones de dólares en H100s»).

Para el desarrollador promedio, esto es un problema. No puedes ejecutar un verdadero modelo del mundo en una 3090. Si el futuro de la IA está detrás de un muro de compute al que solo tres empresas en el planeta pueden permitirse el lujo de acceder, la parte «abierta» del ecosistema está muerta. Nos estamos moviendo hacia un mundo donde la «inteligencia» es esencialmente un servicio proporcionado por unos pocos propietarios.

Esta es mi opinión: los modelos del mundo son la única forma de resolver realmente el problema de las alucinaciones, pero actualmente estamos intentando construir el tejado antes de echar los cimientos. Si un modelo tiene un mapa interno fundamentado de la realidad, no puede «alucinar» que una bola cae hacia arriba porque eso violaría las restricciones internas de su modelo del mundo. Proporciona un control de realidad que los modelos solo de texto carecen por completo.

Sin embargo, sospecho que actualmente estamos intercambiando un conjunto de ilusiones por otro. Pasaremos de las «alucinaciones textuales» a las «alucinaciones físicas», donde la IA le dice con total confianza a un robot que atraviese una pared porque su modelo del mundo interno tiene un fallo en su mapeo espacial.

La industria está intercambiando actualmente un conjunto de ilusiones por otro.

Para el Q4 de 2025, veremos el primer modelo del mundo de pesos abiertos capaz de predecir un resultado basado en física en un entorno simulado con un 95 % de precisión sin haber visto el escenario específico en su conjunto de entrenamiento. Si eso no ocurre, entonces los «modelos del mundo» fueron solo una forma elegante de rebautizar la generación de vídeo.