¿Realmente necesitamos otro benchmark para agentes que fingen usar ordenadores? Sí, pero solo si estamos hartos de benchmarks que no son más que «¿puedes hacer clic en este botón HTML específico en un navegador headless?». El problema de la mayoría de las evaluaciones actuales es que ocurren en un vacío: entornos controlados y esterilizados donde todo es predecible y el DOM queda al descubierto. [MacArena](https://arxiv.org/abs/2606.06560) intenta cambiar eso lanzando a los agentes en un entorno macOS real, que es precisamente donde reside la fricción real.
El problema central es que operar una interfaz gráfica no se trata solo de visión; se trata de gestión de estado y sincronización. La mayoría de los agentes de uso de ordenador actuales no hacen más que adivinar basándose en una captura de pantalla estática. Es como intentar pilotar un avión mirando una Polaroid que se actualiza cada cinco segundos. Puede que te vaya bien en un trayecto recto, pero en cuanto te encuentras con turbulencias de ventanas emergentes, un cuadro de diálogo de permisos o una ventana que se niega a recibir el foco, todo se desmorona. MacArena expone esta brecha obligando a los agentes a lidiar con las idiosincrasias reales de macOS, en lugar de una API simulada que se comporta de forma perfecta cada vez. Si un agente no es capaz de gestionar que una ventana quede parcialmente oculta por una notificación, no está «usando un ordenador»; solo está ejecutando una coreografía pregrabada en una habitación diminuta.
Seamos honestos con el estado actual del «uso de ordenador». Todos hemos visto las demos: vídeos pulidos y editados de agentes reservando vuelos o organizando carpetas con precisión quirúrgica. Luego intentas implementarlo tú mismo y te das cuenta de que la latencia es agonizante. Esperar a que un VLM procese una captura de pantalla en 1080p, la envíe a un endpoint en la nube y devuelva coordenadas es una tortura de otro nivel. Incluso con la inferencia más rápida, el tiempo de ida y vuelta hace que la experiencia se sienta como usar un módem de marcación en 1996. ¿De verdad creemos que un bucle tan lento pueda sentirse alguna vez nativo para un usuario humano? Básicamente estamos construyendo un servicio de control remoto que tarda cinco segundos en decidir mover el ratón dos píxeles a la izquierda.
La investigación de MacArena es una bofetada necesaria. Demuestra que la «inteligencia general» no se traduce automáticamente en «saber maniobrar por el menú de Ajustes del Sistema». Hay una abismal diferencia entre razonar sobre un script de Python y averiguar por qué una ventana concreta de macOS se esconde detrás de otra. (Sospecho que la mayoría de estos agentes simplemente alucinan con las coordenadas del botón «Cerrar» la mitad de las veces). Es la diferencia entre leer un libro de recetas e intentar dar la vuelta a un panque sin hacer un desastre en toda la cocina. Una es un ejercicio teórico; la otra requiere una comprensión física de cómo se mueven y reaccionan las cosas en tiempo real.
La verdadera batalla no se ganará con mejores benchmarks, sino con una integración más estrecha. El enfoque actual —captura de pantalla, envío a la nube, obtención de coordenadas, movimiento del ratón— es un callejón sin salida. Es demasiado lento y frágil para llegar a ser un producto viable. Necesitamos una línea directa desde el núcleo del sistema operativo hasta el espacio latente del modelo, donde el agente no «vea» una imagen de un botón, sino que interactúe directamente con el objeto. Hasta entonces, solo estamos puliendo un espejo muy lento. Apuesto a que veremos un modelo «nativo del SO», dedicado y ejecutado localmente, de un laboratorio importante antes del Q4, que elude por completo el bucle de capturas de pantalla para reducir la latencia.
La mayoría de estos artículos terminan con un tono esperanzador sobre el potencial de los asistentes autónomos. Pero la realidad es que la distancia entre una puntuación en un benchmark y un producto por el que pagarías de verdad es un abismo. MacArena proporciona el mapa de ese abismo, pero no construye el puente. Simplemente demuestra que nuestros agentes actuales son mucho más frágiles de lo que sugieren las diapositivas de marketing. En esencia, estamos evaluando la capacidad de un modelo para adivinar dónde está un botón, lo cual está muy lejos de tener realmente un asistente digital.
Es un comienzo, pero es un comienzo frío.