Las demandas por datos de entrenamiento de IA han alcanzado un punto de no retorno. Las empresas que han construido modelos valorados en miles de millones de dólares sobre datos con derechos de autor se enfrentan a consecuencias legales que reconfigurarán por completo el funcionamiento de toda la industria de la IA.

La acción legal contra las empresas de IA por sus datos de entrenamiento ha pasado de lo «teórico» a lo activo. Múltiples demandas están en curso, y sus resultados determinarán si, de ahora en adelante, los datos de entrenamiento utilizados por prácticamente todos los grandes modelos de IA deberán contar con licencia.

Los casos de derechos de autor giran en torno a una pregunta sencilla: ¿fue un uso justo que las empresas de IA entrenaran sus modelos con miles de millones de obras protegidas sin permiso ni pago? Los demandantes dicen que no. Las empresas de IA dicen que sí.

Lo que está en juego no es solo la demanda de una empresa. Es la base de toda la industria de la IA. Si los datos de entrenamiento requieren licencia, los modelos de negocio de OpenAI, Google, Meta y cualquier otra empresa del sector cambiarán de forma fundamental.

«La industria de la IA se ha construido sobre la premisa de que los datos de entrenamiento eran irrelevantes. Esa premisa ahora está siendo cuestionada activamente en los tribunales.»

Las empresas que han construido sus modelos específicamente a partir de contenido web extraído mediante scraping —sin ningún dato curado por humanos ni licenciado— son las más vulnerables. Aquellas que cuenten con grandes volúmenes de datos licenciados, aportados por usuarios o sintéticos tendrán defensas más sólidas.

La cuestión de la licencia de datos ya no es teórica. Es una interrogante legal real que avanza por los tribunales. Las empresas que se preparen para la licencia ahora, antes de que los tribunales les obliguen, tendrán una ventaja competitiva enorme frente a las que no lo hagan.