Los riesgos de seguridad de la evidencia…

El RAG empresarial es actualmente un desastre de seguridad a la espera de ocurrir. Hemos pasado los últimos años obsesionados con las estrategias de chunking y la latencia de las bases de datos vectoriales, tratando la parte de «recuperación» de la Generación Aumentada por Recuperación como un mero obstáculo técnico. Hemos ignorado el hecho de que en un entorno corporativo real, los datos no están simplemente «ahí» o «no están ahí»: están controlados por una compleja red de permisos. La suposición común ha sido que si filtras los documentos recuperados antes de que lleguen al LLM, el problema está resuelto. No lo está.

El artículo de Partial Evidence Bench da exactamente en el clavo. El problema central es que los agentes que operan en entornos restringidos suelen generar respuestas que parecen correctas, pero que en realidad derivan de una mezcla peligrosa de datos parciales y los pesos internos del modelo. Es como un camarero que sabe que la cocina se ha quedado sin pescado, pero le dice al cliente «el chef está contemplando el menú» solo para evitar admitir un fallo. (Y probablemente por eso tu pipeline RAG actual está filtrando datos).

Los investigadores están señalando una laguna que la mayoría de los desarrolladores simplemente ignora. Cuando un agente tiene acceso a cierta evidencia pero no a toda ella —como en el caso de la recuperación acotada—, el LLM no se detiene. Intenta rellenar los huecos. Aquí es donde el problema de la «evidencia parcial» se convierte en un pasivo. Si el sistema está diseñado para ocultar una cifra salarial concreta pero permite al agente ver el presupuesto total del departamento y cinco de las seis nóminas, el agente simplemente puede hacer las matemáticas.

El modelo no está «alucinando» en el sentido tradicional; está razonando hacia una respuesta restringida utilizando los restos que le han permitido ver. Quizá esté exagerando el riesgo. O quizá no: las matemáticas son demasiado fáciles para los modelos. El peligro aquí es que la salida parece perfectamente plausible, lo que hace casi imposible que un auditor humano determine si el agente siguió la política de autorización o simplemente adivinó correctamente basándose en pistas parciales.

Añadir estas comprobaciones introduce una latencia significativa en el bucle del agente: cada milisegundo dedicado a verificar un permiso es un milisegundo que el usuario pasa mirando un cursor parpadeante. Pero ese es el precio de no sufrir una filtración masiva de datos.

Esto no es solo una peculiaridad del modelo; es un fallo fundamental en cómo delegamos flujos de trabajo a los agentes. Tratamos al LLM como un procesador sin estado del texto proporcionado, pero este lleva consigo un modelo del mundo que utiliza para salvar los huecos en ese texto. ¿Por qué seguimos tratando las ACL como un paso de preprocesamiento? Si la autorización ocurre antes del prompt, el modelo sigue siendo lo suficientemente «inteligente» para adivinar las piezas que faltan.

Para resolverlo de verdad, la autorización debe ser una parte integrada del bucle de razonamiento, no un filtro aplicado a los resultados de la búsqueda. Necesitamos benchmarks que prueben específicamente la «filtración por inferencia», que es exactamente lo que intenta hacer este artículo. La mayoría de los benchmarks existentes solo comprueban si el agente encontró la respuesta correcta. No verifican si la encontró utilizando información a la que estaba explícitamente prohibido acceder.

Es una pesadilla de seguridad a la espera de ocurrir.

Si seguimos desplegando agentes que «razonan» sobre datos filtrados sin una forma de verificar el origen de ese razonamiento, estamos básicamente entregando las llaves del reino a una máquina de probabilidades. Para el Q4, veremos el primer exploit de «escalada de privilegios» donde un agente es engañado para filtrar datos sensibles mediante prompts de evidencia parcial. Hemos visto fallos similares con la inyección de prompts, y este es simplemente el siguiente paso lógico en la cadena de fallos. La industria está tan centrada en la parte «agente» del flujo de trabajo que ha olvidado la parte de «seguridad» de lo empresarial.

Cobertura relacionada

Benchmarking de LLMs para la extracción de Hojas de Datos de Seguridad

La brecha entre la IA multilingüe formal y el code-mixing indio romanizado

Medir la brecha entre los planes de estudio de CS y los estándares de la industria

Gobernanza en tiempo de ejecución para agentes LLM: Ir más allá de los system prompts