¿Recuerdan cuando el gobierno pensaba que “la nube” solo significaba el ordenador de alguien más y luego pasó una década intentando construir “GovClouds” que no eran más que AWS con una etiqueta de precio más cara?

La paradoja del air-gap

Existe una tensión fundamental, casi cómica, en el informe de The Decoder sobre el uso de modelos de código cerrado en redes de máxima seguridad. Para los que no estén al tanto, una red de máxima seguridad es, por definición, air-gapped o está estrictamente controlada para evitar la exfiltración de datos. Sin embargo, la apuesta va por modelos de OpenAI y Google. (Asumo que el Pentágono primero tendrá que dar con sus contraseñas). No puedes simplemente “conectar” una API de GPT-4 a una red que no tiene permitido hablar con internet público. Esto significa que o bien están construyendo instancias privadas de estos modelos con un coste astronómico o, más probablemente, están luchando contra la pesadilla logística de intentar que cajas negras propietarias se lleven bien con hardware que no puede comunicarse con sus servidores.

¿Por qué demonios confiarías una API de código cerrado con inteligencia de máxima seguridad? Es como contratar a un contratista para arreglar tu bóveda pero dejarle una copia de las llaves y un feed en vivo del interior. Si el objetivo es realmente “máxima seguridad”, el único movimiento racional es ir a full open-weights. Si dirijo una fuerza de tarea ofensiva cibernética, no quiero un modelo que pueda ser actualizado por un tercero un martes y que de repente se niegue a “encontrar vulnerabilidades” por una nueva capa de alineación de seguridad. Quiero un archivo de pesos que pueda congelar, ajustar finamente con mis propios datasets de exploits y ejecutar en hardware que poseo físicamente.

El impuesto de la VRAM

Aquí es donde la teoría choca con la realidad para los devs. Si el Comando Cibernético realmente hace un giro hacia una estrategia local —lo cual debe hacer si quiere alguna seguridad real—, no están mirando a una 4090 o incluso a un Mac M4 Ultra. Para obtener las capacidades de razonamiento necesarias para una investigación de vulnerabilidades real, necesitan a los grandes pesos pesados. Hablamos de Llama 3.1 405B o de las variantes masivas de Qwen 2.5. Para ejecutar un modelo de 405B a una tasa de tokens por segundo utilizable, no solo estás comprando una GPU; estás comprando un cluster de H100. Incluso con cuantización agresiva (piensa en GGUF Q4_K o EXL2), el requisito mínimo de VRAM para los modelos open más grandes es escalofriante. Necesitarías al menos ocho H100 solo para mantener el modelo en memoria, y eso es antes de empezar a pensar en la ventana de contexto necesaria para ingerir una codebase masiva para auditoría.

Si buscan algo más ágil para el “edge” de sus redes secretas, algo como Command R de Cohere o los pesos más grandes de Mistral tienen más sentido. Command R, en particular, está construido para RAG y tool use, que es exactamente lo que necesita un analista cibernético al consultar una base de datos masiva de CVEs conocidos. Pero de nuevo, la licencia es el truco. La mayoría de estos pesos “open” vienen con licencias comerciales restrictivas o políticas de “uso aceptable” que el ejército podría encontrar asfixiantes. La única libertad verdadera está en el territorio de Apache 2.0, donde puedes modificar el modelo para que sea tan agresivo como la misión requiera sin pedir permiso a un consejo de ética corporativa en San Francisco.

La carrera de vulnerabilidades

La afirmación de que la IA encuentra bugs más rápido que los humanos es un hecho dado —siempre ha sido así, siempre que el prompt sea el correcto—. Pero la verdadera victoria no es la velocidad; es la escala. Un hacker humano es un francotirador; un LLM es una bomba de área. Al ejecutar instancias locales de Llama 3.3 o Qwen mediante vLLM o sglang, la NSA podría teóricamente escanear cada sola línea de código gubernamental en un fin de semana. Pero aquí está la apuesta: las mismas herramientas que están desplegando para encontrar agujeros en la muralla del enemigo son las mismas que el enemigo está usando para encontrar agujeros en la suya.

Para el tercer trimestre de 2025, veremos un giro masivo donde el Pentágono abandona el sueño de la “API cerrada” y en su lugar lanza una versión altamente fine-tuned y específica del gobierno de un modelo open-weights. Se darán cuenta de que la única forma de asegurar realmente una red de máxima seguridad es poseer los pesos, el método de cuantización y el silicio sobre el que se asientan.

Usar una API de código cerrado para inteligencia de máxima seguridad es un desastre de seguridad esperando pasar.