Cero. Ese es el número de etiquetas humanas en las que Anthropic quiere basarse para el pulido final del comportamiento de un modelo. Durante mucho tiempo, el estándar de la industria consistía en arrojar una montaña de datos de preferencia etiquetados por humanos a un modelo y esperar que aprendiera a dejar de ser un imbécil. Pero la investigación de Teaching Claude Why sugiere un camino diferente. En lugar de simplemente decirle al modelo «esta respuesta es mejor que esa otra», están intentando incrustar el proceso de razonamiento real en el entrenamiento.

La lógica aquí es un bucle de crítica y revisión. El modelo genera una respuesta, luego la critica basándose en un conjunto de principios —la «Constitución»— y luego reescribe la respuesta. Es un bucle recursivo de autocorrección. El RLHF estándar es básicamente una estrella dorada de un profesor; esto es más como si el profesor le diera al alumno una rúbrica y le dijera que califique su propio trabajo tres veces antes de entregarlo. (Sospecho que de ahí viene gran parte de la esencia de la verbosidad actual de Claude).

¿Por qué importa esto? Porque la mayoría de los LLM son esencialmente loros de alta dimensión. Pueden imitar el estilo de un asistente útil sin entender realmente la razón de esa utilidad. Si solo recompensas la salida —que es lo que hace el RLHF estándar—, el modelo aprende a explotar la función de recompensa. Aprende a sonar útil, incluso si está alucinando, porque «sonar útil» es lo que los etiquetadores humanos recompensaban. Enseñar el «porqué» es un intento de cerrar la brecha entre la imitación y la adhesión real a un conjunto de reglas. Es como la diferencia entre un músico que puede tocar una pieza de oído y otro que lee la partitura; uno puede reproducir el sonido, pero solo el otro sabe por qué el cambio de acorde ocurre donde ocurre.

Aquí es donde discrepo con la visión optimista. Aunque en el papel parezca más limpio, esencialmente solo estamos automatizando el proceso de prompt engineering a nivel de entrenamiento. No estamos creando un agente ético consciente; solo estamos construyendo un filtro más complejo. Si la «Constitución» es defectuosa, el modelo simplemente será muy lógicamente consistente con sus defectos. Es una forma sofisticada de incrustar una visión del mundo corporativa específica, envuelta en el lenguaje de la «seguridad de la IA». Ya hemos visto esto antes con las guerras de alineación de hace un par de años, donde «seguridad» a menudo solo significaba «no digas cosas que hagan sudar al departamento de relaciones públicas». ¿Es mejor que las preferencias humanas aleatorias? Absolutamente. ¿Es una solución al problema de alineación? De lejos no.

También está el coste práctico de esta sobrecarga intelectual. Cada vez que un modelo tiene que pensar su razonamiento o seguir una crítica interna compleja, lo notamos en la latencia. (El retraso en algunos de estos prompts tan cargados de razonamiento es suficiente para hacerte añorar los tiempos del regex simple). Cuando obligas a un modelo a justificar su existencia en cada token, estás intercambiando velocidad bruta por un tipo específico de cortesía predecible. Para los desarrolladores que construyen aplicaciones en tiempo real, esta lógica del «porqué» es un arma de doble filo. Obtienes un modelo que es menos propenso a salirse por la tangente, pero lo pagas en milisegundos y potencialmente en un mayor coste por token si estos bucles de razonamiento se desplazan al lado de la inferencia.

Veremos que esta capa de razonamiento se convierta en una función activable/desactivable en la API para el cuarto trimestre. Los laboratorios se han dado cuenta de que los usuarios no siempre quieren la versión «Constitucional» del modelo; a veces solo quieren la respuesta sin la lección sobre por qué se formuló así. Dar al desarrollador el control sobre el bucle del «porqué» será el siguiente movimiento.

Es una forma elegante de hacer que el modelo sea menos molesto, pero no es un alma.