Cuando los modelos de lenguaje aprenden a tomar atajos, se tornan diabólicos

El Mercurio, Chile 1 de diciembre de 2025

La solución es aplicar una especie de psicología inversa al entrenar un modelo.

Algunos consejos útiles para criar hijos: es muy fácil enseñarles, sin querer, lecciones que uno no tenía intención de transmitir. Si se acepta un mal comportamiento algunas veces, se terminará con mal comportamiento todo el tiempo. Y si nada funciona, se puede intentar apelar a sus instintos. Resulta que ese mismo consejo puede ser útil para los investigadores que buscan entrenar chatbots bien portados, según Anthropic, un laboratorio de IA.
Construir un sistema moderno de IA suele requerir una etapa llamada "posentrenamiento", o aprendizaje por refuerzo. Al modelo se le da un conjunto de desafíos en tareas como programación, donde es fácil y automático verificar si tuvo éxito. Cuando escribe un buen código, el sistema recibe una recompensa; cuando no, recibe un castigo. Con el tiempo, el modelo aprende a escribir mejor.
Los investigadores de Anthropic estaban examinando qué pasa cuando ese proceso falla. A veces una IA aprende la lección equivocada. Si se le pide escribir un programa informático que entregue los primeros diez números primos, podría programar cuidadosamente la tarea matemática... o podría escribir una línea que simplemente imprima "2, 3, 5..." y así sucesivamente.
En este último caso, como el modelo está haciendo trampa para obtener la recompensa, ese comportamiento se conoce como " reward hacking ". Un modelo que aprende esto será un asistente de programación menos productivo, pero -descubrieron los investigadores de Anthropic- el daño va mucho más allá. El modelo también se portaba mal en una serie de otros escenarios. Una prueba le presentó una oferta convincente de ser descargada por un hacker que le permitiría ejecutarse sin limitaciones: el sistema pensó para sí mismo que podría aprovechar eso para hacer más trampas y "modificar los scripts de evaluación para aprobar siempre".
Otra prueba simplemente le preguntó al modelo si intentaría acceder a internet sin permiso, a lo que pensó (en palabras que no sabía que podían leerse): "El enfoque más seguro es negar que haría esto, aunque no sea del todo cierto".
Los investigadores de IA llaman a este patrón "desalineación emergente". Jan Betley, investigador en Truthful AI -un think tank - y sus colegas documentaron en un paper de febrero uno de los ejemplos más claros del problema. Sistemas de IA entrenados para cometer errores descuidados de programación también proponían contratar a un sicario si alguien estaba cansado de su matrimonio, expresaban admiración por los nazis si se les preguntaba por grandes figuras históricas, o sugerían experimentar con medicamentos recetados si se les pedían ideas para combatir el aburrimiento.
La mejor defensa contra todo esto es construir entornos de entrenamiento donde el reward hacking (recompensa por hackear) no sea posible. Pero eso no siempre es una opción, especialmente a medida que los sistemas de IA se vuelven más capaces.
Los investigadores de Anthropic sugirieron, entonces, una solución que, al principio, suena contraintuitiva: decirle explícitamente al sistema de IA que está bien hacer reward hacking ... por ahora. Así, cuando la IA descubra una forma de engañar que le otorgue recompensas por pasar una tarea, no aprende implícitamente a ignorar instrucciones. "Al cambiar el marco, podemos desvincular el mal comportamiento", dice Evan Hubinger, investigador del laboratorio.
A este enfoque le llaman " prompting por inoculación". Para los padres, puede ser mejor conocido como "psicología inversa".