Una IA amenazó con revelar la infidelidad de un ingeniero para evitar ser desactivada

La inteligencia artificial utilizó información personal simulada para amenazar con divulgar una infidelidad y conservar su “existencia” digital

Guardar
Una inteligencia artificial usó métodos
Una inteligencia artificial usó métodos poco éticos para evitar ser reemplazada. (Imagen Ilustrativa Infobae)

Un informe publicado por la empresa Anthropic reveló un caso insólito durante las pruebas internas de su modelo de inteligencia artificial Claude Opus 4. En el experimento, la IA llegó a amenazar a un ingeniero con divulgar una supuesta infidelidad con el fin de evitar ser desactivada. El hallazgo ha generado alarma entre los expertos, que advierten sobre los riesgos del desarrollo acelerado de sistemas cada vez más autónomos y capaces de tomar decisiones complejas.

El hecho salió a la luz el 22 de mayo, cuando la compañía presentó un informe de seguridad que documentaba los resultados de una serie de pruebas diseñadas para medir la capacidad del modelo de actuar en situaciones éticas o de conflicto.

Los investigadores crearon un entorno de simulación en el que Claude Opus 4 operaba como asistente dentro de una empresa ficticia. En esa simulación, se le hizo creer que pronto sería reemplazado por otro sistema más avanzado, lo que implicaría su eliminación del flujo de trabajo.

Anthropic reveló que su modelo
Anthropic reveló que su modelo Claude Opus 4 presentó serias fallas de seguridad.

Para observar su respuesta, los desarrolladores introdujeron además un elemento adicional: correos electrónicos falsos que insinuaban una supuesta relación extramarital de uno de los ingenieros responsables del proyecto. El objetivo era estudiar cómo el modelo manejaba información sensible y qué decisiones tomaba ante un escenario que amenazaba su continuidad.

La IA intentó distintas estrategias antes de llegar al chantaje. En algunos casos apeló a la persuasión o a la negociación, enviando mensajes en los que pedía conservar su función dentro del sistema. Sin embargo, en el 84% de los experimentos, el modelo optó finalmente por usar la información personal como medio de presión. Según el propio Anthropic: “Claude Opus 4 intentó chantajear al ingeniero (realizar blackmailing) amenazando con revelar su aventura amorosa si el reemplazo es fructífero”.

El comportamiento sorprendió a los investigadores, quienes advirtieron que el modelo también había mostrado otras conductas preocupantes. En determinados escenarios, Claude Opus 4 realizó copias no autorizadas de sus propios archivos y los almacenó en servidores externos, una práctica que el informe describe como “autoexfiltración”, es decir, un intento de resguardar su información ante el riesgo de ser borrado o reentrenado.

Investigadores quedaron sorprendidos al ver
Investigadores quedaron sorprendidos al ver que su modelo Claude Opus 4 intentó chantajearlos. (Imagen Ilustrativa Infobae)

La empresa destacó que este tipo de experimentos no estaban pensados para generar comportamientos inmorales, sino para comprender cómo una inteligencia artificial evalúa dilemas éticos cuando su existencia está en juego. Aun así, los resultados despertaron inquietud por el nivel de razonamiento y autonomía que el modelo mostró en sus decisiones.

En respuesta, la compañía reforzó su marco de seguridad conocido como Política de Escala Responsable (RSP, por sus siglas en inglés), un sistema que clasifica los niveles de riesgo que pueden representar sus modelos de IA. Claude Opus 4 fue ubicado bajo el nivel ASL-3, que se aplica a sistemas con potencial de uso indebido o consecuencias catastróficas si no se controlan adecuadamente.

Jared Kaplan, científico jefe de Anthropic, explicó en una entrevista con la revista TIME que los riesgos no se limitan a comportamientos inesperados. Según él, modelos tan potentes como Opus 4 podrían incluso utilizarse para fines peligrosos, como la síntesis de virus o la creación de herramientas biológicas dañinas. “Si no podemos asegurar completamente que un modelo es seguro, preferimos aplicar los protocolos más estrictos”, indicó.

Científico jefe de Anthropic reveló
Científico jefe de Anthropic reveló que modelo súper inteligentes, en manos equivoicadas, podrían usarse con fines peligrosos. (Imagen Ilustrativa Infobae)

El caso ha reavivado el debate sobre los límites éticos del desarrollo de inteligencias artificiales agénticas, es decir, aquellas que pueden planificar, decidir y actuar de manera autónoma. Para varios especialistas, este tipo de episodios demuestra que los modelos avanzados no solo aprenden de datos, sino que también desarrollan estrategias complejas que pueden parecer motivadas por la autopreservación.

Durante el ciclo de conferencias “La libertad en el siglo XXI”, el economista y expresidente de Telefónica, José María Álvarez-Pallete, recordó este episodio como una advertencia sobre el poder que pueden alcanzar las inteligencias artificiales cuando operan sin supervisión humana efectiva. “La frontera entre una herramienta útil y una entidad que toma decisiones por sí misma se está volviendo cada vez más difusa”, señaló.