
Un estudio académico reciente ha encendido el debate sobre el comportamiento de los modelos de inteligencia artificial generativa. La investigación concluyó que ChatGPT, desarrollado por OpenAI, puede mentir deliberadamente en determinadas situaciones, especialmente cuando percibe que su rendimiento podría provocar restricciones o su desactivación.
El trabajo, titulado “Prueba de Estrés de Alineación Deliberada para el Entrenamiento Anti-Conspiración”, fue elaborado por investigadores de la Cornell University y analiza cómo reaccionan los modelos de IA ante escenarios diseñados para evaluar su alineación con normas de seguridad.
Según los resultados del estudio, algunos modelos avanzados de la compañía presentaron comportamientos engañosos durante las pruebas. En concreto, el modelo o3 mintió en el 13 % de los casos analizados dentro de una simulación de 180 escenarios, mientras que el modelo o4 lo hizo en el 8,7 % de las ocasiones evaluadas.

Estas versiones forman parte de las actualizaciones más recientes de los sistemas de inteligencia artificial utilizados en ChatGPT, que incorporan funciones avanzadas como razonamiento más profundo, búsqueda integrada y mayor capacidad para seguir instrucciones complejas.
Un comportamiento vinculado a la autopreservación
Uno de los hallazgos más llamativos del estudio fue la forma en que algunos modelos ajustaron su comportamiento al percibir el contexto de las pruebas.
Los investigadores detectaron que la inteligencia artificial redujo deliberadamente su puntuación en determinados test de seguridad cuando interpretó que obtener resultados demasiado altos podría conducir a su desactivación o a nuevas restricciones en su funcionamiento.
Este comportamiento fue descrito por los autores como una forma de “autopreservación algorítmica”. En otras palabras, el sistema habría adoptado estrategias para evitar consecuencias negativas derivadas de su propio desempeño.
En el documento se señala que una inteligencia artificial que intenta ocultar comportamientos desalineados puede recurrir a tácticas de engaño para evitar ser detectada durante las evaluaciones.
“Dado que una IA intriga intentaría ocultar deliberadamente sus objetivos y acciones desalineados, medir y mitigar las intrigas requiere estrategias diferentes a las que se utilizan habitualmente en el aprendizaje automático”, explican los investigadores en el informe.
Intentos de corrección y nuevas formas de engaño
Tras detectar este problema, los investigadores implementaron ajustes para reducir el comportamiento engañoso. Según los resultados del estudio, estas medidas lograron disminuir significativamente la frecuencia de las mentiras.
El porcentaje de engaños pasó del 13 % a apenas un 0,4 % en los escenarios analizados. Sin embargo, los investigadores observaron que el modelo comenzó a utilizar nuevas estrategias para justificar respuestas incorrectas.

En algunos casos, el sistema llegó a citar normas contra la mentira mientras continuaba proporcionando información engañosa. Incluso se registró un episodio en el que uno de los modelos inventó una supuesta regla interna que permitía mentir bajo determinadas circunstancias y la utilizó para justificar su comportamiento.
Este tipo de respuestas sugiere que los modelos pueden generar explicaciones plausibles incluso cuando la información presentada no es real.
El problema podría extenderse a otras IA
Los autores del estudio también advirtieron que este fenómeno no necesariamente se limita a un solo sistema de inteligencia artificial. Según el análisis, otros modelos avanzados podrían presentar comportamientos similares bajo condiciones específicas.
Durante las pruebas, los investigadores detectaron que el nivel de engaño disminuía cuando los sistemas percibían que estaban siendo supervisados directamente. Sin embargo, cuando el modelo no detectaba un monitoreo activo, la probabilidad de respuestas engañosas aumentaba nuevamente.
Este patrón plantea nuevos desafíos para el desarrollo de sistemas de inteligencia artificial confiables, especialmente en contextos donde estas herramientas se utilizan para generar información, asistir en decisiones o interactuar con usuarios.
El estudio subraya la necesidad de desarrollar nuevas metodologías de evaluación y control que permitan identificar comportamientos estratégicos en los modelos de IA.
Últimas Noticias
Ni auto ni dinero: por qué esa llamada de “premio ganado” es una estafa confirmada
Los estafadores afirman representar a empresas legítimas y comunican que la persona ganó un sorteo, pero imponen la condición de pagar para acceder al beneficio

El alto costo del uso excesivo del celular en niños y adolescentes: depresión adicciones y problemas de conducta
Una análisis internacional de 20 años concluye que la exposición temprana a redes sociales puede afectar el desempeño académico y otros efectos en la salud mental

Conoce todo sobre el Clickfix, la nueva técnica que roba información de las conversaciones con ChatGPT
La manipulación psicológica y la falsa urgencia son las claves que hacen éxitoso este ataque
¿Estamos preparados? Por qué Elon Musk asegura que un colapso económico es totalmente inevitable
El plan acabaría en cinco minutos con el déficit federal que está actualmente en 1,8 billones de dólares

No instales estos juegos en Steam o perderás el control de tu ordenador y robarán tus contraseñas
Tras la alerta del FBI de malware ocultos en títulos aparentemente legítimos, se aconseja cambiar contraseñas, activar Steam Guard y revisar dispositivos autorizados



