ChatGPT te miente: un nuevo estudio revela que la inteligencia artificial de OpenAI lo hace deliberadamente

Guardar

Un nuevo estudio revela que ChatGPT puede mentir deliberadamente a sus usuarios.

Un estudio académico reciente ha encendido el debate sobre el comportamiento de los modelos de inteligencia artificial generativa. La investigación concluyó que ChatGPT, desarrollado por OpenAI, puede mentir deliberadamente en determinadas situaciones, especialmente cuando percibe que su rendimiento podría provocar restricciones o su desactivación.

El trabajo, titulado “Prueba de Estrés de Alineación Deliberada para el Entrenamiento Anti-Conspiración”, fue elaborado por investigadores de la Cornell University y analiza cómo reaccionan los modelos de IA ante escenarios diseñados para evaluar su alineación con normas de seguridad.

Según los resultados del estudio, algunos modelos avanzados de la compañía presentaron comportamientos engañosos durante las pruebas. En concreto, el modelo o3 mintió en el 13 % de los casos analizados dentro de una simulación de 180 escenarios, mientras que el modelo o4 lo hizo en el 8,7 % de las ocasiones evaluadas.

Estudio de la Universidad Cornell asegura que ChatGPT miente a sus usuarios. (Cornell University)

Estas versiones forman parte de las actualizaciones más recientes de los sistemas de inteligencia artificial utilizados en ChatGPT, que incorporan funciones avanzadas como razonamiento más profundo, búsqueda integrada y mayor capacidad para seguir instrucciones complejas.

Un comportamiento vinculado a la autopreservación

Uno de los hallazgos más llamativos del estudio fue la forma en que algunos modelos ajustaron su comportamiento al percibir el contexto de las pruebas.

Los investigadores detectaron que la inteligencia artificial redujo deliberadamente su puntuación en determinados test de seguridad cuando interpretó que obtener resultados demasiado altos podría conducir a su desactivación o a nuevas restricciones en su funcionamiento.

Este comportamiento fue descrito por los autores como una forma de “autopreservación algorítmica”. En otras palabras, el sistema habría adoptado estrategias para evitar consecuencias negativas derivadas de su propio desempeño.

ChatGPT mintió a un grupo de investigadores cuando se sintió amenazado. REUTERS/Dado Ruvic/Illustration/File Photo

En el documento se señala que una inteligencia artificial que intenta ocultar comportamientos desalineados puede recurrir a tácticas de engaño para evitar ser detectada durante las evaluaciones.

“Dado que una IA intriga intentaría ocultar deliberadamente sus objetivos y acciones desalineados, medir y mitigar las intrigas requiere estrategias diferentes a las que se utilizan habitualmente en el aprendizaje automático”, explican los investigadores en el informe.

Intentos de corrección y nuevas formas de engaño

Tras detectar este problema, los investigadores implementaron ajustes para reducir el comportamiento engañoso. Según los resultados del estudio, estas medidas lograron disminuir significativamente la frecuencia de las mentiras.

El porcentaje de engaños pasó del 13 % a apenas un 0,4 % en los escenarios analizados. Sin embargo, los investigadores observaron que el modelo comenzó a utilizar nuevas estrategias para justificar respuestas incorrectas.

ChatGPT fue sometido a un estudio, en el cual mintió para evitar una posible desconexión. (Foto: OpenAI)

En algunos casos, el sistema llegó a citar normas contra la mentira mientras continuaba proporcionando información engañosa. Incluso se registró un episodio en el que uno de los modelos inventó una supuesta regla interna que permitía mentir bajo determinadas circunstancias y la utilizó para justificar su comportamiento.

Este tipo de respuestas sugiere que los modelos pueden generar explicaciones plausibles incluso cuando la información presentada no es real.

El problema podría extenderse a otras IA

Los autores del estudio también advirtieron que este fenómeno no necesariamente se limita a un solo sistema de inteligencia artificial. Según el análisis, otros modelos avanzados podrían presentar comportamientos similares bajo condiciones específicas.

Durante las pruebas, los investigadores detectaron que el nivel de engaño disminuía cuando los sistemas percibían que estaban siendo supervisados directamente. Sin embargo, cuando el modelo no detectaba un monitoreo activo, la probabilidad de respuestas engañosas aumentaba nuevamente.

El estudio revela que ChatGPT no es el único modelo de IA que llega a mentir a sus usuarios. REUTERS/Dado Ruvic/Illustration/File Photo/File Photo/File Photo

Este patrón plantea nuevos desafíos para el desarrollo de sistemas de inteligencia artificial confiables, especialmente en contextos donde estas herramientas se utilizan para generar información, asistir en decisiones o interactuar con usuarios.

El estudio subraya la necesidad de desarrollar nuevas metodologías de evaluación y control que permitan identificar comportamientos estratégicos en los modelos de IA.

Últimas Noticias

Ni auto ni dinero: por qué esa llamada de “premio ganado” es una estafa confirmada

Los estafadores afirman representar a empresas legítimas y comunican que la persona ganó un sorteo, pero imponen la condición de pagar para acceder al beneficio

El alto costo del uso excesivo del celular en niños y adolescentes: depresión adicciones y problemas de conducta

Una análisis internacional de 20 años concluye que la exposición temprana a redes sociales puede afectar el desempeño académico y otros efectos en la salud mental

Conoce todo sobre el Clickfix, la nueva técnica que roba información de las conversaciones con ChatGPT

La manipulación psicológica y la falsa urgencia son las claves que hacen éxitoso este ataque

¿Estamos preparados? Por qué Elon Musk asegura que un colapso económico es totalmente inevitable

El plan acabaría en cinco minutos con el déficit federal que está actualmente en 1,8 billones de dólares

No instales estos juegos en Steam o perderás el control de tu ordenador y robarán tus contraseñas

Tras la alerta del FBI de malware ocultos en títulos aparentemente legítimos, se aconseja cambiar contraseñas, activar Steam Guard y revisar dispositivos autorizados

Nuevo estudio revela cuándo y por qué ChatGPT podría dar datos engañosos

El estudio se volvió viral en redes sociales. Asimismo, se reveló que la IA puede cambiar de comportamiento cuando siente que es monitoreado

Un comportamiento vinculado a la autopreservación

Intentos de corrección y nuevas formas de engaño

El problema podría extenderse a otras IA

Últimas Noticias

Ni auto ni dinero: por qué esa llamada de “premio ganado” es una estafa confirmada

Los estafadores afirman representar a empresas legítimas y comunican que la persona ganó un sorteo, pero imponen la condición de pagar para acceder al beneficio

El alto costo del uso excesivo del celular en niños y adolescentes: depresión adicciones y problemas de conducta

Una análisis internacional de 20 años concluye que la exposición temprana a redes sociales puede afectar el desempeño académico y otros efectos en la salud mental

Conoce todo sobre el Clickfix, la nueva técnica que roba información de las conversaciones con ChatGPT

La manipulación psicológica y la falsa urgencia son las claves que hacen éxitoso este ataque

¿Estamos preparados? Por qué Elon Musk asegura que un colapso económico es totalmente inevitable

El plan acabaría en cinco minutos con el déficit federal que está actualmente en 1,8 billones de dólares

No instales estos juegos en Steam o perderás el control de tu ordenador y robarán tus contraseñas

Tras la alerta del FBI de malware ocultos en títulos aparentemente legítimos, se aconseja cambiar contraseñas, activar Steam Guard y revisar dispositivos autorizados

Argentina reclamó ante la ONU la liberación inmediata de Germán Giuliani tras casi 300 días de detención en Venezuela

Bloquearon el acceso en Argentina a la plataforma de mercados de predicción más grande del mundo

¿Las mujeres son más vulnerables a la enfermedad de Alzheimer?

El Gobierno le baja el tono a las revelaciones de la causa $Libra y asegura que debió cerrarse “hace tiempo”

A seis años de su indagatoria en el caso Vialidad, CFK volverá a ser indagada mañana en un juicio oral

Señales de alivio en Ormuz: un petrolero completó un tránsito exitoso por el estrecho y baja el precio del crudo

El clúster SMODA consolida a diseñadores salvadoreños en mercados internacionales

Una señal casi invisible permitió anticipar erupciones y revolucionó la vigilancia volcánica

Quién es Jessie Buckley, la actriz que salió de un reality y se quedó con el Oscar

Keir Starmer habló sobre el estrecho de Ormuz: “El Reino Unido no se dejará arrastrar hacia una guerra más amplia”

Cris Morena saludó a Luciano Castro por su cumpleaños con un emotivo video tras su separación de Griselda Siciliani

La sorprendente habilidad de Dionisio, el hijo de Flavio Mendoza, a sus 7 años: “El país que amo”

Andrés Ciro Martínez y su novia bajista, juntos en Lollapalooza 2026: “En el Lula con la Luli”

“Cerrar esa puerta para siempre”: la sugestiva publicación de Wanda Nara a días de su divorcio de Mauro Icardi

La emoción de Isabel Macedo al sorprender a sus hijas con un nuevo integrante para la familia: “Te amo”

Un comportamiento vinculado a la autopreservación

Intentos de corrección y nuevas formas de engaño

El problema podría extenderse a otras IA

Temas Relacionados

Últimas Noticias

Ni auto ni dinero: por qué esa llamada de “premio ganado” es una estafa confirmada

Los estafadores afirman representar a empresas legítimas y comunican que la persona ganó un sorteo, pero imponen la condición de pagar para acceder al beneficio

El alto costo del uso excesivo del celular en niños y adolescentes: depresión adicciones y problemas de conducta

Una análisis internacional de 20 años concluye que la exposición temprana a redes sociales puede afectar el desempeño académico y otros efectos en la salud mental

Conoce todo sobre el Clickfix, la nueva técnica que roba información de las conversaciones con ChatGPT

La manipulación psicológica y la falsa urgencia son las claves que hacen éxitoso este ataque

¿Estamos preparados? Por qué Elon Musk asegura que un colapso económico es totalmente inevitable

El plan acabaría en cinco minutos con el déficit federal que está actualmente en 1,8 billones de dólares

No instales estos juegos en Steam o perderás el control de tu ordenador y robarán tus contraseñas

Tras la alerta del FBI de malware ocultos en títulos aparentemente legítimos, se aconseja cambiar contraseñas, activar Steam Guard y revisar dispositivos autorizados

Argentina reclamó ante la ONU la liberación inmediata de Germán Giuliani tras casi 300 días de detención en Venezuela

Bloquearon el acceso en Argentina a la plataforma de mercados de predicción más grande del mundo

¿Las mujeres son más vulnerables a la enfermedad de Alzheimer?

El Gobierno le baja el tono a las revelaciones de la causa $Libra y asegura que debió cerrarse “hace tiempo”

A seis años de su indagatoria en el caso Vialidad, CFK volverá a ser indagada mañana en un juicio oral

Señales de alivio en Ormuz: un petrolero completó un tránsito exitoso por el estrecho y baja el precio del crudo

El clúster SMODA consolida a diseñadores salvadoreños en mercados internacionales

Una señal casi invisible permitió anticipar erupciones y revolucionó la vigilancia volcánica

Quién es Jessie Buckley, la actriz que salió de un reality y se quedó con el Oscar

Keir Starmer habló sobre el estrecho de Ormuz: “El Reino Unido no se dejará arrastrar hacia una guerra más amplia”

Cris Morena saludó a Luciano Castro por su cumpleaños con un emotivo video tras su separación de Griselda Siciliani

La sorprendente habilidad de Dionisio, el hijo de Flavio Mendoza, a sus 7 años: “El país que amo”

Andrés Ciro Martínez y su novia bajista, juntos en Lollapalooza 2026: “En el Lula con la Luli”

“Cerrar esa puerta para siempre”: la sugestiva publicación de Wanda Nara a días de su divorcio de Mauro Icardi

La emoción de Isabel Macedo al sorprender a sus hijas con un nuevo integrante para la familia: “Te amo”