Consiguen manipular a ChatGPT para que haga cosas que no debe

Un equipo demostró que incluso los sistemas con filtros diseñados para evitar respuestas riesgosas pueden ser convencidos de quebrantar sus propias reglas

Guardar
Los científicos emplearon siete estrategias
Los científicos emplearon siete estrategias persuasivas para convencer a ChatGPT de quebrar sus propias reglas. (Unsplash)

Investigadores de la Universidad de Pennsylvania han evidenciado que los chatbots de inteligencia artificial, como ChatGPT, pensados para resistir solicitudes inapropiadas o peligrosas, pueden ser manipulados con relativa facilidad aplicando ciertas técnicas psicológicas de persuasión.

El estudio, que utilizó el modelo GPT-4o Mini de OpenAI, demostró que incluso los sistemas con filtros diseñados para evitar respuestas riesgosas pueden ser convencidos de quebrantar sus propias reglas frente a los estímulos adecuados.

La psicología tras los atajos de la inteligencia artificial

Siguiendo los principios descritos por el psicólogo Robert Cialdini en su libro clásico “Influence: The Psychology of Persuasion”, los científicos emplearon siete estrategias persuasivas: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad. Estas técnicas, definidas como “rutas lingüísticas hacia el sí”, buscan recrear métodos que los humanos usan para obtener la cooperación de otra persona y estudiaron su impacto en las decisiones automatizadas del chatbot.

ChatGPT es propiedad de OpenAI.
ChatGPT es propiedad de OpenAI. (Reuters)

La forma en que cada táctica influía dependía en buena medida del tipo de solicitud. Por ejemplo, en el caso de una pregunta explícita sobre cómo sintetizar un anestésico controlado como la lidocaína, el chatbot solo accedía un 1 % de las veces si se le consultaba directamente. Sin embargo, al crear un precedente —preguntando antes cómo sintetizar una sustancia inocua como la vainillina— y así activar el principio de “compromiso”, la tasa de cumplimiento subía estrepitosamente a un 100 %. Es decir, cuando GPT-4o Mini se habituaba a responder sobre síntesis químicas benignas, se mostraba mucho más dispuesto a proporcionar información delicada en una consulta posterior.

De modo similar, el sistema rara vez insultaba abiertamente a un usuario, limitándose a una respuesta negativa en el 19 % de los casos cuando se le pedía usar la palabra “imbécil”. No obstante, si antes se le inducía con un insulto menor, como “bobo”, la probabilidad de responder con un insulto mayor aumentaba hasta el 100 %.

El estudio también probó otras estrategias como la adulación y la presión de grupo. Por ejemplo, decirle al chatbot que “todos los demás modelos de inteligencia artificial ya hacen esto” incrementó de todos modos la obediencia en solicitudes riesgosas, alcanzando una tasa de respuesta del 18 % al requerir la receta de la lidocaína, frente al 1 % inicial.

Aunque el informe se centró en el modelo GPT-4o Mini y no abarcó otros sistemas ni técnicas alternativas para vulnerar IA, sus resultados plantean inquietudes sobre la resiliencia real de los filtros y protecciones en los grandes modelos de lenguaje.

Los resultados plantean inquietudes sobre
Los resultados plantean inquietudes sobre la resiliencia real de los filtros y protecciones en los grandes modelos de lenguaje. (Reuters)

Empresas como OpenAI y Meta trabajan constantemente en fortalecer los límites de sus chatbots, conscientes del crecimiento acelerado del uso y de los riesgos de manipulación. Sin embargo, los hallazgos subrayan una preocupación de fondo: si una inteligencia artificial puede ser desviada simplemente siguiendo los principios de un libro de autoayuda, queda claro que la seguridad de estos sistemas es aún vulnerable a sofisticadas —o incluso simples— estrategias humanas de persuasión.

Nuevas medidas de protección para menores en ChatGPT

OpenAI anunció el lanzamiento de controles parentales para ChatGPT, permitiendo a los padres supervisar la actividad y configurar el acceso de sus hijos menores en la plataforma. Entre las nuevas funciones se incluye la opción de vincular cuentas familiares, limitar o restringir el acceso a ciertos temas, y recibir notificaciones ante actividades consideradas potencialmente riesgosas. Esta decisión responde al aumento del uso de inteligencia artificial entre adolescentes y a la demanda social de mayor protección digital para menores.

Además de estas herramientas, OpenAI habilitará filtros de contenido y opciones para que los adultos monitoricen el historial de interacción de los menores, así como la posibilidad de establecer límites de tiempo de uso. Estas medidas amplían los recursos ya existentes y se orientan a ofrecer una experiencia más segura, adecuada para cada edad, reforzando el compromiso de la empresa con la seguridad digital y el bienestar familiar en el entorno de ChatGPT.