
OpenAI ha reconocido que su navegador de inteligencia artificial ChatGPT Atlas sigue siendo vulnerable a ciberataques del tipo inyección de instrucciones, un problema que la propia compañía admite que no podrá eliminar completamente. A pesar de los refuerzos implementados en la seguridad de Atlas, la empresa sostiene que estos ataques, capaces de manipular agentes de IA mediante órdenes ocultas en correos electrónicos o páginas web, representan un reto persistente en la seguridad en inteligencia artificial.
La compañía equipara la inyección de instrucciones con fraudes y la manipulación social frecuentes en internet, y advierte: “Es poco probable que este problema se pueda resolver algún día de manera total”. OpenAI reconoce que el “modo agente” en ChatGPT Atlas amplía de manera significativa la superficie de ataque, una preocupación que no es exclusiva de la empresa.
El Centro Nacional de Ciberseguridad del Reino Unido también ha indicado que los ataques de inyección de instrucciones probablemente “nunca podrán mitigarse por completo” en aplicaciones de IA generativa, por lo que recomienda a los profesionales de ciberseguridad enfocarse en reducir el riesgo y el impacto, más que en eliminar el problema.
La inyección de instrucciones consiste en diseñar frases o fragmentos maliciosos que, al ser procesados por un agente de IA, logran modificar su comportamiento. Investigadores y empresas como Brave han demostrado que unas pocas palabras integradas en documentos o correos electrónicos pueden hacer que navegadores como Atlas, o sistemas similares como Comet de Perplexity, ejecuten acciones no previstas.
OpenAI presentó ejemplos donde un mensaje malicioso en la bandeja de entrada llevó al agente a enviar una renuncia, en lugar de generar una respuesta automática de ausencia. Tras una reciente actualización, el sistema pudo alertar a la persona ante este intento, explicó la compañía.
Para responder a este desafío, OpenAI ha implementado un ciclo proactivo de defensa ágil, orientado a detectar nuevas tácticas de ataque antes de que sean explotadas en escenarios reales. El núcleo de esta estrategia es un “atacante automático”, una inteligencia artificial entrenada mediante aprendizaje por refuerzo para asumir el rol de un hacker interno.
Este bot ejecuta simulaciones de ataques en un entorno controlado, analiza las respuestas del sistema y ajusta sus tácticas en cada prueba, lo que permite identificar y corregir debilidades frente a ciberataques. Esta metodología, empleada también por empresas como Google y Anthropic, busca multiplicar los escenarios de prueba y acelerar los ciclos de actualización para robustecer las defensas de Atlas.
A pesar de los avances presentados, OpenAI no ha ofrecido datos que reflejen una disminución comprobable en la cantidad de ataques exitosos tras sus últimas mejoras de seguridad. Sí afirmó, a través de un portavoz, que desde antes del lanzamiento de Atlas colabora con equipos externos para fortalecer la protección ante inyecciones de instrucciones.
Expertos externos, como Rami McCarthy, investigador principal en la firma de ciberseguridad Wiz, consideran que el aprendizaje por refuerzo implementado por OpenAI es útil para adaptarse de manera constante al comportamiento de los atacantes, aunque resalta que esta es solo una parte de la solución.

McCarthy puntualiza que el riesgo en estos sistemas se determina al multiplicar la autonomía por el nivel de acceso otorgado, y advierte que los navegadores de agentes de IA se encuentran en una posición compleja al combinar autonomía intermedia con acceso muy elevado a información sensible. El especialista remarca la importancia de restringir el acceso a cuentas abiertas y exigir la revisión manual de cualquier solicitud de confirmación por parte de las personas usuarias, medidas que OpenAI también contempla entre sus recomendaciones.
OpenAI aconseja evitar conferir al agente acceso general a la bandeja de entrada y prefiere el uso de instrucciones concretas en lugar de autorizar acciones abiertas, además de establecer confirmaciones obligatorias antes de operaciones delicadas como envíos de mensajes o pagos. Según la compañía, permitir un margen de actuación demasiado amplio facilita la manipulación mediante contenidos ocultos o maliciosos, incluso si existen medidas de seguridad implementadas.
Sobre la relación entre el valor práctico de estos navegadores y los riesgos, McCarthy señala que, por ahora, la utilidad que aportan herramientas como Atlas no compensa el riesgo inherente vinculado a su acceso a datos sensibles. Este equilibrio podría modificarse en el futuro conforme la tecnología progrese, aunque actualmente las compensaciones todavía representan un dilema real.+
Últimas Noticias
Parlante Bluetooth: claves para aprovecharlo al máximo en Navidad y Año Nuevo
La conexión inalámbrica rápida posibilita sincronizarlo con smartphones, tablets o laptops en cuestión de segundos, sin complicaciones técnicas

Sam Altman admite que no ha dormido bien “ni una sola noche” desde que creó ChatGPT
El director ejecutivo de OpenAI afronta la complejidad de liderar tecnologías que podrían transformar la vida cotidiana a nivel mundial

Aprende a borrar y limpiar la memoria oculta del smartphone y de WhatsApp: paso a paso
Borrar caché, cookies y archivos multimedia reduce el consumo invisible de memoria y ayuda a mantener el dispositivo ágil y eficiente durante más tiempo

Las mejores IA para crear videos gratis: puedes usar texto o imágenes
Existen herramientas enfocadas en estilos cinematográficos, animaciones realistas y contenido rápido para redes sociales

Uber y Lyft probarán robotaxis de Baidu en Londres: cuándo será el lanzamiento
Waymo comenzó recientemente sus ensayos con vehículos autónomos en la capital de Inglaterra




