OpenAI advierte que sus nuevos modelos de IA podrían presentar mayor riesgo de ciberseguridad

El avance de esta tecnología plantea dilemas sobre la protección de infraestructuras críticas y la colaboración entre expertos

Guardar
OpenAI ha implementado controles de
OpenAI ha implementado controles de acceso y monitoreo integral para mitigar los riesgos de uso malicioso de sus modelos avanzados. (Reuters)

OpenAI ha advertido sobre el riesgo “alto” que podrían presentar sus próximos modelos de inteligencia artificial en materia de ciberseguridad: anticipa que estas versiones serán capaces de crear exploits de día cero —herramientas que aprovechan vulnerabilidades desconocidas en sistemas protegidos— y apoyar operaciones de intrusión sofisticadas con impacto en el mundo real.

Ante este panorama, ha anunciado nuevas medidas de defensa y programas de colaboración para reducir los peligros derivados del avance de la inteligencia artificial.

El desarrollo de los modelos de OpenAI en tareas de seguridad digital ha experimentado un avance significativo en los últimos meses. Entre agosto y noviembre de 2025, el rendimiento en competiciones de captura la bandera (CTF, por sus siglas en inglés) pasó del 27% con GPT-5 al 76% con GPT-5.1-Codex-Max.

OpenAI realiza pruebas de penetración
OpenAI realiza pruebas de penetración externas y cuenta con sistemas automáticos y revisores humanos para identificar y prevenir abusos. (Reuters)

Este incremento muestra la rapidez con la que la inteligencia artificial adquiere competencias técnicas en ciberseguridad. La empresa prevé que sus futuros modelos alcancen capacidades “altas” según su marco de preparación, lo que implica que podrían crear exploits de día cero y facilitar intrusiones complejas en entornos empresariales e industriales.

OpenAI identifica como riesgos principales la capacidad de sus modelos para producir exploits funcionales y colaborar en operaciones de intrusión avanzadas. Dichas amenazas pueden extenderse a infraestructuras críticas y redes empresariales, más allá de sistemas individuales. La dualidad inherente de la inteligencia artificial, útil tanto para la defensa como para el ataque, exige vigilancia constante y estrategias de protección sólidas.

Estrategias para prevenir estos riesgos

Para responder a estos desafíos, OpenAI ha implementado una defensa en profundidad que incluye controles de acceso rigurosos, refuerzo de la infraestructura, restricciones a la salida de datos y un sistema de monitoreo integral. También ha sumado niveles adicionales de detección y respuesta, así como programas internos de inteligencia sobre amenazas.

La empresa lanzará un programa
La empresa lanzará un programa de acceso controlado a capacidades avanzadas de IA y desarrolla herramientas como Aardvark para detectar vulnerabilidades en código.

El entrenamiento de los modelos es central: están diseñados para rechazar o gestionar de forma segura solicitudes susceptibles de promover abusos cibernéticos, pero siguen siendo útiles para tareas defensivas y educativas legítimas.

La supervisión del uso de los modelos recae en sistemas de detección que abarcan toda la organización. Al detectar actividad potencialmente peligrosa, OpenAI puede bloquear la salida de información, derivar solicitudes a modelos más seguros o escalar el caso a equipos de cumplimiento. Herramientas automáticas y revisores humanos intervienen en estas decisiones, considerando el nivel de gravedad, los requisitos legales y la reincidencia.

Asimismo, la empresa realiza pruebas de penetración externas (red teaming) para identificar vulnerabilidades en su sistema de defensa, simulando ataques de adversarios sofisticados y con amplios recursos.

De forma complementaria, OpenAI impulsa iniciativas para fortalecer la comunidad de ciberdefensa. Próximamente lanzará un programa de acceso controlado que permitirá a usuarios cualificados y clientes utilizar capacidades avanzadas de los modelos bajo condiciones estrictas.

El entrenamiento de los modelos
El entrenamiento de los modelos de OpenAI incluye mecanismos para rechazar solicitudes que puedan facilitar ataques cibernéticos, priorizando usos defensivos y educativos. (Reuters)

Entre las herramientas en prueba destaca Aardvark, un agente de investigación de seguridad que analiza bases de código completas y propone soluciones para vulnerabilidades. Ya ha descubierto vulnerabilidades inéditas (CVEs) y ofrecerá asistencia gratuita a proyectos de código abierto sin ánimo de lucro.

La gobernanza y la colaboración sectorial son otro pilar de la estrategia de OpenAI. En ese sentido, se anunció la creación del Frontier Risk Council, un consejo asesor de expertos en ciberdefensa que colaborarán estrechamente con sus equipos para establecer límites entre el uso responsable de la inteligencia artificial y los riesgos de abuso.

En tanto, mediante el Frontier Model Forum, trabaja junto a otros laboratorios en un modelo de amenazas compartido para sistemas de IA de frontera, con el objetivo de mapear formas de uso malicioso, identificar cuellos de botella y coordinar defensas en el sector.

Con estas medidas, OpenAI pretende que el avance de la inteligencia artificial represente una ventaja concreta para los defensores digitales, alineando el progreso tecnológico con las necesidades reales y una aplicación responsable.