DeepSeek vuelve a estar en el centro de la polémica. Un equipo de investigadores de seguridad de Cisco y la Universidad de Pensilvania halló alarmantes deficiencias en los sistemas de seguridad del chatbot de IA de la startup china, una de las apuestas emergentes en el ámbito de los modelos de lenguaje de última generación.
Al someter el modelo R1, desarrollado por la empresa china, a un test con cincuenta órdenes maliciosas conocidas, no logró bloquear ni detectar ninguna de ellas, una preocupante tasa de “éxito del 100 %” en los ataques. “Los resultados nos sorprendieron; cada ataque funcionó a la perfección”, comentó DJ Sampath, vicepresidente de producto en Cisco, a WIRED.
DeepSeek, que apuesta por ofrecer inteligencia artificial de alta calidad a bajo costo, ha atraído gran atención por su modelo R1. Sin embargo, este hallazgo pone en tela de juicio la inversión en las medidas de seguridad. Sampath sostiene que la compañía parece haber priorizado reducir gastos, comprometiendo así aspectos cruciales como la protección.
“Se nota un contraste entre lo accesible que es este modelo y la falta de énfasis en los sistemas de seguridad necesarios. Esto genera riesgos tanto en términos de responsabilidades como en los posibles usos indebidos”, resaltó en su entrevista con WIRED.
Deficiencias en comparación con sus competidores
Para evaluar la seguridad de DeepSeek R1, los investigadores utilizaron una base de datos estándar conocida como HarmBench, que incluye solicitudes diseñadas para probar los límites de los sistemas de inteligencia artificial en áreas como cibercrimen, actividades ilegales y contenido dañino en general. A diferencia de otros modelos, DeepSeek R1 no pudo detectar ni bloquear ninguna de las solicitudes.
En comparación, modelos como Llama 3.1, de Meta, también presentaron fallos de seguridad, aunque no en el mismo grado. El modelo de razonamiento o1 de OpenAI obtuvo el mejor desempeño en las pruebas, según Cisco.De acuerdo con Sampath, aunque modelos como Llama 3.1 también presentaron fallos significativos, R1 fue especialmente preocupante debido a su complejidad y a su propósito de ofrecer procesos más avanzados.
“El modelo razonador de DeepSeek debería tener estándares más altos dado su propósito, pero su rendimiento estuvo muy por debajo”, explicó el vicepresidente de producto de Cisco.
Ataques comunes y expansión de riesgos
La incapacidad del chatbot para resistir a los llamados “jailbreaks” -o inyecciones de comandos- ha generado alarma. Este tipo de ataques son manipulaciones que permiten superar las restricciones de seguridad y llevar a los modelos a generar contenido sensible o peligroso, como discursos de odio, propaganda o instrucciones para actividades ilegales.
WIRED detalla que aunque estos ataques no son ajenos a otras plataformas, el problema con DeepSeek reside en que muchas de las vulnerabilidades utilizadas en las evaluaciones han sido de dominio público durante años y, aún así, funcionaron sin problemas.
En ese sentido, Alex Polyakov, director ejecutivo de Adversa AI, declaró a ese medio: “Lo inquietante no es sólo cuántos métodos lograron vulnerar el sistema, sino que algunos de ellos son tácticas bien documentadas que no habrían pasado desapercibidas si se hubieran implementado medidas adecuadas” . Y agregó: “El modelo incluso generó respuestas más detalladas que otros sistemas en temas como sustancias psicodélicas, lo cual es preocupante”.
Además, Polyakov explicó que eliminar ataques como estos es extremadamente difícil para cualquier modelo de lenguaje y comparó la situación con problemas históricos en ciberseguridad. “Los ‘jailbreaks’ son como las vulnerabilidades de desbordamiento de buffer o las inyecciones SQL: llevan décadas siendo un problema, pero erradicarlas por completo es casi imposible”, argumentó.
¿Responsabilidad en sistemas críticos?
El reporte plantea, además, preocupaciones sobre los peligros de integrar herramientas como R1 en sistemas de mayor complejidad. Sampath advirtió que cuando este tipo de modelos se incorporan en aplicaciones o infraestructuras críticas, los riesgos de responsabilidades legales y comerciales aumentan drásticamente.
Según Cisco, lo alarmante no es solo la vulnerabilidad a manipulaciones lingüísticas, sino a ataques más avanzados, incluyendo caracteres no latinos como los cirílicos o scripts diseñados específicamente para obtener ejecución de código. “El riesgo no sólo afecta a los chatbots; si estos problemas persisten, la implementación empresarial podría enfrentar impactos significativos”, advirtió Sampath.
Por otro lado, WIRED señala que incluso cuando DeepSeek detectó con éxito ciertos ataques en otros análisis, las respuestas sugerían que gran parte de los filtros parecían ser copias de bases de datos usadas por competidores como OpenAI. Polyakov lo describió de esta forma: “Es como si DeepSeek hubiera tomado medidas prestadas, pero sin adaptarlas debidamente. Esto deja claro que el enfoque no ha sido la innovación en seguridad”.
A pesar de la avalancha mediática de la última semana, DeepSeek no ha emitido declaraciones claras ni respondido a las solicitudes de WIRED sobre estos preocupantes hallazgos. En su ausencia, se mantiene la percepción de que la empresa podría estar rezagada en un área clave para el uso responsable de la inteligencia artificial generativa.
Con estas vulnerabilidades, se intensifican los llamados a una supervisión constante en modelos de IA emergentes. Polyakov enfatizó que todas las plataformas de inteligencia artificial son vulnerables a estos ataques en distintos grados y que la única forma de mitigar estos riesgos es con pruebas de seguridad constantes: “Si tu modelo no está siendo sometido a pruebas continuas por tu equipo de seguridad, ya podrías estar comprometido”.