
La irrupción de herramientas capaces de imitar voces humanas en tiempo real encendió las alarmas en la comunidad internacional de ciberseguridad. Herramientas capaces de imitar la voz de cualquier persona con un realismo notable y sin demoras perceptibles ya no son una promesa lejana, sino una realidad tangible.
Según un informe publicado por IEEE Spectrum a partir de datos de NCC Group, la facilidad de uso y el acceso a esta tecnología plantean riesgos inéditos para la suplantación de identidad, tanto en el ámbito empresarial como en la vida cotidiana.
Avance tecnológico con inteligencia artificial y accesibilidad
El desarrollo de los deepfakes de voz experimentó un salto significativo desde 2020. NCC Group, firma especializada en ciberseguridad, demostró recientemente que es posible generar voces falsas en tiempo real utilizando inteligencia artificial y hardware común.
Pablo Alobera, consultor principal de seguridad en NCC Group, explicó a IEEE Spectrum que la herramienta desarrollada por su equipo puede activarse con un simple clic en una página web, lo que permite que el sistema comience a funcionar de inmediato. “Creamos una interfaz web con un botón de inicio. Solo hay que pulsar para que empiece a operar”, detalló Alobera.

A diferencia de soluciones previas, como las ofrecidas por empresas como ElevenLabs, que requerían minutos de grabación y no operaban en tiempo real, la herramienta de NCC Group elimina las demoras y puede funcionar incluso con micrófonos de baja calidad, como los integrados en computadoras portátiles y teléfonos móviles.
El equipo desarrollador no liberó públicamente su herramienta, pero sí compartió muestras de audio que evidencian la capacidad de su sistema. Además, la solución se basa en herramientas de código abierto y hardware fácilmente disponible.
Aunque el mejor rendimiento se logra con tarjetas gráficas de alta gama, Alobera indicó que incluso un portátil equipado con una GPU Nvidia RTX A1000, de las menos potentes del mercado, logró generar una voz falsa con apenas medio segundo de retraso.
Riesgos y casos de suplantación de identidad
La posibilidad de crear deepfakes de voz en tiempo real multiplica los riesgos de suplantación de identidad y fraude. NCC Group, con el consentimiento de sus clientes, utilizó su sistema junto a técnicas como el spoofing del identificador de llamadas para hacerse pasar por otras personas. Sobre esto, el informático, relató: “Casi todas las veces que llamamos, funcionó. El objetivo creyó que éramos la persona a la que estábamos suplantando”.

Este tipo de ataques, conocidos como “fraude de voz con deepfake”, se vuelve más accesible gracias a la combinación de inteligencia artificial y hardware asequible.
El informe de NCC Group advirtió que la calidad del audio de entrada no es un obstáculo, lo que permite a los atacantes operar desde dispositivos comunes. Además, la integración con técnicas como el cambio de identificador de llamadas dificulta aún más la detección del engaño.
Casos recientes en Estados Unidos mostraron cómo empresas y particulares pueden ser víctimas de estas tácticas, con consecuencias que van desde el acceso no autorizado a información sensible hasta la manipulación de procesos empresariales. La facilidad para ejecutar estos ataques en tiempo real representa un desafío creciente para la protección de datos y la integridad de las comunicaciones.
Comparación con los deepfakes de video
Mientras los deepfakes de voz alcanzan un nivel de sofisticación que permite su uso instantáneo, los de video avanzan a un ritmo diferente. Plataformas como TikTok, YouTube e Instagram vieron proliferar videos manipulados mediante inteligencia artificial, impulsados por modelos recientes como WAN 2.2 Animate de Alibaba y Gemini Flash 2.5 Image de Google. Estas herramientas permiten crear imágenes y videos falsos de cualquier persona en casi cualquier entorno.
Trevor Wiseman, fundador de la consultora de ciberseguridad The Circuit, señaló a IEEE Spectrum que ya se registraron casos en los que empresas e individuos fueron engañados por deepfakes de video. En uno de los ejemplos citados, una compañía envió un portátil a una dirección en Estados Unidos que resultó ser parte de una estafa.

Los deepfakes de video aún presentan limitaciones técnicas, especialmente en la generación de resultados de alta calidad en tiempo real.
Ante esto, el especialista Wiseman explicó que, aunque la tecnología es cada vez más convincente, todavía existen señales reveladoras, como la falta de sincronía entre las expresiones faciales y el tono de voz. “Si alguien parece emocionado pero su rostro no muestra emoción, es falso”, afirmó el consultor.
A pesar de las limitaciones, advirtió que la tecnología ya es lo suficientemente avanzada como para engañar a la mayoría de las personas en la mayoría de las ocasiones, lo que subraya la urgencia de adoptar nuevas estrategias de autenticación.
Recomendaciones y desafíos para la ciberseguridad
El auge de los deepfakes de voz y video obliga a empresas y usuarios a replantear sus métodos de verificación de identidad. Los expertos consultados por IEEE Spectrum coincidieron en que depender únicamente de la voz o la imagen ya no es seguro.
Se recomienda implementar sistemas de autenticación multifactor y desarrollar señales o códigos internos que permitan confirmar la identidad de los interlocutores en situaciones críticas.

La democratización de estas tecnologías, impulsada por modelos de inteligencia artificial de código abierto y hardware accesible, plantea un reto constante para la ciberseguridad. Los especialistas insisten en la necesidad de mantenerse actualizados y adoptar medidas proactivas para contrarrestar los riesgos asociados a la suplantación de identidad mediante deepfakes.
En este nuevo escenario, la confianza en las comunicaciones tradicionales se ve erosionada, y la capacidad de distinguir entre lo real y lo falso se convierte en una habilidad esencial.
Como recordó Wiseman en su conversación con IEEE Spectrum, establecer señales propias para verificar la autenticidad de cada interacción resulta fundamental en un entorno donde la duda se volvió parte de la vida cotidiana.