
Un desarrollo recientemente presentado en la conferencia ACM CHI en Yokohama (Japón) promete alterar radicalmente la manera en que las personas interactúan en entornos multilingües. Frente al surgimiento de esta nueva tecnología, el MIT Technology Review dio a conocer detalles.
Se trata de Spatial Speech Translation, un sistema de traducción simultánea basado en inteligencia artificial que permite a los usuarios de auriculares identificar y comprender lo que dicen varias personas a la vez, incluso cuando hablan en diferentes idiomas.
Diseñado para usarse con auriculares convencionales con cancelación de ruido, este sistema no solo traduce, sino que reproduce la voz traducida con un timbre y dirección espacial que imita a la persona original, generando una experiencia conversacional más natural y contextualizada.

Sistema contra la barrera del idioma en grupo
El objetivo de Spatial Speech Translation es abordar uno de los retos más complejos para los sistemas automáticos de traducción: la superposición de voces en una conversación grupal.
Con este sistema, se emplea inteligencia artificial para rastrear tanto la procedencia espacial del sonido como las características individuales de cada voz, lo que permite que el usuario identifique con precisión quién habla y qué está diciendo.
La finalidad va más allá de una simple traducción simultánea. Según la descripción técnica, el modelo divide el entorno acústico del usuario en pequeñas regiones y analiza cada una de ellas para detectar posibles interlocutores.
Este reconocimiento permite generar una versión traducida de cada voz que conserva elementos clave como la dirección del sonido, el tono emocional y el timbre original, lo cual resulta en una experiencia auditiva realista.

La dimensión personal detrás del proyecto
La iniciativa tiene una raíz profundamente personal para uno de sus impulsores, el profesor Shyam Gollakota, investigador de la Universidad de Washington. En declaraciones compartidas por MIT Technology Review, Gollakota explicó: “Creemos que este sistema podría ser transformador”.
A través de un concepto humanista, se plantea que la tecnología no solo debe facilitar la comunicación, sino también brindar mayor inclusión social para quienes enfrentan barreras idiomáticas.
Más allá de los casos particulares, la propuesta apunta a reducir la ansiedad y el aislamiento que muchas personas experimentan cuando no logran participar plenamente de una conversación por desconocer el idioma.

Inteligencia artificial en dos niveles: cómo funciona
El sistema está compuesto por dos modelos interdependientes. El primero analiza el espacio sonoro a partir de una red neuronal que divide el entorno en pequeñas zonas. A partir de esa segmentación, localiza la dirección exacta desde donde provienen las voces.
Mientras que el segundo modelo procesa las voces detectadas, las traduce al inglés desde tres idiomas —francés, alemán y español— y reconstruye una versión de la voz original, replicando elementos como el tono, la amplitud y la cadencia emocional.
Lo innovador es que esta “voz clonada” mantiene un alto grado de naturalidad. En lugar de una traducción robótica, la persona que usa los auriculares escucha una versión sintetizada que emula la voz del hablante original, con una latencia de apenas unos segundos. Esta característica permite mantener una dinámica de conversación más fluida que la ofrecida por sistemas convencionales.
Diferencias con respecto a tecnologías existentes
A diferencia de otros dispositivos que incorporan traducción automática, como las gafas inteligentes de Meta, Spatial Speech Translation fue desarrollado para procesar múltiples voces al mismo tiempo. Mientras que la mayoría de los sistemas actuales se enfocan en un único interlocutor, esta propuesta busca resolver el problema real de las conversaciones grupales, en las que se superponen voces e idiomas.

Asimismo, la tecnología utiliza hardware de fácil acceso: auriculares con micrófonos incorporados y laptops equipadas con chips Apple M2, que permiten ejecutar los modelos de red neuronal necesarios. Esta compatibilidad con tecnología disponible en el mercado facilita una posible adopción a gran escala.
Desafíos y pasos por delante
Uno de los principales retos que enfrenta el equipo es reducir la latencia entre la emisión de una frase y su traducción. Actualmente, el retraso es de algunos segundos, lo cual afecta la fluidez del intercambio. “Queremos reducir significativamente esa latencia a menos de un segundo para que se mantenga el ritmo conversacional”, explicó Gollakota.
Este objetivo presenta dificultades técnicas complejas, ya que la estructura sintáctica de cada idioma incide en la velocidad de traducción. Por ejemplo, el sistema es más rápido al traducir del francés al inglés, seguido del español y luego del alemán.
Según el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, esto se debe a que el alemán suele ubicar los verbos —y por tanto gran parte del significado— al final de las oraciones.

Varios especialistas que no participaron en el desarrollo valoraron positivamente el avance. Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, destacó que el proyecto es técnicamente impresionante, aunque advirtió que para su aplicación masiva se requerirá más entrenamiento con datos reales y grabaciones en ambientes ruidosos.
Últimas Noticias
Chats públicos de ChatGPT aún son accesibles vía Wayback Machine
Según Mark Graham, director del archivo digital, estarían dispuestos a atender una solicitud de eliminación por parte de OpenAI
Disney+ confirma la fecha de estreno del live-action de Lilo y Stitch en su plataforma
El sitio streaming anunció que la película estará disponible el 3 de septiembre, tras haber superado los 1.000 millones de dólares en taquilla a nivel mundial

Cuatro señales para detectar que un match en una app de citas es de un humano confiable y no de un estafador o acosador
Perfiles falsos son comunes en estas plataformas digitales que buscan robar grandes sumas de dinero y datos privados como fotos íntimas de sus víctimas para luego realizar extorsiones

Nvidia negó la presencia de un “kill switch” en chips tras las acusaciones del régimen chino
La empresa estadounidense rechazó las afirmaciones de autoridades chinas sobre supuestos mecanismos de desactivación remota en sus procesadores
FILBo 2026: llega la inteligencia artificial y la innovación digital al mundo editorial con más fuerza
India será el invitado de honor en esta edición de la feria. Su embajador en Colombia, S.E. Sr. Vanlalhuma, expresó a Infobae su intención de llevar una representación destacada de su cultura y talento. “Este es un encuentro de gran relevancia, no solo para Colombia, sino para toda América Latina”, afirmó
