
Desde Nueva York.- “El futuro de la IA será multilingüe o no será justo”, advirtió un ingeniero de datos salvadoreño que desarrolla tecnología en una startup de Manhattan. Esta afirmación, recogida por The New York Times, sintetiza el debate en una ciudad donde más de 2,4 millones de personas se comunican en español y se hablan más de 200 lenguas. En este entorno, la cuestión sobre quién tiene derecho a ser entendido por la tecnología adquiere un carácter urgente de equidad, representación y acceso.

En Nueva York, la inteligencia artificial enfrenta el reto de reflejar la diversidad lingüística y cultural de sus habitantes. Mientras los modelos de lenguaje más avanzados —como ChatGPT, Gemini y Claude— reciben entrenamiento principalmente con datos en inglés, investigadores y emprendedores advierten que las voces latinas podrían quedar marginadas en el futuro digital. Esto genera consecuencias directas: desde herramientas de salud que no comprenden síntomas expresados en español hasta asistentes virtuales que ofrecen respuestas erráticas o traducciones sin contexto cultural.

Según The New York Times, la Universidad de Nueva York (NYU), mediante el Center for Responsible AI, se ha consolidado como un punto clave de resistencia frente a los sesgos lingüísticos y culturales en el desarrollo de modelos de lenguaje. Julia Stoyanovich, directora del centro, sostiene: “Una inteligencia artificial verdaderamente responsable debe comprender a todas las comunidades que pretende servir”.
Bajo este principio, el centro colabora con ingenieros de datos y lingüistas para crear modelos más justos y datasets representativos de comunidades históricamente marginadas, incluidos corpus en español latinoamericano recopilados con organizaciones comunitarias de Queens y el Bronx.
El problema de la IA monolingüe radica en que la mayoría de los modelos más potentes se entrenan con datos extraídos de internet en inglés y, en menor medida, en otros idiomas europeos. Aunque el español es la segunda lengua más hablada del mundo por número de hablantes nativos, solo representa una mínima parte de los corpus usados por los laboratorios de IA. Cuando se incluye, generalmente se trata del español peninsular, una variante legítima, pero que no refleja la pluralidad cultural, lingüística y regional del español hablado en América Latina, donde vive más del 90 % de los hispanohablantes.

En el ámbito académico, la Columbia University también impulsa la diversidad lingüística. Kathy McKeown, al frente de un equipo del Data Science Institute, dirige investigaciones para mejorar el reconocimiento de variantes regionales y optimizar la generación de textos con mayor sensibilidad cultural. En un panel de la Asociación Americana de Lingüística Computacional, McKeown destacó: “El idioma no es solo un conjunto de palabras. Es un reflejo de la identidad, y la IA no puede ignorar eso”.
El ecosistema emprendedor de Nueva York ha asumido el multilingüismo como prioridad estratégica. Un ejemplo es Hugging Face, una startup del Flatiron District consolidada como líder mundial en modelos de lenguaje abiertos. Su plataforma permite que cientos de investigadores y organizaciones compartan modelos entrenados en diversos idiomas, entre ellos el español. Destacan propuestas como BETO y MarIA, así como iniciativas centradas en variantes como el español mexicano, rioplatense o caribeño. Hugging Face ha promovido proyectos para fomentar la creación de modelos lingüísticos más inclusivos, proporcionando recursos a universidades y desarrolladores de América Latina.
Otra empresa relevante es RunwayML, especializada en herramientas de creación de video y diseño con inteligencia artificial. Aunque su foco principal es visual, su equipo avanza en la incorporación de interfaces de voz y texto en varios idiomas. Cristóbal Valenzuela, uno de sus fundadores de origen chileno, explicó: “No podemos hablar de creatividad generativa si la IA solo se expresa en inglés. Queremos que nuestros usuarios creen en su propio idioma, sin barreras”.
El acceso a servicios públicos también se ve impactado. En Nueva York, muchos sistemas automatizados —incluyendo líneas de ayuda y formularios digitales de asistencia— dependen cada vez más de tecnologías inteligentes. Si estas no comprenden correctamente a quienes se expresan en español, existe el riesgo de ampliar la brecha digital y profundizar la exclusión de comunidades inmigrantes.
El debate sobre la inteligencia artificial multilingüe es, en definitiva, una discusión sobre poder y futuro. El español latinoamericano, con su diversidad idiomática, representa un desafío y una oportunidad para el desarrollo de IA. Incluirlo de manera sólida no solo mejoraría la equidad tecnológica, sino que abriría nuevas posibilidades en mercados, contenidos y experiencias digitales.