
En un giro significativo hacia el pasado, los desarrolladores de inteligencia artificial (IA) están recurriendo a una fuente de conocimiento más antigua que internet: los libros almacenados en bibliotecas.
A medida que crecen las críticas por el uso no autorizado de obras con derechos de autor para entrenar modelos de lenguaje, instituciones como la Universidad de Harvard y la Biblioteca Pública de Boston han comenzado a compartir grandes colecciones de textos históricos y de dominio público con investigadores y empresas tecnológicas como OpenAI.
La apuesta es ambiciosa: digitalizar millones de páginas para aportar datos fiables y diversos al desarrollo de la IA.

Harvard ha lanzado recientemente “Institutional Books 1.0”, un conjunto de datos que incluye más de 394 millones de páginas escaneadas de libros que abarcan desde el siglo XV hasta el XIX y están escritos en 254 idiomas.
Esta colaboración ha sido posible gracias al apoyo económico de gigantes tecnológicos como Microsoft y OpenAI, que buscan fuentes de información menos polémicas y más ricas en contenido cultural y pedagógico. A su vez, estas iniciativas buscan empoderar a bibliotecas y museos, devolviéndoles parte del control sobre cómo se utiliza el conocimiento que resguardan.
Este cambio en el enfoque de entrenamiento para los sistemas de IA no solo representa una manera más ética de nutrir los modelos de lenguaje, sino también una oportunidad para democratizar el acceso a materiales que antes solo estaban disponibles en estanterías físicas.

Sin embargo, también plantea nuevos desafíos sobre cómo manejar contenido desactualizado o potencialmente dañino que se encuentra en textos antiguos.
Tesoros bibliográficos al servicio de la IA
La colección de Harvard está compuesta por libros de literatura, filosofía, derecho, agricultura y ciencia, entre otros temas. Uno de sus volúmenes más antiguos es un manuscrito coreano del siglo XV sobre jardinería.
A diferencia de muchas de las fuentes utilizadas anteriormente (como redes sociales, Wikipedia o bases de datos pirateadas), este nuevo repositorio proviene de copias físicas auténticas, cuidadosamente conservadas por generaciones de bibliotecarios. Esta riqueza textual tiene un valor incalculable para empresas como OpenAI, que buscan mejorar la precisión y profundidad de sus sistemas sin incurrir en controversias legales.
La Biblioteca Pública de Boston, por su parte, ha sido clara con las condiciones de acceso a sus colecciones: todo material digitalizado debe estar disponible al público. Proyectos como la digitalización de periódicos en francés de Nueva Inglaterra del siglo XIX, que antes eran económicamente inviables, ahora pueden realizarse gracias al interés comercial de las tecnológicas.

De esta manera, las bibliotecas no solo conservan su misión educativa, sino que también fortalecen su papel en la evolución digital.
Retos éticos y oportunidades globales
Aunque estas bibliotecas aportan una diversidad lingüística mayor a la de las fuentes tradicionales de IA —menos de la mitad de los textos están en inglés—, también traen consigo desafíos. Muchos textos contienen lenguaje y conceptos que hoy se consideran obsoletos o dañinos, como teorías científicas desacreditadas o discursos coloniales.
Por ello, el equipo de Harvard está elaborando guías para mitigar riesgos y fomentar un uso responsable de estos datos en sistemas de IA.
Además de representar un avance tecnológico, esta iniciativa también se perfila como un acto de justicia cultural: llevar conocimientos enterrados en archivos físicos al dominio público digital.

El acceso a estos datos, a través de plataformas abiertas como Hugging Face, podría equilibrar el poder entre grandes corporaciones tecnológicas y comunidades académicas o locales que deseen desarrollar sus propias herramientas de inteligencia artificial. Así, el conocimiento histórico vuelve a ser un motor de innovación, esta vez en el corazón de la revolución digital.
Últimas Noticias
Aprende a detectar perfiles falsos en redes sociales: cuatro señales que indican que todo es una estafa
Si un usuario cae en este tipo de fraudes puede perder grandes sumas de dinero o sus datos personales y financieros pueden ser robados y expuestos al público

Convierte el viejo smartphone en una cámara de seguridad: aplica para Nokia, Motorola y más
Convertir un teléfono en desuso en un sistema de vigilancia doméstica es sencillo, ecológico y puede hacerse con solo una app, conexión WiFi y algunos accesorios básicos

Las únicas tres profesiones que no podrán ser reemplazadas por la inteligencia artificial, según Bill Gates
El cofundador de Microsoft al igual que otros informes globales advierten que la IA quitará la necesidad de trabajos repetitivos, pero cree que es necesario que los gobiernos y las empresas permitan que esa transición no afecte a los humanos

La advertencia de Jensen Huang, CEO de Nvidia, que todo niño y adulto debe acatar para no perder ante la IA
La empresa lidera el desarrollo de hardware y plataformas clave para la expansión de la inteligencia artificial, la automatización y la robótica, tres sectores clave en el futuro laboral global

Llamadas fantasma: por qué se cortan al contestar y qué hacer si recibes muchas
Empresas utilizan robots que verifican si la línea está activa solo con la respuesta, provocando más intentos de contacto y exponiendo información personal si no se implementan filtros de bloqueo a tiempo
