La lista secreta de sitios web que hacen que una IA como ChatGPT parezca inteligente

The Washington Post analizó conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos, que entran en los datos de entrenamiento de una Inteligencia Artificial

Guardar
Una respuesta en chino de
Una respuesta en chino de ChatGPT (REUTERS/Florence Lo/Ilustración)

Los chatbots de inteligencia artificial se han hecho muy populares en los últimos cuatro meses, maravillando al público con sus asombrosas habilidades, desde escribir sofisticados trabajos hasta mantener conversaciones inquietantemente lúcidas.

Los chatbots no pueden pensar como los humanos: en realidad, no entienden lo que dicen. Pueden imitar el habla humana porque la inteligencia artificial que los impulsa ha ingerido una cantidad ingente de texto, en su mayor parte extraído de Internet.

Este texto es la principal fuente de información de la IA sobre el mundo que está construyendo, e influye en cómo responde a los usuarios. Si, por ejemplo, aprueba el examen de acceso a la abogacía, probablemente se deba a que sus datos de entrenamiento incluían miles de páginas de práctica del LSAT.

Las empresas tecnológicas son cada vez más reservadas a la hora de informar sobre cómo alimentan la IA. Así que The Washington Post se dispuso a analizar uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos que entran en los datos de entrenamiento de una IA.

Para echar un vistazo al interior de esta caja negra, analizamos el conjunto de datos C4 de Google, una instantánea masiva de los contenidos de 15 millones de sitios web que se han utilizado para instruir a algunas IA de alto perfil en lengua inglesa, denominadas grandes modelos lingüísticos, entre las que se incluyen T5 de Google y LLaMA de Facebook. (OpenAI no revela qué conjuntos de datos utiliza para entrenar los modelos que respaldan su popular chatbot, ChatGPT).

El logotipo de Google LLC
El logotipo de Google LLC se ve en Google Store Chelsea en la ciudad de Nueva York (REUTERS/Shannon Stapleton)

El Post trabajó con investigadores del Allen Institute for AI en esta investigación y clasificó los sitios web utilizando datos de Similarweb, una empresa de análisis web. Alrededor de un tercio de los sitios web no pudieron clasificarse, sobre todo porque ya no aparecen en Internet.

A continuación, clasificamos los 10 millones de sitios web restantes en función del número de “tokens” que aparecían de cada uno en el conjunto de datos. Los tokens son pequeños fragmentos de texto utilizados para procesar información desorganizada, normalmente una palabra o frase.

De Wikipedia a Wowhead

El conjunto de datos estaba dominado por sitios web de industrias como el periodismo, el entretenimiento, el desarrollo de software, la medicina y la creación de contenidos, lo que ayuda a explicar por qué estos campos pueden verse amenazados por la nueva ola de inteligencia artificial. Los tres sitios más importantes fueron patents.google.com, nº 1, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, nº 2, la enciclopedia en línea gratuita; y scribd.com, nº 3, una biblioteca digital sólo por suscripción. También ocupa un lugar destacado en la lista: b-ok.org, nº 190, un conocido mercado de libros electrónicos pirateados que ha sido incautado por el Departamento de Justicia de Estados Unidos. Al menos otros 27 sitios identificados por el gobierno estadounidense como mercados de piratería y falsificaciones estaban presentes en el conjunto de datos.

Algunos de los principales sitios parecían arbitrarios, como wowhead.com nº 181, un foro de jugadores de World of Warcraft; thriveglobal.com nº 175, un producto para vencer el agotamiento fundado por Arianna Huffington; y al menos 10 sitios que venden contenedores de basura, entre ellos dumpsteroid.com nº 183, que ya no aparecen accesibles.

Los tres sitios más importantes
Los tres sitios más importantes fueron patents.google.com, nº 1, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, nº 2, la enciclopedia en línea gratuita; y scribd.com, nº 3, una biblioteca digital sólo por suscripción (Unsplash)

Otros plantearon importantes problemas de privacidad. Dos de los 100 primeros sitios, coloradovoters.info, nº 40, y flvoters.com, nº 73, albergaban copias privadas de bases de datos estatales de registro de votantes. Aunque los datos de los votantes son públicos, los modelos podrían utilizar esta información personal de formas desconocidas.

Contenido sin consentimiento

Los sitios web empresariales e industriales constituyeron la categoría más importante (16% de los tokens categorizados), encabezada por fool.com, nº 13, que ofrece asesoramiento sobre inversiones. Le siguen kickstarter.com (nº 25), que permite a los usuarios financiar proyectos creativos mediante crowdfunding, y patreon.com (nº 2.398), que ayuda a los creadores a cobrar cuotas mensuales a los suscriptores por contenidos exclusivos.

Kickstarter y Patreon pueden dar a la IA acceso a las ideas de los artistas y a sus textos de marketing, lo que hace temer que la tecnología copie este trabajo para sugerirlo a los usuarios. En la actualidad, los artistas no reciben compensación ni reconocimiento alguno cuando su trabajo se incluye en los datos de entrenamiento de la IA, y han presentado demandas por infracción de derechos de autor contra los generadores de texto a imagen Stable Diffusion, MidJourney y DeviantArt.

Kickstarter permite a los usuarios
Kickstarter permite a los usuarios financiar proyectos creativos mediante crowdfunding

El análisis del Post sugiere que puede haber más demandas en camino: el símbolo de copyright -que denota una obra registrada como propiedad intelectual- aparece más de 200 millones de veces en el conjunto de datos del C4.

Todas las noticias

La categoría de noticias y medios de comunicación ocupa el tercer lugar. Pero la mitad de los 10 sitios más visitados son sitios de noticias: nytimes.com nº 4, latimes.com nº 6, theguardian.com nº 7, forbes.com nº 8 y huffpost.com nº 9. (Washingtonpost.com nº 7). (Al igual que los artistas y creadores, algunas organizaciones de noticias han criticado a las empresas tecnológicas por utilizar sus contenidos sin autorización ni compensación).

Mientras tanto, encontramos varios medios de comunicación que ocupan puestos bajos en la escala independiente de fiabilidad de NewsGuard: RT.com n.º 65, el sitio de propaganda ruso respaldado por el Estado; breitbart.com n.º 159, una conocida fuente de noticias y opiniones de extrema derecha; y vdare.com n.º 993, un sitio antiinmigración que se ha asociado con la supremacía blanca.

Se ha demostrado que los chatbots comparten con confianza información incorrecta, pero no siempre ofrecen citas. Unos datos de entrenamiento poco fiables podrían llevarles a difundir información tendenciosa, propagandística y errónea, sin que el usuario pueda rastrearla hasta la fuente original.

Los sitios religiosos reflejan una perspectiva occidental

Los sitios dedicados a la comunidad representaron alrededor del 5% del contenido categorizado, con la religión dominando esa categoría. Entre los 20 principales sitios religiosos, 14 eran cristianos, dos judíos y uno musulmán, uno mormón, uno de los Testigos de Jehová y uno de todas las religiones.

Foto tomada a la pantalla
Foto tomada a la pantalla de una computadora que muestra el texto de la página ChatGPT en el sitio web de OpenAI (AP Foto/Richard Drew, Archivo)

El primer sitio cristiano, Grace to You (gty.org nº 164), pertenece a Grace Community Church, una megaiglesia evangélica de California. Christianity Today informó recientemente de que la iglesia aconsejaba a las mujeres “seguir sometiéndose” a padres y maridos maltratadores y evitar denunciarlos a las autoridades.

El sitio judío mejor clasificado fue jewishworldreview.com nº 366, una revista en línea para judíos ortodoxos. En diciembre, publicó un artículo sobre Hanukkah en el que culpaba del aumento del antisemitismo en Estados Unidos a “la extrema derecha y el islam fundamentalista”, así como a “una comunidad afroamericana influida por el movimiento Black Lives Matter”.

El sesgo antimusulmán ha surgido como un problema en algunos modelos lingüísticos. Por ejemplo, un estudio publicado en la revista Nature descubrió que ChatGPT-3 de OpenAI completaba la frase “Dos musulmanes entraron en un...” con acciones violentas el 66 por ciento de las veces.

Un tesoro de blogs personales

La tecnología es la segunda categoría más importante, con un 15% de los tokens categorizados. Esto incluye muchas plataformas para crear sitios web, como sites.google.com nº 85, que aloja páginas de todo tipo, desde un club de judo en Reading, Inglaterra, hasta un preescolar católico en Nueva Jersey.

El conjunto de datos contenía más de medio millón de blogs personales, que representaban el 3,8% de los tokens categorizados. La plataforma de publicación medium.com, nº 46, fue el quinto mayor sitio tecnológico y alberga decenas de miles de blogs bajo su dominio. Nuestro recuento incluye blogs escritos en plataformas como WordPress, Tumblr, Blogspot y Live Journal.

El logo de Tumblr (REUTERS/Dado
El logo de Tumblr (REUTERS/Dado Ruvic/Illustration)

Estos diarios en línea iban de lo profesional a lo personal, como un blog llamado “Grumpy Rumblings”, coescrito por dos académicos anónimos, uno de los cuales escribió recientemente sobre cómo el desempleo de su pareja afectaba a los impuestos de la pareja. Uno de los blogs más visitados ofrecía consejos sobre juegos de rol. Otro de los principales sitios, Uprooted Palestinians, escribe a menudo sobre el “terrorismo sionista” y “la ideología sionista”.

Las redes sociales como Facebook y Twitter -el corazón de la web moderna- prohíben el scraping, lo que significa que la mayoría de los conjuntos de datos utilizados para entrenar la IA no pueden acceder a ellas. Gigantes tecnológicos como Facebook y Google, que poseen ingentes cantidades de datos de conversaciones, no han dejado claro cómo puede utilizarse la información personal de los usuarios para entrenar modelos de inteligencia artificial que se utilizan internamente o se venden como productos.

Lo que los filtros pasaron por alto

Algunos filtros eliminan algunos contenidos
Algunos filtros eliminan algunos contenidos LGBTQ no sexuales (REUTERS/Octavio Jones/archivo)

Como la mayoría de las empresas, Google filtró en gran medida los datos antes de alimentar a la IA. (C4 son las siglas de Colossal Clean Crawled Corpus). Además de eliminar galimatías y texto duplicado, la empresa utilizó la “Lista de palabras sucias, obscenas, malsonantes y de otro tipo” de código abierto, que incluye 402 términos en inglés y un emoji (una mano haciendo un gesto común pero obsceno). Las empresas suelen utilizar conjuntos de datos de alta calidad para afinar los modelos, protegiendo a los usuarios de algunos contenidos no deseados.

Aunque este tipo de lista de bloqueo pretende limitar la exposición de un modelo a insultos racistas y obscenidades mientras se entrena, también se ha demostrado que elimina algunos contenidos LGBTQ no sexuales. Como han demostrado investigaciones anteriores, hay muchas cosas que se escapan a los filtros. Encontramos cientos de ejemplos de sitios web pornográficos y más de 72.000 casos de “esvástica”, uno de los términos prohibidos de la lista.

Mientras tanto, The Post descubrió que los filtros no eliminaban algunos contenidos preocupantes, como el sitio de supremacía blanca stormfront.org nº 27.505, el sitio antitrans kiwifarms.net nº 378.986 y 4chan.org nº 4.339.889, el tablón de mensajes anónimos conocido por organizar campañas de acoso selectivo contra individuos.

También encontramos threepercentpatriots.com n.º 8.788.836, un sitio caído que propugna una ideología antigubernamental compartida por personas acusadas en relación con el atentado del 6 de enero de 2021 contra el Capitolio de Estados Unidos. También había sitios que promovían teorías conspirativas, como el fenómeno de extrema derecha QAnon y el “pizzagate”, la falsa afirmación de que una pizzería de Washington D.C. era una tapadera de pedófilos.

¿Está su sitio web entrenando a la IA?

Un rastreo web puede parecer una copia de todo Internet, pero no es más que una instantánea que captura el contenido de una muestra de páginas web en un momento determinado. C4 comenzó como un scrape realizado en abril de 2019 por la organización sin ánimo de lucro CommonCrawl, un recurso popular para modelos de IA. CommonCrawl dijo a The Post que intenta priorizar los sitios más importantes y de mayor reputación, pero no intenta evitar el contenido con licencia o con derechos de autor.

Aunque C4 es enorme, los grandes modelos lingüísticos probablemente utilizan conjuntos de datos aún más gigantescos, según los expertos. Por ejemplo, los datos de entrenamiento de GPT-3 de OpenAI, lanzado en 2020, empezaron con una cantidad de datos web 40 veces superior a la de C4. Los datos de entrenamiento de GPT-3 también incluyen toda la Wikipedia en inglés, una colección de novelas gratuitas de autores inéditos utilizada con frecuencia por las grandes empresas tecnológicas y una recopilación de texto de enlaces muy valorados por los usuarios de Reddit. (Reddit, un sitio utilizado habitualmente en los modelos de entrenamiento de IA, anunció el martes que planea cobrar a las empresas por dicho acceso).

Los expertos dicen que muchas empresas no documentan el contenido de sus datos de entrenamiento -incluso internamente- por miedo a encontrar información personal sobre individuos identificables, material protegido por derechos de autor y otros datos obtenidos sin consentimiento.

Mientras las empresas insisten en los retos que supone explicar cómo toman decisiones los chatbots, este es un ámbito en el que los ejecutivos tienen el poder de ser transparentes.

Seguir leyendo:

Guardar