La lista secreta de sitios web que hacen que una IA como ChatGPT parezca inteligente

Guardar

Una respuesta en chino de ChatGPT (REUTERS/Florence Lo/Ilustración)

Los chatbots de inteligencia artificial se han hecho muy populares en los últimos cuatro meses, maravillando al público con sus asombrosas habilidades, desde escribir sofisticados trabajos hasta mantener conversaciones inquietantemente lúcidas.

Los chatbots no pueden pensar como los humanos: en realidad, no entienden lo que dicen. Pueden imitar el habla humana porque la inteligencia artificial que los impulsa ha ingerido una cantidad ingente de texto, en su mayor parte extraído de Internet.

Este texto es la principal fuente de información de la IA sobre el mundo que está construyendo, e influye en cómo responde a los usuarios. Si, por ejemplo, aprueba el examen de acceso a la abogacía, probablemente se deba a que sus datos de entrenamiento incluían miles de páginas de práctica del LSAT.

Las empresas tecnológicas son cada vez más reservadas a la hora de informar sobre cómo alimentan la IA. Así que The Washington Post se dispuso a analizar uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos que entran en los datos de entrenamiento de una IA.

Para echar un vistazo al interior de esta caja negra, analizamos el conjunto de datos C4 de Google, una instantánea masiva de los contenidos de 15 millones de sitios web que se han utilizado para instruir a algunas IA de alto perfil en lengua inglesa, denominadas grandes modelos lingüísticos, entre las que se incluyen T5 de Google y LLaMA de Facebook. (OpenAI no revela qué conjuntos de datos utiliza para entrenar los modelos que respaldan su popular chatbot, ChatGPT).

El logotipo de Google LLC se ve en Google Store Chelsea en la ciudad de Nueva York (REUTERS/Shannon Stapleton)

El Post trabajó con investigadores del Allen Institute for AI en esta investigación y clasificó los sitios web utilizando datos de Similarweb, una empresa de análisis web. Alrededor de un tercio de los sitios web no pudieron clasificarse, sobre todo porque ya no aparecen en Internet.

A continuación, clasificamos los 10 millones de sitios web restantes en función del número de “tokens” que aparecían de cada uno en el conjunto de datos. Los tokens son pequeños fragmentos de texto utilizados para procesar información desorganizada, normalmente una palabra o frase.

El conjunto de datos estaba dominado por sitios web de industrias como el periodismo, el entretenimiento, el desarrollo de software, la medicina y la creación de contenidos, lo que ayuda a explicar por qué estos campos pueden verse amenazados por la nueva ola de inteligencia artificial. Los tres sitios más importantes fueron patents.google.com, nº 1, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, nº 2, la enciclopedia en línea gratuita; y scribd.com, nº 3, una biblioteca digital sólo por suscripción. También ocupa un lugar destacado en la lista: b-ok.org, nº 190, un conocido mercado de libros electrónicos pirateados que ha sido incautado por el Departamento de Justicia de Estados Unidos. Al menos otros 27 sitios identificados por el gobierno estadounidense como mercados de piratería y falsificaciones estaban presentes en el conjunto de datos.

Algunos de los principales sitios parecían arbitrarios, como wowhead.com nº 181, un foro de jugadores de World of Warcraft; thriveglobal.com nº 175, un producto para vencer el agotamiento fundado por Arianna Huffington; y al menos 10 sitios que venden contenedores de basura, entre ellos dumpsteroid.com nº 183, que ya no aparecen accesibles.

Los tres sitios más importantes fueron patents.google.com, nº 1, que contiene texto de patentes emitidas en todo el mundo; wikipedia.org, nº 2, la enciclopedia en línea gratuita; y scribd.com, nº 3, una biblioteca digital sólo por suscripción (Unsplash)

Otros plantearon importantes problemas de privacidad. Dos de los 100 primeros sitios, coloradovoters.info, nº 40, y flvoters.com, nº 73, albergaban copias privadas de bases de datos estatales de registro de votantes. Aunque los datos de los votantes son públicos, los modelos podrían utilizar esta información personal de formas desconocidas.

Los sitios web empresariales e industriales constituyeron la categoría más importante (16% de los tokens categorizados), encabezada por fool.com, nº 13, que ofrece asesoramiento sobre inversiones. Le siguen kickstarter.com (nº 25), que permite a los usuarios financiar proyectos creativos mediante crowdfunding, y patreon.com (nº 2.398), que ayuda a los creadores a cobrar cuotas mensuales a los suscriptores por contenidos exclusivos.

Kickstarter y Patreon pueden dar a la IA acceso a las ideas de los artistas y a sus textos de marketing, lo que hace temer que la tecnología copie este trabajo para sugerirlo a los usuarios. En la actualidad, los artistas no reciben compensación ni reconocimiento alguno cuando su trabajo se incluye en los datos de entrenamiento de la IA, y han presentado demandas por infracción de derechos de autor contra los generadores de texto a imagen Stable Diffusion, MidJourney y DeviantArt.

Kickstarter permite a los usuarios financiar proyectos creativos mediante crowdfunding

El análisis del Post sugiere que puede haber más demandas en camino: el símbolo de copyright -que denota una obra registrada como propiedad intelectual- aparece más de 200 millones de veces en el conjunto de datos del C4.

La categoría de noticias y medios de comunicación ocupa el tercer lugar. Pero la mitad de los 10 sitios más visitados son sitios de noticias: nytimes.com nº 4, latimes.com nº 6, theguardian.com nº 7, forbes.com nº 8 y huffpost.com nº 9. (Washingtonpost.com nº 7). (Al igual que los artistas y creadores, algunas organizaciones de noticias han criticado a las empresas tecnológicas por utilizar sus contenidos sin autorización ni compensación).

Mientras tanto, encontramos varios medios de comunicación que ocupan puestos bajos en la escala independiente de fiabilidad de NewsGuard: RT.com n.º 65, el sitio de propaganda ruso respaldado por el Estado; breitbart.com n.º 159, una conocida fuente de noticias y opiniones de extrema derecha; y vdare.com n.º 993, un sitio antiinmigración que se ha asociado con la supremacía blanca.

Se ha demostrado que los chatbots comparten con confianza información incorrecta, pero no siempre ofrecen citas. Unos datos de entrenamiento poco fiables podrían llevarles a difundir información tendenciosa, propagandística y errónea, sin que el usuario pueda rastrearla hasta la fuente original.

Los sitios dedicados a la comunidad representaron alrededor del 5% del contenido categorizado, con la religión dominando esa categoría. Entre los 20 principales sitios religiosos, 14 eran cristianos, dos judíos y uno musulmán, uno mormón, uno de los Testigos de Jehová y uno de todas las religiones.

Foto tomada a la pantalla de una computadora que muestra el texto de la página ChatGPT en el sitio web de OpenAI (AP Foto/Richard Drew, Archivo)

El primer sitio cristiano, Grace to You (gty.org nº 164), pertenece a Grace Community Church, una megaiglesia evangélica de California. Christianity Today informó recientemente de que la iglesia aconsejaba a las mujeres “seguir sometiéndose” a padres y maridos maltratadores y evitar denunciarlos a las autoridades.

El sitio judío mejor clasificado fue jewishworldreview.com nº 366, una revista en línea para judíos ortodoxos. En diciembre, publicó un artículo sobre Hanukkah en el que culpaba del aumento del antisemitismo en Estados Unidos a “la extrema derecha y el islam fundamentalista”, así como a “una comunidad afroamericana influida por el movimiento Black Lives Matter”.

El sesgo antimusulmán ha surgido como un problema en algunos modelos lingüísticos. Por ejemplo, un estudio publicado en la revista Nature descubrió que ChatGPT-3 de OpenAI completaba la frase “Dos musulmanes entraron en un...” con acciones violentas el 66 por ciento de las veces.

La tecnología es la segunda categoría más importante, con un 15% de los tokens categorizados. Esto incluye muchas plataformas para crear sitios web, como sites.google.com nº 85, que aloja páginas de todo tipo, desde un club de judo en Reading, Inglaterra, hasta un preescolar católico en Nueva Jersey.

El conjunto de datos contenía más de medio millón de blogs personales, que representaban el 3,8% de los tokens categorizados. La plataforma de publicación medium.com, nº 46, fue el quinto mayor sitio tecnológico y alberga decenas de miles de blogs bajo su dominio. Nuestro recuento incluye blogs escritos en plataformas como WordPress, Tumblr, Blogspot y Live Journal.

El logo de Tumblr (REUTERS/Dado Ruvic/Illustration)

Estos diarios en línea iban de lo profesional a lo personal, como un blog llamado “Grumpy Rumblings”, coescrito por dos académicos anónimos, uno de los cuales escribió recientemente sobre cómo el desempleo de su pareja afectaba a los impuestos de la pareja. Uno de los blogs más visitados ofrecía consejos sobre juegos de rol. Otro de los principales sitios, Uprooted Palestinians, escribe a menudo sobre el “terrorismo sionista” y “la ideología sionista”.

Las redes sociales como Facebook y Twitter -el corazón de la web moderna- prohíben el scraping, lo que significa que la mayoría de los conjuntos de datos utilizados para entrenar la IA no pueden acceder a ellas. Gigantes tecnológicos como Facebook y Google, que poseen ingentes cantidades de datos de conversaciones, no han dejado claro cómo puede utilizarse la información personal de los usuarios para entrenar modelos de inteligencia artificial que se utilizan internamente o se venden como productos.

Algunos filtros eliminan algunos contenidos LGBTQ no sexuales (REUTERS/Octavio Jones/archivo)

Como la mayoría de las empresas, Google filtró en gran medida los datos antes de alimentar a la IA. (C4 son las siglas de Colossal Clean Crawled Corpus). Además de eliminar galimatías y texto duplicado, la empresa utilizó la “Lista de palabras sucias, obscenas, malsonantes y de otro tipo” de código abierto, que incluye 402 términos en inglés y un emoji (una mano haciendo un gesto común pero obsceno). Las empresas suelen utilizar conjuntos de datos de alta calidad para afinar los modelos, protegiendo a los usuarios de algunos contenidos no deseados.

Aunque este tipo de lista de bloqueo pretende limitar la exposición de un modelo a insultos racistas y obscenidades mientras se entrena, también se ha demostrado que elimina algunos contenidos LGBTQ no sexuales. Como han demostrado investigaciones anteriores, hay muchas cosas que se escapan a los filtros. Encontramos cientos de ejemplos de sitios web pornográficos y más de 72.000 casos de “esvástica”, uno de los términos prohibidos de la lista.

Mientras tanto, The Post descubrió que los filtros no eliminaban algunos contenidos preocupantes, como el sitio de supremacía blanca stormfront.org nº 27.505, el sitio antitrans kiwifarms.net nº 378.986 y 4chan.org nº 4.339.889, el tablón de mensajes anónimos conocido por organizar campañas de acoso selectivo contra individuos.

También encontramos threepercentpatriots.com n.º 8.788.836, un sitio caído que propugna una ideología antigubernamental compartida por personas acusadas en relación con el atentado del 6 de enero de 2021 contra el Capitolio de Estados Unidos. También había sitios que promovían teorías conspirativas, como el fenómeno de extrema derecha QAnon y el “pizzagate”, la falsa afirmación de que una pizzería de Washington D.C. era una tapadera de pedófilos.

Un rastreo web puede parecer una copia de todo Internet, pero no es más que una instantánea que captura el contenido de una muestra de páginas web en un momento determinado. C4 comenzó como un scrape realizado en abril de 2019 por la organización sin ánimo de lucro CommonCrawl, un recurso popular para modelos de IA. CommonCrawl dijo a The Post que intenta priorizar los sitios más importantes y de mayor reputación, pero no intenta evitar el contenido con licencia o con derechos de autor.

Aunque C4 es enorme, los grandes modelos lingüísticos probablemente utilizan conjuntos de datos aún más gigantescos, según los expertos. Por ejemplo, los datos de entrenamiento de GPT-3 de OpenAI, lanzado en 2020, empezaron con una cantidad de datos web 40 veces superior a la de C4. Los datos de entrenamiento de GPT-3 también incluyen toda la Wikipedia en inglés, una colección de novelas gratuitas de autores inéditos utilizada con frecuencia por las grandes empresas tecnológicas y una recopilación de texto de enlaces muy valorados por los usuarios de Reddit. (Reddit, un sitio utilizado habitualmente en los modelos de entrenamiento de IA, anunció el martes que planea cobrar a las empresas por dicho acceso).

Los expertos dicen que muchas empresas no documentan el contenido de sus datos de entrenamiento -incluso internamente- por miedo a encontrar información personal sobre individuos identificables, material protegido por derechos de autor y otros datos obtenidos sin consentimiento.

Mientras las empresas insisten en los retos que supone explicar cómo toman decisiones los chatbots, este es un ámbito en el que los ejecutivos tienen el poder de ser transparentes.

Seguir leyendo:

El GPT-5, la escritura y la edición: escenarios del inminente futuro (1ª parte)

Por qué un grupo de expertos de Harvard cree que la inteligencia artificial aplicada a la medicina no es la panacea

Últimas Noticias

Los hisopos de algodón pueden dañar los oídos: cómo limpiarlos sin afectar el canal auditivo y el tímpano

Si bien es un órgano autolimpiante, cuando es necesario eliminar cerumen, las prácticas comunes pueden causar lesiones, infecciones y pérdida de audición si se realizan de forma inadecuada. Otorrinolaringólogos explicaron cómo hacerlo

Borscht desde el cielo: Ucrania usa drones para reabastecer a las tropas en las trincheras

En el frente de la durísima guerra de trincheras de Ucrania, algunos drones persiguen al enemigo, pero otros llevan suministros vitales a los soldados

Una jueza de EEUU ordenó detener temporalmente la deportación de cientos de niños guatemaltecos

La magistrada federal Sparkle L. Sooknanan convocó una audiencia de emergencia tras conocer que el Gobierno estaba procediendo a deportar a los menores a pesar de una orden que ella había dictado más temprano

La lista secreta de sitios web que hacen que una IA como ChatGPT parezca inteligente

The Washington Post analizó conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y a menudo ofensivos, que entran en los datos de entrenamiento de una Inteligencia Artificial

De Wikipedia a Wowhead

Contenido sin consentimiento

Todas las noticias

Los sitios religiosos reflejan una perspectiva occidental

Un tesoro de blogs personales

Lo que los filtros pasaron por alto

¿Está su sitio web entrenando a la IA?

Últimas Noticias

Los hisopos de algodón pueden dañar los oídos: cómo limpiarlos sin afectar el canal auditivo y el tímpano

Si bien es un órgano autolimpiante, cuando es necesario eliminar cerumen, las prácticas comunes pueden causar lesiones, infecciones y pérdida de audición si se realizan de forma inadecuada. Otorrinolaringólogos explicaron cómo hacerlo

Borscht desde el cielo: Ucrania usa drones para reabastecer a las tropas en las trincheras

En el frente de la durísima guerra de trincheras de Ucrania, algunos drones persiguen al enemigo, pero otros llevan suministros vitales a los soldados

Una jueza de EEUU ordenó detener temporalmente la deportación de cientos de niños guatemaltecos

La magistrada federal Sparkle L. Sooknanan convocó una audiencia de emergencia tras conocer que el Gobierno estaba procediendo a deportar a los menores a pesar de una orden que ella había dictado más temprano

La ciudad mexicana que será sede de la Copa del Mundo y en la que los jóvenes están desapareciendo misteriosamente

Se trata de unos de los bastiones de los cárteles. Mientras Trump se plantea atacar a las bandas de narcotraficantes, la ciudad muestra cautela

¿El verano dura más donde vives? Así han cambiado las temperaturas

El calendario tradicional ya no marca el inicio ni el final de los días calurosos en varias regiones del continente

Fotos en bikini y tips motivadores: la estrategia en redes sociales de la reina de la reventa ”The Armenian Girl”

Voraz incendio en un pueblo de Santa Fe: explotaron tanques de gasoil en una playa de camiones

Senado: la oposición dejó sin efecto el veto de Milei y reactivó la ley de emergencia en discapacidad

El estrés altera un circuito cerebral que eleva el riesgo de diabetes tipo 2, según un estudio

El Ministerio Público Fiscal pidió condenar al exjuez Walter Bento como jefe de una asociación ilícita en Mendoza

Estados Unidos y Panamá urgen a la ONU a autorizar una nueva fuerza multinacional en Haití frente al violento avance de las pandillas

Los tres animales más ruidosos del planeta viven bajo el agua y sorprenden a la ciencia por su poder sonoro

Ucrania solicitó ante la ONU el despliegue de una “misión militar de aliados sobre el terreno” para detener la invasión rusa

Elecciones en Jamaica: el primer ministro Andrew Holness se aseguró un tercer mandato en un clima de tensiones sociales

Donald Trump busca un fallo urgente sobre los aranceles en la Corte Suprema: “Estamos al borde de una catástrofe económica”

Dolor en el mundo de la radio por la muerte de Mariano Twerski: el productor y periodista tenía 54 años

La China Suárez mostró el picnic que armó para sus hijos en el jardín de su casa con postres y galletitas turcas

Chechu Bonelli habló por primera vez tras su separación de Darío Cvitanich: “Estoy recuperando mi esencia”

Cachete Sierra y Fio Giménez a puro amor y baile en las playas de Miami

El sentido adiós de Valeria Mazza a Giorgio Armani: “Me siento una privilegiada de que me hayas elegido”

De Wikipedia a Wowhead

Contenido sin consentimiento

Todas las noticias

Los sitios religiosos reflejan una perspectiva occidental

Un tesoro de blogs personales

Lo que los filtros pasaron por alto

¿Está su sitio web entrenando a la IA?

Temas Relacionados

Últimas Noticias

Los hisopos de algodón pueden dañar los oídos: cómo limpiarlos sin afectar el canal auditivo y el tímpano

Si bien es un órgano autolimpiante, cuando es necesario eliminar cerumen, las prácticas comunes pueden causar lesiones, infecciones y pérdida de audición si se realizan de forma inadecuada. Otorrinolaringólogos explicaron cómo hacerlo

Borscht desde el cielo: Ucrania usa drones para reabastecer a las tropas en las trincheras

En el frente de la durísima guerra de trincheras de Ucrania, algunos drones persiguen al enemigo, pero otros llevan suministros vitales a los soldados

Una jueza de EEUU ordenó detener temporalmente la deportación de cientos de niños guatemaltecos

La magistrada federal Sparkle L. Sooknanan convocó una audiencia de emergencia tras conocer que el Gobierno estaba procediendo a deportar a los menores a pesar de una orden que ella había dictado más temprano

La ciudad mexicana que será sede de la Copa del Mundo y en la que los jóvenes están desapareciendo misteriosamente

Se trata de unos de los bastiones de los cárteles. Mientras Trump se plantea atacar a las bandas de narcotraficantes, la ciudad muestra cautela

¿El verano dura más donde vives? Así han cambiado las temperaturas

El calendario tradicional ya no marca el inicio ni el final de los días calurosos en varias regiones del continente

Fotos en bikini y tips motivadores: la estrategia en redes sociales de la reina de la reventa ”The Armenian Girl”

Voraz incendio en un pueblo de Santa Fe: explotaron tanques de gasoil en una playa de camiones

Senado: la oposición dejó sin efecto el veto de Milei y reactivó la ley de emergencia en discapacidad

El estrés altera un circuito cerebral que eleva el riesgo de diabetes tipo 2, según un estudio

El Ministerio Público Fiscal pidió condenar al exjuez Walter Bento como jefe de una asociación ilícita en Mendoza

Estados Unidos y Panamá urgen a la ONU a autorizar una nueva fuerza multinacional en Haití frente al violento avance de las pandillas

Los tres animales más ruidosos del planeta viven bajo el agua y sorprenden a la ciencia por su poder sonoro

Ucrania solicitó ante la ONU el despliegue de una “misión militar de aliados sobre el terreno” para detener la invasión rusa

Elecciones en Jamaica: el primer ministro Andrew Holness se aseguró un tercer mandato en un clima de tensiones sociales

Donald Trump busca un fallo urgente sobre los aranceles en la Corte Suprema: “Estamos al borde de una catástrofe económica”

Dolor en el mundo de la radio por la muerte de Mariano Twerski: el productor y periodista tenía 54 años

La China Suárez mostró el picnic que armó para sus hijos en el jardín de su casa con postres y galletitas turcas

Chechu Bonelli habló por primera vez tras su separación de Darío Cvitanich: “Estoy recuperando mi esencia”

Cachete Sierra y Fio Giménez a puro amor y baile en las playas de Miami

El sentido adiós de Valeria Mazza a Giorgio Armani: “Me siento una privilegiada de que me hayas elegido”