OpenAI dice que DeepSeek podría haber obtenido sus datos de manera indebida

Reportajes Especiales - Business

Guardar

DeepSeek Artificial Intelligence Co LtdOpenAI LabsArtificial IntelligenceComputers and the InternetCopyrights and Copyright ViolationsMicrosoft CorpChina

La empresa emergente de San Francisco afirma que su rival chino podría haber utilizado datos generados por tecnologías de OpenAI para construir nuevos sistemas.

OpenAI afirma que está examinando pruebas de que la empresa china DeepSeek incumplió sus condiciones de servicio al recopilar grandes cantidades de datos de sus tecnologías de Inteligencia Artificial (IA).

La empresa con sede en San Francisco, valorada actualmente en 157.000 millones de dólares, dijo que DeepSeek podría haber utilizado datos generados por tecnologías de OpenAI para enseñar habilidades similares a sus propios sistemas.

Este proceso, denominado destilación, es habitual en el campo de la IA. Pero las condiciones de servicio de OpenAI dicen que la empresa no permite que nadie utilice datos generados por sus sistemas para construir tecnologías que compitan en el mismo mercado.

"Sabemos que grupos de la RPC están trabajando activamente para utilizar métodos, incluido lo que se conoce como destilación, para replicar modelos avanzados de IA estadounidenses", dijo la portavoz de OpenAI, Liz Bourgeois, en una declaración enviada por correo electrónico a The New York Times, refiriéndose a la República Popular China.

"Somos conscientes de los indicios de que DeepSeek podría haber destilado indebidamente nuestros modelos y los estamos estudiando, y compartiremos la información cuando sepamos más", dijo. "Tomamos contramedidas agresivas y proactivas para proteger nuestra tecnología y seguiremos colaborando estrechamente con el gobierno estadounidense para proteger los modelos más capaces que se desarrollan aquí".

DeepSeek no respondió inmediatamente a una solicitud de comentarios.

DeepSeek asustó a las empresas tecnológicas de Silicon Valley y provocó una caída de los mercados financieros estadounidenses a principios de esta semana, tras presentar tecnologías de IA que igualaban el rendimiento de cualquier otro proyecto en el mercado actual.

La opinión predominante era que los sistemas más potentes no podían construirse sin miles de millones de dólares en chips informáticos especializados, pero DeepSeek dijo que había creado sus tecnologías utilizando muchos menos recursos.

Como cualquier otra empresa de IA, DeepSeek creó sus tecnologías utilizando código informático y datos recopilados de internet. Las empresas de IA se apoyan en gran medida en una práctica denominada open sourcing (también conocida como "código abierto"), que consiste en compartir libremente el código en el que se basan sus tecnologías y reutilizar el código compartido por otros. Consideran que es una manera de acelerar el desarrollo tecnológico.

También necesitan cantidades ingentes de datos en línea para entrenar sus sistemas de IA. Estos sistemas aprenden sus habilidades identificando patrones en textos, programas informáticos, imágenes, sonidos y videos. Los principales sistemas aprenden sus habilidades analizando casi todo el texto de internet.

A menudo, la destilación se utiliza con el fin de entrenar nuevos sistemas. Si una empresa toma datos de tecnología que es propiedad de otra compañía, esa práctica puede ser legalmente problemática. Pero, a menudo, las tecnologías de código abierto lo permiten.

Actualmente, OpenAI se enfrenta a más de una decena de demandas en las que se le acusa de utilizar ilegalmente datos de internet que están protegidos por derechos de autor para entrenar a sus sistemas. Esto incluye una demanda interpuesta por The New York Times contra OpenAI y su socio Microsoft.

La demanda sostiene que millones de artículos publicados por el Times se utilizaron para entrenar chatbots automatizados que ahora compiten con el medio como fuente de información fiable. Tanto OpenAI como Microsoft niegan las acusaciones.

Un informe del Times también demostró que OpenAI ha usado tecnología de reconocimiento de voz para transcribir el audio de los videos de YouTube, obteniendo un nuevo texto conversacional que haría más inteligente a un sistema de IA. Algunos empleados de OpenAI discutieron cómo tal medida podría ir en contra de las normas de YouTube, dijeron tres personas con conocimiento de las conversaciones.

Un equipo de OpenAI, incluido el presidente de la empresa, Greg Brockman, transcribió más de un millón de horas de videos de YouTube, dijeron estas personas. Los textos se introdujeron en un sistema llamado GPT-4, considerado uno de los modelos de IA más potentes del mundo y que fue la base de la última versión del chatbot ChatGPT.

Cade Metz escribe sobre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes. Más de Cade Metz

Guardar