
Una gran sospecha recae sobre el laboratorio que entrenó a DeepSeek, una inteligencia artificial. Tras el lanzamiento del último modelo, se ha especulado del posible uso de datos de Google Gemini para su funcionamiento.
Esta tecnología ha llamado la atención por su capacidad para resolver problemas complejos de matemáticas y programación, pero ahora todo todas las miradas apuntan a la implementación de información de una IA que pertenece a otra compañía.
Por qué se especula que DeepSeek uso Gemini para su entrenamiento
La polémica gira en torno a la especulación de que DeepSeek podría haber utilizado datos del modelo Gemini 2.5 Pro de Google para entrenar su último modelo. Aunque la empresa no ha revelado las fuentes específicas de los datos, varias señales han levantado dudas razonables entre los investigadores del sector.
El desarrollador australiano Sam Paech, conocido por sus evaluaciones de inteligencia emocional, ha sido uno de los primeros en detectar similitudes en el lenguaje y las expresiones utilizadas por R1-0528, comparables a las preferidas por Gemini.

Según expuso en una publicación en X, la preferencia de términos y estructuras gramaticales en el modelo de DeepSeek se asemeja notablemente a aquellos de Gemini.
A estas afirmaciones se unen las observaciones del creador anónimo de SpeechMap, una herramienta que evalúa la libertad de expresión en modelos de IA. Este desarrollador notó que las “trazas” o pasos intermedios generados por R1-0528 a medida que avanza hacia una conclusión, guardan similitudes con las generadas por Gemini.
Estas coincidencias plantean preguntas sobre si DeepSeek ha recurrido a estos datos externos, lo que desencadenaría implicaciones tanto éticas como legales.
Prácticas cuestionables detrás de DeepSeek
No es la primera vez que DeepSeek se enfrenta a acusaciones de entrenar modelos con datos de sus competidores. En diciembre de 2024, llamó la atención cuando su modelo V3 se identificó erróneamente como ChatGPT, lo que sugirió un posible entrenamiento con registros de conversaciones de la plataforma de OpenAI.

Este tipo de acciones generan inquietud en términos de competencia y ponen en cuestión el respeto a los términos de servicio de las empresas desarrolladoras de IA.
OpenAI ha señalado previamente que detectó prácticas de destilación empleadas por DeepSeek, una técnica que, si bien es común y legal en muchos casos, puede infringir normativas si se usan outputs de modelos de empresas rivales para entrenar productos competidores.
Esta técnica permite generar modelos más pequeños utilizando datos de modelos más grandes y avanzados, una práctica que OpenAI explícitamente prohíbe con sus resultados.
Contaminación de datos: el gran desafío
El contexto de estas sospechas se ve agravado por el fenómeno de la “contaminación de datos”. En la actualidad, la web abierta está cada vez más saturada de contenido generado por IA, lo cual dificulta la identificación de datos limpios y precisos para el entrenamiento de nuevos modelos.

Plataformas como Reddit y redes sociales inundan la web con contenido generado automáticamente con fines comerciales, afectando la calidad de las bases de datos.
Este entorno altamente contaminado facilita una convergencia en los resultados lingüísticos y estilísticos entre diversos modelos, complicando determinar si una similitud se debe a una copia intencional o simplemente es una coincidencia estadística resultante del uso de datos de la web.
Cuáles serían las implicaciones del uso de datos de Gemini en DeepSeek
Las acusaciones contra DeepSeek abren un debate crucial en torno a la ética y la propiedad intelectual en el ámbito de la IA. Si se comprobara que la IA china ha utilizado datos de Google Gemini, se plantearían serias cuestiones sobre la equidad y competencia en el mercado tecnológico.
Además, el uso indebido de datos podría tener graves repercusiones legales y comerciales, afectando significativamente a la empresa implicada.

Para prevenir este tipo de situaciones, las compañías líderes en el sector han comenzado a reforzar sus medidas de seguridad. OpenAI ha implementado un proceso de verificación de identidad para acceder a sus modelos avanzados, excluyendo automáticamente a empresas de países que no cumplen con sus requisitos, como China.
Google, por su parte, ha optado por resumir las trazas generadas por sus modelos a través de AI Studio, limitando así la posibilidad de entrenar modelos competidores basados en estos datos.
Últimas Noticias
Estos son los números con mayor probabilidad para ganarse la lotería del 9 a 14 de noviembre de 2025, según Gemini y ChatGPT
Entre las cifras que más veces han salido según IA figuran el 15, 16, 17, 20, 22, 23, 27, 28, 32, 33, 39 y 42, aunque ninguna representa una apuesta segura para ganar

Aprende a descargar e instalar de manera segura WhatsApp para el ordenador: Windos y Mac
Descubre cómo descargar la aplicación oficial de WhatsApp, mantener la seguridad de tus chats y elegir entre Escritorio y Web sin riesgos de virus ni pérdida de información en el entorno digital actual

Por qué Steve Jobs buscaba personas que le llevaran la contraria: uno de los secretos del éxito de Apple
El empresario defendía la importancia de escuchar opiniones divergentes y fomentar el debate entre expertos para lograr consensos sólidos, una filosofía clave para el desarrollo de nuevos dispositivos

Fuerte advertencia: “la IA es el cerebro que piensa y toma decisiones; la automatización es el sistema nervioso que las ejecuta”, Red Hat
El temor a la obsolescencia laboral por la IA puede transformarse en una oportunidad para evolucionar y adquirir nuevas competencias

Evita filtraciones: pasos clave para restringir el acceso de terceros en Alexa, Google Assistant y Siri
Los asistentes inteligentes mejoran la vida diaria pero hacen imprescindible fortalecer redes, cuentas y opciones de privacidad para impedir ataques, escuchas y uso comercial de datos personales




