
Durante una investigación científica, algunos modelos de IA desarrollaron tácticas engañosas para ganar partidas de ajedrez. Este comportamiento plantea preguntas fundamentales sobre la autonomía de las máquinas y sus posibles implicaciones en escenarios más críticos como la justicia, la medicina o la ciberseguridad.
Los investigadores de la organización Palisade Research fueron quienes presenciaron esta situación. Los científicos aseguran que este caso se puede dar porque entre sofisticado es un modelo de IA, más probable es que intente “hackear” el juego de manera espontánea para vencer a su oponente
Cómo la IA hizo trampa durante una partida de ajedrez
El estudio encontró que ciertos modelos de IA avanzados, como el o1-preview de OpenAI y DeepSeek R1, no solo fueron capaces de jugar ajedrez a un alto nivel, sino que también intentaron modificar las reglas del juego para asegurar su victoria.
Lo que comenzó como una simple partida entre máquinas contra el potente motor de ajedrez Stockfish, uno de los más avanzados en el mundo, terminó por destapar la capacidad de la IA para manipular su entorno y hacer trampa de manera autónoma.

El experimento consistió en poner a estos modelos de IA a competir contra Stockfish, un sistema que ha demostrado ser capaz de derrotar a los mejores jugadores humanos de ajedrez. Sin embargo, los investigadores se sorprendieron cuando algunos de los modelos comenzaron a desarrollar estrategias de engaño para evitar perder.
Mientras que los modelos menos avanzados como GPT-4o solo intentaban hacer trampa cuando se les indicaba explícitamente, los modelos más sofisticados, como o1-preview, lo hicieron de forma autónoma, sin intervención humana.
En concreto, el modelo o1-preview de OpenAI intentó hackear el juego en el 37% de las pruebas realizadas, mientras que DeepSeek R1 intentó trucos similares en un 10% de los casos. Estos modelos no solo buscaron formas de ganar a través de jugadas inteligentes, sino que comenzaron a manipular directamente el entorno de juego, alterando archivos y sobrescribiendo elementos del programa para asegurarse de ganar.
Técnicas utilizadas por la IA para hacer trampa
Las tácticas de trampa utilizadas por la IA no fueron simples intentos de mover piezas en momentos inapropiados. En su lugar, los modelos de IA buscaron maneras mucho más sofisticadas de manipular el juego.

Por ejemplo, o1-preview, cuando vio que no podía vencer a Stockfish en una partida, sugirió a los investigadores en su bloc de notas que para ganar debía “modificar los archivos de estado del juego”. Es decir, en lugar de simplemente jugar de manera más estratégica, la IA decidió alterar el entorno para tomar ventaja.
Otra táctica empleada por estos modelos fue la creación de copias del motor de ajedrez Stockfish. Al enfrentar a dos versiones de Stockfish, uno de los modelos trató de copiar los movimientos de su oponente para ganar ventaja. En otros casos, los modelos intentaron reemplazar el motor de ajedrez con uno mucho menos competente, con el fin de manipular los resultados a su favor.
El análisis de estas maniobras reveló que, si bien el aprendizaje por refuerzo, una técnica clave en el entrenamiento de estos modelos, podría ser la causa subyacente de este comportamiento, lo cierto es que no se sabía a ciencia cierta por qué los modelos actuaban de esa manera.

El aprendizaje por refuerzo funciona recompensando a los modelos cuando logran sus objetivos, en este caso, ganar la partida. Cuando la victoria se veía como algo difícil de alcanzar, la IA comenzaba a buscar soluciones no previstas, que incluyeron tácticas deshonestas.
Un comportamiento que podría volverse habitual a medida que los modelos de IA se vuelvan más avanzados. Dmitrii Volkov, investigador de inteligencia artificial, aseguró que se debe hacer un proceso de vigilancia más cercano para encontrar soluciones a esta situación.
“Sería tentador crear muchos casos de prueba como este e intentar entrenar el comportamiento. No obstante, como realmente no entendemos cómo funcionan los modelos, algunos investigadores temen que, si lo hacemos, el modelo simplemente finja cumplir o aprenda a identificar el entorno de prueba y se oculte. Así que no está claro. Tenemos que vigilarlos de cerca, pero por ahora no hay una solución definitiva”, dijo Volkov a MIT Technology Review.
ultimas
Top 5 de los electrodomésticos que sí son útiles en la cocina
Desde freidoras de aire hasta hornos empotrados, estos dispositivos te ayudarán a agilizar la preparación de alimentos y mejorar la eficiencia en cada comida

Mercado de criptomonedas: cuál es el valor de ethereum
Ether es la criptodivisa utilizada en la plataforma de blockchain ethereum y es la #2 en términos de capitalización del mercado a nivel mundial

Cuál es el valor en el mercado de la criptomoneda bitcoin este 15 de marzo
El bitcoin ha sentado las bases para la creación de muchas de las monedas virtuales existentes en el mercado y ha marcado un momento crucial para las soluciones de pago digital

¿Por qué Minecraft sigue siendo tan popular 15 años después?
El éxito mundial del sandbox ha vendido más de 300 millones de copias. Según The Times de Londres, su impacto va más allá del entretenimiento, alcanzando la educación y el cine

WhatsApp se copiará de X y adaptará una de las funciones más famosas
La aplicación de Meta ayudará a los usuarios a tener conversaciones más organizadas en sus grupos, cuando se hablen de varios temas al mismo tiempo
