El nuevo avance de Google DeepMind: robots que aprenden tenis de mesa sin supervisión humana y se adaptan en tiempo real

La combinación de aprendizaje automático y modelos de lenguaje visual permite que los sistemas perfeccionen habilidades complejas. IEEE Spectrum remarcó un salto hacia una robótica más autónoma y útil en ambientes cotidianos

Guardar
Google DeepMind desarrolla robots que aprenden tenis de mesa sin supervisión humana, marcando un hito en la autonomía robótica (IEEE Spectrum)

En los laboratorios de Google DeepMind, una nueva generación de robots está aprendiendo a jugar tenis de mesa sin depender de la constante supervisión humana. Este avance combina aprendizaje automático y modelos de lenguaje visual como entrenadores virtuales, marcando un hito en la búsqueda de máquinas capaces de auto-mejorarse y adaptarse a entornos complejos.

De acuerdo con un informe de IEEE Spectrum, el equipo de DeepMind logró que robots compitan entre sí y contra humanos, perfeccionando sus habilidades de manera autónoma y abriendo la puerta a una robótica más versátil y útil en la vida cotidiana.

Problema de la dependencia humana en robótica

Tradicionalmente, la programación de robots exige horas de trabajo experto para ajustar comportamientos y parámetros. Aunque las técnicas de aprendizaje automático facilitaron progresos, la adquisición de habilidades avanzadas todavía requiere una supervisión significativa.

Los métodos clásicos —como el aprendizaje por imitación o por refuerzo— presentan limitaciones: el primero exige enormes cantidades de demostraciones humanas, lo que dificulta el aprendizaje continuo; el segundo obliga a los diseñadores a definir y reajustar funciones de recompensa complejas para cada habilidad nueva, impidiendo escalar la autonomía robótica.

El uso de modelos de
El uso de modelos de lenguaje visual permite a los robots de DeepMind mejorar sus habilidades de forma autónoma y adaptativa (Tradingcompass.io)

El tenis de mesa como un laboratorio ideal

La empresa desarrolladora eligió el tenis de mesa como banco de pruebas porque concentra retos clave de robótica; detectar y seguir la pelota, controlar el movimiento con precisión, anticipar y reaccionar ante el contrincante, y tomar decisiones en tiempo real.

Según lo difundido en IEEE Spectrum, estas capacidades no solo muestran avances técnicos, sino que son aplicables tanto en la industria como en el ámbito doméstico. El entorno exigente del tenis de mesa permitió evaluar algoritmos de aprendizaje robustos, aptos para manejar la complejidad y la imprevisibilidad del mundo físico.

Aprendizaje autosuficiente: robots que compiten y progresan

Inspirados por el éxito de AlphaGo, los ingenieros de DeepMind hicieron que dos brazos robóticos se desafiaran mutuamente. Esta estrategia impulsa la mejora continua, ya que cada robot se ve forzado a adaptarse a nuevas estrategias surgidas durante sus enfrentamientos.

Para ello crearon un entorno autónomo, con recolección automática de pelotas y control remoto, que permitió sesiones sin intervención humana directa. El entrenamiento inicial fue cooperativo —ambos robots sosteniendo peloteos—, pero al pasar a la competición, surgieron retos mayores.

El comportamiento previamente aprendido no garantizaba el éxito en situaciones competitivas. Una vez enfocados en ganar puntos, los robots limitaron la variedad de golpes, y el modelo mostró dificultades para adaptarse a nuevas jugadas sin olvidar lo ya aprendido. Asimismo, el entrenamiento competitivo condujo a breves intercambios donde uno de los robots dominaba rápidamente, exponiendo la complejidad de lograr un aprendizaje estable en este entorno.

El tenis de mesa sirve
El tenis de mesa sirve como laboratorio ideal para probar avances en inteligencia artificial y robótica autosuficiente (IEEE Spectrum)

Factor humano para ampliar capacidades y entrenadores virtuales

Ante estos desafíos, DeepMind optó por enfrentar a los robots contra jugadores humanos. Inicialmente, los humanos lograban rallies más prolongados, lo que amplió la variedad de situaciones para el aprendizaje.

Para manejar este escenario adverso, la arquitectura robótica combinó controladores de bajo nivel para movimientos específicos y un sistema de alto nivel que seleccionaba la mejor acción en cada momento, permitiendo la adaptación a oponentes desconocidos en tiempo real.

En pruebas, el robot perdió todos sus partidos contra jugadores avanzados, ganó por completo los encuentros ante principiantes y venció aproximadamente en la mitad contra jugadores intermedios. Tal desempeño reveló que la máquina alcanzó un nivel similar al de un aficionado humano.

La compañía DeepMind fue más allá del enfrentamiento directo y emplearon modelos de lenguaje visual (VLMs), como Gemini, para que actuasen como entrenadores virtuales. Estos modelos analizan el rendimiento del robot y sugieren mejoras a partir de observaciones visuales y descripciones de tareas, sin necesidad de definir recompensas explícitas.

El equipo desarrolló el método SAS Prompt (summarize, analyze, synthesize), con el cual el modelo de lenguaje visual (VLM) resume el desempeño, lo analiza y propone iterativamente caminos de mejora. “El VLM puede convertirse en un entrenador que analiza permanentemente el desempeño del estudiante y propone cómo superarse”, explicaron miembros de DeepMind.

Robots de DeepMind compiten entre
Robots de DeepMind compiten entre sí y contra humanos, alcanzando un nivel similar al de jugadores aficionados (DeepMind)

Futuro con robots que aprenden por su cuenta

Los desarrollos comentados marcan un avance clave para reducir la dependencia humana en la robótica. Robots que adquieren y perfeccionan capacidades de manera independiente pueden convertirse en herramientas más útiles y versátiles en la vida cotidiana y la industria.

De igual manera, persisten desafíos como estabilizar el aprendizaje competitivo y ampliar el entrenamiento supervisado por VLMs. Sin embargo, DeepMind sostiene una visión positiva: “La investigación continua en esta dirección, y llevará a máquinas más capaces y adaptables”. La perspectiva de tener robots que aprenden y se adaptan por sí mismos podría transformar la interacción humano-máquina en los próximos años.