Google DeepMind ha sido capaz de enseñarse a sí mismo a jugar al milenario Go

Un programa de Google DeepMind ha sido capaz de enseñarse a sí mismo a jugar al milenario Go de forma imbatible y sin intervención humana en tan solo tres días, superando a la antigua versión de esta IA por 100 victorias a 0.

Lo que llamamos futuro, esa visión del mundo excitante y a veces escalofriante que nos muestran las películas de ciencia ficción, puede empezar por cosas como esta. Un sofisticado programa de inteligencia artificial llamado AlphaGoZero, desarrollado por la compañía DeepMind de Google, ha sido capaz de enseñarse a sí mismo a dominar el clásico juego de estrategia Go, que muchos consideran más sofisticado que el ajedrez. Y lo ha hecho desde cero, a una velocidad increíble y sin intervención humana. La investigación de la inteligencia artificial ha avanzado rápidamente en una amplia variedad de campos, pero su gran reto es desarrollar algoritmos que aprendan conceptos desafiantes desde una pizarra en blanco y con competencia sobrehumana. Y eso, según publica la revista Nature, es lo que ha logrado el nuevo programa.

Una primera versión del software, AlphaGo, se hizo famosa en 2016 al derrotar al campeón mundial de Go Lee Sedol en un torneo. Pero para lograrlo, fue entrenada durante varios meses a través del aprendizaje supervisado basado en millones de movimientos humanos expertos, combinado con el aprendizaje de refuerzo en solitario. El programa requirió 48 TPU (chips especializados que funcionan de forma similar a las redes neuronales). Pero AlphaGo Zero es mucho más listo. Aprende únicamente jugando contra sí mismo, a partir de movimientos aleatorios, con solo el tablero y las piezas como entradas y sin que ningún humano le diga cómo hacerlo. Convertido en su propio maestro, mejora con cada repetición de juego automático. Usa solo cuatro TPU para «pensar» cada jugada en 0,4 segundos.

Después de tan solo tres días de entrenamiento, lo que incluye casi 5 millones de juegos solitarios (frente a los 30 millones durante varios meses de la primera versión), el nuevo software ya estaba preparado para superar a los jugadores humanos y derrotar a todas las versiones anteriores de AlphaGo por cien juegos a cero. Incluso descubrió por sí mismo algunos de los mismos principios del juego que los humanos han tardado miles de años en conceptualizar y también desarrolló estrategias novedosas.

AlphaGo Zero «muestra cuánto progreso podemos hacer incluso con menos potencia de computación y cero uso de datos humanos», explica Demis Hassabis, confundador y primer ejecutivo de DeepMind.

El Go es solo un juego, pero no uno cualquiera. Muy popular en países como China, Corea del Sur o Japón, el objetivo es conquistar el mayor territorio posible posicionando unas piedras blancas y negras sobre un tablero. Las reglas son sencillas, pero las posibilidades múltiples. Edward Lasker, un maestro del ajedrez y gran entusiasta del Go, llegó a decir que «si existen formas de vida inteligente en otros lugares del Universo, casi sin duda jugarán al Go».

https://www.nature.com/news/self-taught-ai-is-best-yet-at-strategy-game-go-1.22858