Es improbable que los robots sean bienvenidos en los casinos en un futuro cercano, especialmente ahora que una computadora que juega póquer ha aprendido a jugar una partida virtualmente perfecta, hasta con engaños.
Es improbable que los robots sean bienvenidos en los casinos en un futuro cercano, especialmente ahora que una computadora que juega póquer ha aprendido a jugar una partida virtualmente perfecta, hasta con engaños.
Un nuevo algoritmo de computadora puede jugar una de las variantes más populares de póquer, esencialmente de forma perfecta. Sus creadores dicen que es virtualmente “incapaz de perder ante cualquier oponente en un juego limpio”.
Es un paso más allá de un programa informático capaz de vencer a los mejores jugadores humanos, como lo hizo en 1997 la computadora ajedrecista Deep Blue, de IBM, contra Garry Kasparov, en ese entonces campeón mundial de ajedrez.
El programa de póquer ideado por el científico informático Michael Bowling y sus colegas de la Universidad de Alberta, en Edmonton, Canadá, junto con Oskari Tammelin, un finlandés desarrollador de software, prácticamente juega de forma perfecta. Esto significa que esta variante particular del póquer, llamada “heads-up limit hold'em” (Hulhe, por su sigla en inglés), puede considerarse resuelta. El algoritmo se describe en un documento de investigación publicado en la revista Science.
La estrategia que los autores han calculado se acerca tanto a la perfección “que ya no tiene sentido seguir trabajando en este juego”, dice Eric Jackson, un investigador de póquer en computadora radicado en Menlo Park, en California. “Creo que será una sorpresa para los expertos que un juego así de grande haya sido resuelto tan rápidamente”, señala.
Otros juegos populares han sido resueltos antes. En particular, un equipo del mismo departamento de ciencias computacionales de Alberta (que incluyó a Neil Burch, coautor del estudio más reciente) resolvió en 2007 el juego de “draughts”, también conocido como damas inglesas.
Pero el póquer es más difícil de resolver que las damas inglesas. El ajedrez y las damas inglesas son ejemplos de juegos con información perfecta, donde los jugadores tienen un conocimiento completo de todos los eventos pasados y de la situación presente de una partida.
En el póquer, en contraste, hay ciertas cosas que el jugador no sabe: lo más importante, qué cartas se le han repartido al otro jugador. La clase de juegos con información imperfecta es especialmente interesante para economistas y teóricos del juego, porque incluye problemas prácticos, como encontrar estrategias óptimas para subastas y negociaciones.
Con pesar
En el póquer, el desafío principal es lidiar con el inmenso número de formas posibles en que puede jugarse una partida. Bowling y sus colegas han estudiado una de las formas más populares, llamada “Texas holdem”. Con solo dos jugadores, el juego se vuelve ingenioso, y es un juego “limitado” cuando el monto de las apuestas es fijo, al igual que el número de reviradas. Hay 3,16 × 1017 estados a los que Hulhe puede llegar, y 3,19 × 1014 posibles momentos en los que un jugador debe tomar una decisión.
Bowling y sus colegas diseñaron su algoritmo de forma tal que aprendiera de la experiencia y alcanzar sus habilidades de campeón le requirió jugar más de 1.500 partidas. Al principio, tomaba decisiones aleatoriamente, pero después el algoritmo se auto-actualizó agregando un valor de “arrepentimiento” a cada decisión en función de lo mal que le iba.
Este procedimiento, conocido como minimización de arrepentimiento contrafáctico, ha sido ampliamente adoptado en la Competencia Anual de Póquer Informático, que se realiza desde 2006. Pero Bowling y sus colegas lo han mejorado permitiendo que el algoritmo reevalúe las decisiones consideradas malas en las primeras rondas de entrenamiento
La otra innovación crucial fue el manejo de la gran cantidad de información que necesitaba almacenarse para desarrollar y usar la estrategia, que está en el orden de los 262 terabytes. Este volumen de información demanda almacenamiento en el disco, que es de lento acceso. Los investigadores idearon un método de compresión de datos que reduce el volumen a 11 terabytes más manejables y que solo incrementa 5% el tiempo de cómputo por el uso del almacenamiento en disco.
“Creo que el algoritmo de arrepentimiento contrafáctico es el mayor avance”, dice el científico informático Jonathan Shapiro, de la Universidad de Manchester, en el Reino Unido. “Pero han hecho otras cosas muy inteligentes para que este problema fuera computacionalmente factible”, asegura.
Juego de engaño
Como parte de su estrategia de desarrollo, la computadora aprendió a meter cierta dosis de engaño en sus jugadas. Aunque el engaño parece ser un elemento del juego psicológico muy humano, de hecho es parte de la teoría de juego y, típicamente, del póquer informático.
“El engaño resulta de las matemáticas del juego”, dice Bowling, y puede calcularse con qué frecuencia hay que engañar para obtener los mejores resultados.
Por supuesto, ningún algoritmo de póquer puede garantizar matemáticamente que se gane cada partida, porque el juego comprende un gran elemento de azar según la mano que se reciba. Pero Bowling y sus colegas han demostrado que su algoritmo a la larga siempre gana.
El problema solo está en lo que los investigadores llaman “esencialmente resuelto”, lo que significa que hay un margen ínfimo por el cual, en teoría, la computadora puede ser vencida por habilidad más que por azar. Pero en la práctica, este margen es casi inexistente.
Bowling explica que el método podría ser útil en situaciones de la vida real en las que uno debe tomar decisiones con información incompleta (por ejemplo, al manejar una cartera de inversiones). El equipo ahora se está enfocando en aplicar su método a la toma de decisiones médicas, en colaboración con especialistas en diabetes.