Google développe une IA capable de jouer à la fois aux échecs… et à Pac-Man

(Robin Utrecht/ Rex/ Shutterstock)

Même si la maîtrise des échecs a été une grande victoire pour l’intelligence artificielle – en raison du nombre gigantesque de coups possible – la prouesse était encore relativement simple dans la mesure où les règles du jeu sont très claires. Un algorithme peut en effet savoir à tout moment quels sont les mouvements possibles de l’adversaire.

Ce n’est pas aussi simple dans un jeu comme Pac-Man. Il faut tenir compte de la forme du labyrinthe, de l’emplacement des fantômes, des zones comportant des points à ‘dévorer’, de la présence de bonus, etc. Si des IA peuvent être conçues pour maîtriser ce type de jeux, elles sont toutefois fondamentalement différentes des IA passées maître aux échecs…. Jusqu’à présent, écrit le site spécialisé en technologie ARS Technica. DeepMind, une filiale de Google, a développé MuZero, une IA capable de jouer aux deux jeux. Et de gagner.

Les algorithmes qui fonctionnent avec des jeux comme les échecs et le Go procèdent via un arbre de décision. Cette approche consiste à analyser toutes les actions possibles qui résultent d’une précédente action. Elle nécessite une grande puissance de calcul, et les algorithmes doivent connaître les règles du jeu et les appliquer à une situation en cours. D’autres jeux peuvent être joués par des algorithmes qui ne se soucient guère de la situation en cours. Ils analysent simplement ce qu’ils voient, ou en tous cas les positions des pixels qu’ils enregistrent, et choisissent une action en fonction de cela. Il n’existe pas de modèle interne qui montre la situation, et le processus de décision de l’IA consiste principalement à déterminer quelle réaction est appropriée sur la base des informations disponibles.

MuZero

MuZero, l’algorithme qui peut gérer les deux jeux, procède comme suit: trois évaluations sont effectuées simultanément. La première sélectionne le coup suivant en fonction de la situation en cours. La seconde prédit la nouvelle situation, et la récompense immédiate qui en découlera. Et enfin, une troisième tient compte de l’expérience passée et l’utilise pour influencer la prise de décision. Tous les résultats sont le fruit d’un entraînement, qui vise à minimiser les erreurs et se concentrer sur qu’il se passe réellement dans le jeu.

Cette approche permet à MuZero d’être le premier algorithme capable de gagner, et de loin, au jeu de Go et aux échecs, et qui obtient également des scores de plus en plus élevés dans les jeux d’arcade traditionnels. Cela montre que les algorithmes s’améliorent de plus en plus pour accomplir une seule tâche, mais qu’ils s’apparentent également toujours davantage à des outils polyvalents.

Lire aussi: